An implementation of model parallel autoregressive transformers on GPUs, based on the Megatron and DeepSpeed libraries
翻译 - 基于DeepSpeed库的GPU上类似于GPT-3的模型并行模型的实现。设计为能够训练成千上亿个参数或更大参数的模型。