Transformers

MegatronBERT

概述

MegatronBERT模型是由Mohammad Shoeybi、Mostofa Patwary、Raul Puri、Patrick LeGresley、Jared Casper和Bryan Catanzaro在Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism中提出的。

论文的摘要如下：

最近在语言建模方面的工作表明，训练大型变压器模型可以推动自然语言处理应用的技术进步。然而，由于内存限制，非常大的模型可能很难训练。在这项工作中，我们展示了训练非常大的变压器模型的技术，并实现了一种简单、高效的层内模型并行方法，使得训练具有数十亿参数的变压器模型成为可能。我们的方法不需要新的编译器或库更改，与管道模型并行正交且互补，并且可以通过在原生PyTorch中插入少量通信操作完全实现。我们通过使用512个GPU收敛基于变压器的模型，参数高达83亿，展示了这种方法。与一个强大的单GPU基线相比，我们在整个应用中维持了15.1 PetaFLOPs，缩放效率为76%，该基线维持了39 TeraFLOPs，这是峰值FLOPs的30%。为了证明大型语言模型可以进一步推动技术进步（SOTA），我们训练了一个83亿参数的变压器语言模型，类似于GPT-2，以及一个39亿参数的模型，类似于BERT。我们展示了在类似BERT的模型中，随着模型规模的增大，仔细关注层归一化的位置对于提高性能至关重要。使用GPT-2模型，我们在WikiText103（10.8，相比SOTA困惑度15.8）和LAMBADA（66.5%，相比SOTA准确率63.2%）数据集上取得了SOTA结果。我们的BERT模型在RACE数据集上取得了SOTA结果（90.9%，相比SOTA准确率89.4%）。

该模型由jdemouth贡献。原始代码可以在这里找到。该仓库包含了Megatron语言模型的多GPU和多节点实现。特别是，它包含了一种使用“张量并行”和“管道并行”技术的混合模型并行方法。

使用提示

我们提供了预训练的BERT-345M检查点，用于评估或微调下游任务。

要访问这些检查点，首先注册并设置NVIDIA GPU Cloud (NGC) Registry CLI。有关下载模型的更多文档可以在NGC文档中找到。

或者，您可以直接使用以下方式下载检查点：

BERT-345M-uncased:

wget --content-disposition https://api.ngc.nvidia.com/v2/models/nvidia/megatron_bert_345m/versions/v0.1_uncased/zip
-O megatron_bert_345m_v0_1_uncased.zip

BERT-345M-cased:

wget --content-disposition https://api.ngc.nvidia.com/v2/models/nvidia/megatron_bert_345m/versions/v0.1_cased/zip -O
megatron_bert_345m_v0_1_cased.zip

一旦你从NVIDIA GPU Cloud (NGC)获得了检查点，你需要将它们转换为一种格式，这种格式将很容易被Hugging Face Transformers和我们移植的BERT代码加载。

以下命令允许您进行转换。我们假设文件夹 models/megatron_bert 包含 megatron_bert_345m_v0_1_{cased, uncased}.zip 并且命令是从该文件夹内部运行的：

python3 $PATH_TO_TRANSFORMERS/models/megatron_bert/convert_megatron_bert_checkpoint.py megatron_bert_345m_v0_1_uncased.zip

python3 $PATH_TO_TRANSFORMERS/models/megatron_bert/convert_megatron_bert_checkpoint.py megatron_bert_345m_v0_1_cased.zip

Transformers

MegatronBERT

概述

使用提示

资源

MegatronBertConfig

类 transformers.MegatronBertConfig

MegatronBertModel

class transformers.MegatronBertModel

前进

MegatronBertForMaskedLM

类 transformers.MegatronBertForMaskedLM

前进

MegatronBertForCausalLM

类 transformers.MegatronBertForCausalLM

前进

MegatronBertForNextSentencePrediction

类 transformers.MegatronBertForNextSentencePrediction

前进

MegatronBertForPreTraining

类 transformers.MegatronBertForPreTraining

前进

MegatronBertForSequenceClassification

类 transformers.MegatronBertForSequenceClassification

前进

MegatronBertForMultipleChoice

类 transformers.MegatronBertForMultipleChoice

前进

MegatronBertForTokenClassification

类 transformers.MegatronBertForTokenClassification

前进

MegatronBertForQuestionAnswering

类 transformers.MegatronBertForQuestionAnswering

前进