Transformers 文档

DeBERTa-v2

Transformers

DeBERTa-v2

概述

DeBERTa模型由彭成和、刘晓东、高剑峰、陈伟柱在DeBERTa: Decoding-enhanced BERT with Disentangled Attention中提出。它基于谷歌2018年发布的BERT模型和Facebook 2019年发布的RoBERTa模型。

它在RoBERTa的基础上构建，使用了分离注意力和增强的掩码解码器训练，并且只使用了RoBERTa一半的数据。

论文的摘要如下：

预训练神经语言模型的最新进展显著提高了许多自然语言处理（NLP）任务的性能。在本文中，我们提出了一种新的模型架构DeBERTa（具有解耦注意力的解码增强BERT），该架构通过两种新技术改进了BERT和RoBERTa模型。第一种是解耦注意力机制，其中每个单词使用两个向量表示，分别编码其内容和位置，并且单词之间的注意力权重是使用其内容和相对位置的解耦矩阵计算的。其次，使用增强的掩码解码器替换输出softmax层，以预测模型预训练中的掩码标记。我们展示了这两种技术显著提高了模型预训练的效率和下游任务的性能。与RoBERTa-Large相比，使用一半训练数据训练的DeBERTa模型在各种NLP任务上表现一致更好，在MNLI上提高了+0.9%（90.2% vs. 91.1%），在SQuAD v2.0上提高了+2.3%（88.4% vs. 90.7%），在RACE上提高了+3.6%（83.2% vs. 86.8%）。DeBERTa代码和预训练模型将在https://github.com/microsoft/DeBERTa上公开提供。

以下信息可以直接在原始实现仓库中查看。DeBERTa v2 是 DeBERTa 模型的第二个版本。它包括用于 SuperGLUE 单模型提交的 1.5B 模型，并达到了 89.9 分，而人类基线为 89.8 分。您可以在作者的博客中找到有关此提交的更多详细信息。

v2 新功能：

词汇表 在v2中，分词器被更改为使用从训练数据构建的128K大小的新词汇表。现在分词器不再是基于GPT2的分词器，而是基于sentencepiece的分词器。
nGiE（nGram 诱导输入编码） DeBERTa-v2 模型在第一个 transformer 层旁边使用了一个额外的卷积层，以更好地学习输入标记的局部依赖关系。
在注意力层中共享位置投影矩阵与内容投影矩阵 根据之前的实验，这可以在不影响性能的情况下节省参数。
应用桶编码相对位置 DeBERTa-v2 模型使用对数桶来编码相对位置，类似于 T5。
900M 模型 & 1.5B 模型 提供了两种额外的模型大小：900M 和 1.5B，这显著提高了下游任务的性能。

该模型由DeBERTa贡献。该模型的TF 2.0实现由kamalkraj贡献。原始代码可以在这里找到。

Transformers

DeBERTa-v2

概述

资源

DebertaV2Config

类 transformers.DebertaV2Config

DebertaV2Tokenizer

类 transformers.DebertaV2Tokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

保存词汇表

DebertaV2TokenizerFast

类 transformers.DebertaV2TokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

DebertaV2Model

类 transformers.DebertaV2Model

前进

DebertaV2预训练模型

类 transformers.DebertaV2PreTrainedModel

_forward_unimplemented

DebertaV2ForMaskedLM

类 transformers.DebertaV2ForMaskedLM

前进

DebertaV2ForSequenceClassification

类 transformers.DebertaV2ForSequenceClassification

前进

DebertaV2ForTokenClassification

类 transformers.DebertaV2ForTokenClassification

前进

DebertaV2ForQuestionAnswering

类 transformers.DebertaV2ForQuestionAnswering

前进

DebertaV2ForMultipleChoice

类 transformers.DebertaV2ForMultipleChoice

前进

TFDebertaV2Model

类 transformers.TFDebertaV2Model

调用

TFDebertaV2PreTrainedModel

类 transformers.TFDebertaV2PreTrainedModel

调用

TFDebertaV2ForMaskedLM

类 transformers.TFDebertaV2ForMaskedLM

调用

TFDebertaV2ForSequenceClassification

类 transformers.TFDebertaV2ForSequenceClassification

调用

TFDebertaV2ForTokenClassification

类 transformers.TFDebertaV2ForTokenClassification

调用

TFDebertaV2ForQuestionAnswering

类 transformers.TFDebertaV2ForQuestionAnswering

调用

TFDebertaV2ForMultipleChoice

类 transformers.TFDebertaV2ForMultipleChoice

调用