Transformers 文档

DeBERTa

Transformers

DeBERTa

概述

DeBERTa模型由彭成和、刘晓东、高剑峰、陈伟柱在DeBERTa: Decoding-enhanced BERT with Disentangled Attention中提出。它基于谷歌2018年发布的BERT模型和Facebook 2019年发布的RoBERTa模型。

它在RoBERTa的基础上构建，使用了分离注意力和增强的掩码解码器训练，并且只使用了RoBERTa一半的数据。

论文的摘要如下：

预训练神经语言模型的最新进展显著提高了许多自然语言处理（NLP）任务的性能。在本文中，我们提出了一种新的模型架构DeBERTa（具有解耦注意力的解码增强BERT），该架构通过两种新技术改进了BERT和RoBERTa模型。第一种是解耦注意力机制，其中每个单词使用两个向量表示，分别编码其内容和位置，并且单词之间的注意力权重是使用其内容和相对位置的解耦矩阵计算的。其次，使用增强的掩码解码器替换输出softmax层，以预测模型预训练中的掩码标记。我们展示了这两种技术显著提高了模型预训练的效率和下游任务的性能。与RoBERTa-Large相比，使用一半训练数据训练的DeBERTa模型在各种NLP任务上表现一致更好，在MNLI上提高了+0.9%（90.2% vs. 91.1%），在SQuAD v2.0上提高了+2.3%（88.4% vs. 90.7%），在RACE上提高了+3.6%（83.2% vs. 86.8%）。DeBERTa代码和预训练模型将在https://github.com/microsoft/DeBERTa上公开提供。

该模型由DeBERTa贡献。该模型的TF 2.0实现由kamalkraj贡献。原始代码可以在这里找到。

资源

以下是官方 Hugging Face 和社区（由🌎表示）提供的资源列表，帮助您开始使用 DeBERTa。如果您有兴趣提交资源以包含在此处，请随时打开 Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Text Classification

一篇关于如何使用DeBERTa加速大型模型训练的博客文章。
一篇关于使用机器学习提升客户服务的博客文章，使用了DeBERTa。
DebertaForSequenceClassification 由这个示例脚本和笔记本支持。
TFDebertaForSequenceClassification 由这个示例脚本和笔记本支持。
文本分类任务指南

Token Classification

DebertaForTokenClassification 由这个示例脚本和笔记本支持。
TFDebertaForTokenClassification 由这个示例脚本和笔记本支持。
Token classification 🤗 Hugging Face 课程的章节。
Byte-Pair Encoding tokenization 章节来自 🤗 Hugging Face 课程。
Token分类任务指南

Fill-Mask

DebertaForMaskedLM 由这个示例脚本和笔记本支持。
TFDebertaForMaskedLM 由这个示例脚本和笔记本支持。
Masked language modeling 🤗 Hugging Face 课程的章节。
Masked language modeling task guide

Question Answering

DebertaForQuestionAnswering 由这个示例脚本和笔记本支持。
TFDebertaForQuestionAnswering 由这个示例脚本和笔记本支持。
Question answering 章节来自 🤗 Hugging Face 课程。
问答任务指南

Transformers

DeBERTa

概述

资源

DebertaConfig

类 transformers.DebertaConfig

DebertaTokenizer

类 transformers.DebertaTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

保存词汇表

DebertaTokenizerFast

类 transformers.DebertaTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

DebertaModel

类 transformers.DebertaModel

前进

DebertaPreTrainedModel

类 transformers.DebertaPreTrainedModel

DebertaForMaskedLM

类 transformers.DebertaForMaskedLM

前进

DebertaForSequenceClassification

类 transformers.DebertaForSequenceClassification

前进

DebertaForTokenClassification

类 transformers.DebertaForTokenClassification

前进

DebertaForQuestionAnswering

类 transformers.DebertaForQuestionAnswering

前进

TFDebertaModel

类 transformers.TFDebertaModel

调用

TFDebertaPreTrainedModel

类 transformers.TFDebertaPreTrainedModel

调用

TFDebertaForMaskedLM

类 transformers.TFDebertaForMaskedLM

调用

TFDebertaForSequenceClassification

class transformers.TFDebertaForSequenceClassification

调用

TFDebertaForTokenClassification

类 transformers.TFDebertaForTokenClassification

调用

TFDebertaForQuestionAnswering

类 transformers.TFDebertaForQuestionAnswering

调用