Transformers 文档

RoBERTa

Transformers

RoBERTa

概述

RoBERTa模型由Yinhan Liu、Myle Ott、Naman Goyal、Jingfei Du、Mandar Joshi、Danqi Chen、Omer Levy、Mike Lewis、Luke Zettlemoyer、Veselin Stoyanov在RoBERTa: A Robustly Optimized BERT Pretraining Approach中提出。它基于2018年发布的Google的BERT模型。

它基于BERT并修改了关键的超参数，移除了下一个句子的预训练目标，并使用更大的小批次和学习率进行训练。

论文的摘要如下：

语言模型预训练带来了显著的性能提升，但不同方法之间的仔细比较具有挑战性。训练在计算上非常昂贵，通常是在不同大小的私有数据集上进行的，并且，正如我们将展示的，超参数选择对最终结果有重大影响。我们提出了BERT预训练的复制研究（Devlin等，2019），该研究仔细测量了许多关键超参数和训练数据大小的影响。我们发现BERT明显训练不足，并且可以匹配或超过其后发布的每个模型的性能。我们的最佳模型在GLUE、RACE和SQuAD上取得了最先进的结果。这些结果突出了之前被忽视的设计选择的重要性，并对最近报告的改进来源提出了疑问。我们发布了我们的模型和代码。

该模型由julien-c贡献。原始代码可以在这里找到。

使用提示

此实现与BertModel相同，只是对嵌入进行了微调，并为RoBERTa预训练模型进行了设置。
RoBERTa 具有与 BERT 相同的架构，但使用字节级 BPE 作为分词器（与 GPT-2 相同），并采用不同的预训练方案。
RoBERTa 没有 token_type_ids，因此你不需要指明哪个标记属于哪个段。只需使用分隔标记 tokenizer.sep_token（或）来分隔你的段。
RoBERTa 与 BERT 类似，但采用了更好的预训练技术：
- Dynamic masking: tokens are masked differently at each epoch, whereas BERT does it once and for all.
- Sentence packing: Sentences are packed together to reach 512 tokens (so the sentences are in an order that may span several documents).
- Larger batches: Training uses larger batches.
- Byte-level BPE vocabulary: Uses BPE with bytes as a subunit instead of characters, accommodating Unicode characters.
CamemBERT 是 RoBERTa 的一个封装。请参考其模型页面以获取使用示例。

资源

以下是官方 Hugging Face 和社区（由🌎表示）提供的资源列表，帮助您开始使用 RoBERTa。如果您有兴趣提交资源以包含在此处，请随时打开 Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Text Classification

一篇关于使用RoBERTa和Inference API进行Twitter情感分析入门的博客。
一篇关于使用RoBERTa进行Opinion Classification with Kili and Hugging Face AutoTrain的博客。
一个关于如何微调RoBERTa进行情感分析的笔记本。🌎
RobertaForSequenceClassification 由这个示例脚本和笔记本支持。
TFRobertaForSequenceClassification 由这个示例脚本和笔记本支持。
FlaxRobertaForSequenceClassification 由这个示例脚本和笔记本支持。
文本分类任务指南

Token Classification

RobertaForTokenClassification 由这个示例脚本和笔记本支持。
TFRobertaForTokenClassification 由这个示例脚本和笔记本支持。
FlaxRobertaForTokenClassification 由这个 example script 支持。
Token classification 🤗 Hugging Face 课程的章节。
Token分类任务指南

Fill-Mask

一篇关于如何使用Transformers和Tokenizers从头开始训练新的语言模型的博客，使用RoBERTa。
RobertaForMaskedLM 由这个示例脚本和笔记本支持。
TFRobertaForMaskedLM 由这个示例脚本和笔记本支持。
FlaxRobertaForMaskedLM 由这个示例脚本和笔记本支持。
Masked language modeling 🤗 Hugging Face 课程的章节。
Masked language modeling task guide

Question Answering

一篇关于使用Optimum和Transformers Pipelines加速推理的博客，使用RoBERTa进行问答。
RobertaForQuestionAnswering 由这个示例脚本和笔记本支持。
TFRobertaForQuestionAnswering 由这个示例脚本和笔记本支持。
FlaxRobertaForQuestionAnswering 由这个示例脚本支持。
Question answering 章节来自 🤗 Hugging Face 课程。
问答任务指南

多项选择

RobertaForMultipleChoice 由这个示例脚本和笔记本支持。
TFRobertaForMultipleChoice 由这个示例脚本和笔记本支持。
多项选择任务指南

Transformers

RoBERTa

概述

使用提示

资源

RobertaConfig

类 transformers.RobertaConfig

RobertaTokenizer

类 transformers.RobertaTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

保存词汇表

RobertaTokenizerFast

类 transformers.RobertaTokenizerFast

build_inputs_with_special_tokens

RobertaModel

类 transformers.RobertaModel

前进

RobertaForCausalLM

类 transformers.RobertaForCausalLM

前进

RobertaForMaskedLM

类 transformers.RobertaForMaskedLM

前进

RobertaForSequenceClassification

类 transformers.RobertaForSequenceClassification

前进

RobertaForMultipleChoice

类 transformers.RobertaForMultipleChoice

前进

RobertaForTokenClassification

类 transformers.RobertaForTokenClassification

前进

RobertaForQuestionAnswering

类 transformers.RobertaForQuestionAnswering

前进

TFRobertaModel

类 transformers.TFRobertaModel

调用

TFRobertaForCausalLM

类 transformers.TFRobertaForCausalLM

调用

TFRobertaForMaskedLM

类 transformers.TFRobertaForMaskedLM

调用

TFRobertaForSequenceClassification

类 transformers.TFRobertaForSequenceClassification

调用

TFRobertaForMultipleChoice

类 transformers.TFRobertaForMultipleChoice

调用

TFRobertaForTokenClassification

类 transformers.TFRobertaForTokenClassification

调用

TFRobertaForQuestionAnswering

类 transformers.TFRobertaForQuestionAnswering

调用

FlaxRobertaModel

类 transformers.FlaxRobertaModel

__call__

FlaxRobertaForCausalLM

类 transformers.FlaxRobertaForCausalLM

__call__

FlaxRobertaForMaskedLM

class transformers.FlaxRobertaForMaskedLM

__call__

FlaxRobertaForSequenceClassification

类 transformers.FlaxRobertaForSequenceClassification

__call__

FlaxRobertaForMultipleChoice

类 transformers.FlaxRobertaForMultipleChoice

__call__

FlaxRobertaForTokenClassification

类 transformers.FlaxRobertaForTokenClassification

__call__

FlaxRobertaForQuestionAnswering

类 transformers.FlaxRobertaForQuestionAnswering

__call__

call

call

call

call

call

call

call