Transformers 文档

BERT

Transformers

BERT

概述

BERT模型由Jacob Devlin、Ming-Wei Chang、Kenton Lee和Kristina Toutanova在BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding中提出。它是一个双向变压器，通过结合掩码语言建模目标和下一句预测在多伦多书籍语料库和维基百科组成的大规模语料库上进行预训练。

论文的摘要如下：

我们介绍了一种新的语言表示模型，称为BERT，它代表来自变压器的双向编码器表示。与最近的语言表示模型不同，BERT旨在通过在所有层中联合调节左右上下文，从未标记的文本中预训练深度双向表示。因此，预训练的BERT模型只需一个额外的输出层即可微调，以创建用于广泛任务的最先进模型，例如问答和语言推理，而无需进行大量的任务特定架构修改。

BERT在概念上简单，但在实证上非常强大。它在十一个自然语言处理任务中取得了新的最先进结果，包括将GLUE分数推至80.5%（绝对提高了7.7个百分点），MultiNLI准确率至86.7%（绝对提高了4.6个百分点），SQuAD v1.1问答测试F1至93.2（绝对提高了1.5个百分点）以及SQuAD v2.0测试F1至83.1（绝对提高了5.1个百分点）。

该模型由thomwolf贡献。原始代码可以在这里找到。

使用提示

BERT 是一个带有绝对位置嵌入的模型，因此通常建议在右侧而不是左侧填充输入。
BERT 是通过掩码语言建模（MLM）和下一句预测（NSP）目标进行训练的。它在预测掩码标记和一般自然语言理解（NLU）方面非常有效，但在文本生成方面并不最优。
通过使用随机掩码来破坏输入，更准确地说，在预训练期间，给定百分比的标记（通常为15%）被以下方式掩码：
- a special mask token with probability 0.8
- a random token different from the one masked with probability 0.1
- the same token with probability 0.1
模型必须预测原始句子，但还有第二个目标：输入是两个句子A和B（中间有一个分隔符）。有50%的概率，这两个句子在语料库中是连续的，剩下的50%它们是不相关的。模型需要预测这两个句子是否是连续的。

使用缩放点积注意力 (SDPA)

PyTorch 包含一个原生的缩放点积注意力（SDPA）操作符，作为 torch.nn.functional 的一部分。这个函数包含了几种实现，可以根据输入和使用的硬件进行应用。更多信息请参阅官方文档或 GPU 推理页面。

默认情况下，当有可用实现时，SDPA 用于 torch>=2.1.1，但你也可以在 from_pretrained() 中设置 attn_implementation="sdpa" 来明确请求使用 SDPA。

from transformers import BertModel

model = BertModel.from_pretrained("bert-base-uncased", torch_dtype=torch.float16, attn_implementation="sdpa")
...

为了获得最佳加速效果，我们建议以半精度加载模型（例如 torch.float16 或 torch.bfloat16）。

在本地基准测试（A100-80GB，CPUx12，RAM 96.6GB，PyTorch 2.2.0，操作系统 Ubuntu 22.04）中使用float16时，我们在训练和推理过程中看到了以下加速效果。

训练

batch_size	seq_len	每批次时间（eager - 秒）	每批次时间（sdpa - 秒）	加速百分比 (%)	Eager 峰值内存 (MB)	sdpa 峰值内存 (MB)	内存节省百分比 (%)
4	256	0.023	0.017	35.472	939.213	764.834	22.800
4	512	0.023	0.018	23.687	1970.447	1227.162	60.569
8	256	0.023	0.018	23.491	1594.295	1226.114	30.028
8	512	0.035	0.025	43.058	3629.401	2134.262	70.054
16	256	0.030	0.024	25.583	2874.426	2134.262	34.680
16	512	0.064	0.044	46.223	6964.659	3961.013	75.830

推理

batch_size	seq_len	每个令牌的延迟 eager (毫秒)	每个令牌的延迟 SDPA (毫秒)	加速 (%)	内存 eager (MB)	内存 BT (MB)	内存节省 (%)
1	128	5.736	4.987	15.022	282.661	282.924	-0.093
1	256	5.689	4.945	15.055	298.686	298.948	-0.088
2	128	6.154	4.982	23.521	314.523	314.785	-0.083
2	256	6.201	4.949	25.303	347.546	347.033	0.148
4	128	6.049	4.987	21.305	378.895	379.301	-0.107
4	256	6.285	5.364	17.166	443.209	444.382	-0.264

资源

一份官方的Hugging Face和社区（由🌎表示）资源列表，帮助您开始使用BERT。如果您有兴趣提交资源以包含在此处，请随时打开一个Pull Request，我们将对其进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Text Classification

一篇关于BERT文本分类在不同语言中的应用的博客文章。
一个用于微调BERT（及其同类）进行多标签文本分类的笔记本。
一个关于如何使用PyTorch微调BERT进行多标签分类的笔记本。🌎
一个关于如何使用BERT进行摘要的EncoderDecoder模型预热启动的笔记本。
BertForSequenceClassification 由这个示例脚本和笔记本支持。
TFBertForSequenceClassification 由这个示例脚本和笔记本支持。
FlaxBertForSequenceClassification 由这个示例脚本和笔记本支持。
文本分类任务指南

Token Classification

一篇关于如何使用Hugging Face Transformers与Keras：微调非英语BERT进行命名实体识别的博客文章。
一个用于微调BERT进行命名实体识别的笔记本，在标记化过程中仅使用每个单词的第一个字片。要将单词的标签传播到所有字片，请参阅此版本的笔记本。
BertForTokenClassification 由这个示例脚本和笔记本支持。
TFBertForTokenClassification 由这个示例脚本和笔记本支持。
FlaxBertForTokenClassification 由这个 example script 支持。
Token classification 🤗 Hugging Face 课程的章节。
Token分类任务指南

Fill-Mask

BertForMaskedLM 由这个示例脚本和笔记本支持。
TFBertForMaskedLM 由这个示例脚本和笔记本支持。
FlaxBertForMaskedLM 由这个示例脚本和笔记本支持。
Masked language modeling 🤗 Hugging Face 课程的章节。
Masked language modeling task guide

Question Answering

BertForQuestionAnswering 由这个示例脚本和笔记本支持。
TFBertForQuestionAnswering 由这个示例脚本和笔记本支持。
FlaxBertForQuestionAnswering 由这个 example script 支持。
Question answering 章节来自 🤗 Hugging Face 课程。
问答任务指南

多项选择

⚡️ 推理

一篇关于如何使用Hugging Face Transformers和AWS Inferentia加速BERT推理的博客文章。
一篇关于如何在GPU上使用DeepSpeed-Inference加速BERT推理的博客文章。

⚙️ 预训练

一篇关于使用Hugging Face Transformers和Habana Gaudi预训练BERT的博客文章。

🚀 部署

一篇关于如何使用Convert Transformers to ONNX with Hugging Face Optimum的博客文章。
一篇关于如何在AWS上Setup Deep Learning environment for Hugging Face Transformers with Habana Gaudi的博客文章。
一篇关于使用Hugging Face Transformers、Amazon SageMaker和Terraform模块自动扩展BERT的博客文章。
一篇关于Serverless BERT with HuggingFace, AWS Lambda, and Docker的博客文章。
一篇关于Hugging Face Transformers BERT fine-tuning using Amazon SageMaker and Training Compiler的博客文章。
一篇关于使用Transformers和Amazon SageMaker进行BERT任务特定知识蒸馏的博客文章。

Transformers

BERT

概述

使用提示

使用缩放点积注意力 (SDPA)

训练

推理

资源

BertConfig

类 transformers.BertConfig

BertTokenizer

类 transformers.BertTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

保存词汇表

BertTokenizerFast

类 transformers.BertTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

TFBertTokenizer

类 transformers.TFBertTokenizer

from_pretrained

from_tokenizer

Bert 特定输出

类 transformers.models.bert.modeling_bert.BertForPreTrainingOutput

类 transformers.models.bert.modeling_tf_bert.TFBertForPreTrainingOutput

类 transformers.models.bert.modeling_flax_bert.FlaxBertForPreTrainingOutput

替换

BertModel

类 transformers.BertModel

前进

BertForPreTraining

类 transformers.BertForPreTraining

前进

BertLMHeadModel

类 transformers.BertLMHeadModel

前进

BertForMaskedLM

类 transformers.BertForMaskedLM

前进

BertForNextSentencePrediction

类 transformers.BertForNextSentencePrediction

前进

BertForSequenceClassification

类 transformers.BertForSequenceClassification

前进

BertForMultipleChoice

类 transformers.BertForMultipleChoice

前进

BertForTokenClassification

类 transformers.BertForTokenClassification

前进

BertForQuestionAnswering

类 transformers.BertForQuestionAnswering

前进

TFBertModel

类 transformers.TFBertModel

调用

TFBertForPreTraining

类 transformers.TFBertForPreTraining

调用

TFBertModelLMHeadModel

类 transformers.TFBertLMHeadModel

调用

TFBertForMaskedLM

类 transformers.TFBertForMaskedLM

调用

TFBertForNextSentencePrediction

类 transformers.TFBertForNextSentencePrediction

调用

TFBertForSequenceClassification

类 transformers.TFBertForSequenceClassification

调用

TFBertForMultipleChoice

类 transformers.TFBertForMultipleChoice

调用

TFBertForTokenClassification

类 transformers.TFBertForTokenClassification

调用

call

call

call

call

call

call

call

call

call