Transformers 文档

ALBERT

Transformers

ALBERT

概述

ALBERT模型由Zhenzhong Lan、Mingda Chen、Sebastian Goodman、Kevin Gimpel、Piyush Sharma和Radu Soricut在ALBERT: A Lite BERT for Self-supervised Learning of Language Representations中提出。它提出了两种参数减少技术，以降低内存消耗并提高BERT的训练速度：

将嵌入矩阵拆分为两个较小的矩阵。
在组之间使用重复的分层。

论文的摘要如下：

在预训练自然语言表示时，增加模型大小通常会提高下游任务的性能。然而，在某些情况下，由于GPU/TPU内存限制、更长的训练时间和意外的模型退化，进一步增加模型变得困难。为了解决这些问题，我们提出了两种参数减少技术，以降低内存消耗并提高BERT的训练速度。全面的实证证据表明，我们提出的方法使得模型比原始BERT具有更好的扩展性。我们还使用了一种自监督损失，专注于建模句子间的一致性，并表明它始终有助于具有多句子输入的下游任务。因此，我们的最佳模型在GLUE、RACE和SQuAD基准测试中建立了新的最先进结果，同时与BERT-large相比具有更少的参数。

该模型由lysandre贡献。该模型的jax版本由kamalkraj贡献。原始代码可以在这里找到。

使用提示

ALBERT 是一个具有绝对位置嵌入的模型，因此通常建议在右侧而不是左侧填充输入。
ALBERT 使用重复的层，这导致内存占用较小，然而计算成本仍然与具有相同隐藏层数的 BERT 类似架构相似，因为它必须迭代相同数量的（重复）层。
嵌入大小E与隐藏大小H不同，这是合理的，因为嵌入是上下文无关的（一个嵌入向量代表一个标记），而隐藏状态是上下文相关的（一个隐藏状态代表一系列标记），因此H >> E更合理。此外，嵌入矩阵很大，因为它是V x E（V是词汇表大小）。如果E < H，它的参数更少。
层被分组，这些组共享参数（以节省内存）。下一句预测被替换为句子顺序预测：在输入中，我们有两个连续的句子A和B，我们或者先输入A后输入B，或者先输入B后输入A。模型必须预测它们是否被交换了。

使用缩放点积注意力 (SDPA)

PyTorch 包含一个原生的缩放点积注意力（SDPA）操作符，作为 torch.nn.functional 的一部分。这个函数包含了几种实现，可以根据输入和使用的硬件进行应用。更多信息请参阅官方文档或 GPU 推理页面。

默认情况下，当有可用实现时，SDPA 用于 torch>=2.1.1，但你也可以在 from_pretrained() 中设置 attn_implementation="sdpa" 来明确请求使用 SDPA。

from transformers import AlbertModel
model = AlbertModel.from_pretrained("albert/albert-base-v1", torch_dtype=torch.float16, attn_implementation="sdpa")
...

为了获得最佳加速效果，我们建议以半精度加载模型（例如 torch.float16 或 torch.bfloat16）。

在本地基准测试（GeForce RTX 2060-8GB，PyTorch 2.3.1，操作系统 Ubuntu 20.04）中使用 float16，我们在训练和推理过程中看到了以下加速效果。

训练100次迭代

batch_size	seq_len	每批次时间（eager - 秒）	每批次时间（sdpa - 秒）	加速百分比 (%)	Eager 峰值内存 (MB)	sdpa 峰值内存 (MB)	内存节省百分比 (%)
2	256	0.028	0.024	14.388	358.411	321.088	11.624
2	512	0.049	0.041	17.681	753.458	602.660	25.022
4	256	0.044	0.039	12.246	679.534	602.660	12.756
4	512	0.090	0.076	18.472	1434.820	1134.140	26.512
8	256	0.081	0.072	12.664	1283.825	1134.140	13.198
8	512	0.170	0.143	18.957	2820.398	2219.695	27.062

使用50批次进行推理

batch_size	seq_len	每个令牌的延迟 eager (毫秒)	每个令牌的延迟 SDPA (毫秒)	加速 (%)	内存 eager (MB)	内存 BT (MB)	内存节省 (%)
4	128	0.083	0.071	16.967	48.319	48.45	-0.268
4	256	0.148	0.127	16.37	63.4	63.922	-0.817
4	512	0.31	0.247	25.473	110.092	94.343	16.693
8	128	0.137	0.124	11.102	63.4	63.66	-0.409
8	256	0.271	0.231	17.271	91.202	92.246	-1.132
8	512	0.602	0.48	25.47	186.159	152.564	22.021
16	128	0.252	0.224	12.506	91.202	91.722	-0.567
16	256	0.526	0.448	17.604	148.378	150.467	-1.388
16	512	1.203	0.96	25.365	338.293	271.102	24.784

该模型由lysandre贡献。该模型的jax版本由kamalkraj贡献。原始代码可以在这里找到。

资源

以下部分提供的资源包括官方Hugging Face和社区（由🌎表示）的资源列表，以帮助您开始使用AlBERT。如果您有兴趣提交资源以包含在此处，请随时打开Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Text Classification

AlbertForSequenceClassification 由这个 example script 支持。

TFAlbertForSequenceClassification 由这个示例脚本支持。
FlaxAlbertForSequenceClassification 由这个示例脚本和笔记本支持。
查看文本分类任务指南以了解如何使用该模型。

Token Classification

AlbertForTokenClassification 由这个示例脚本支持。

TFAlbertForTokenClassification 由这个示例脚本和笔记本支持。

FlaxAlbertForTokenClassification 由这个 example script 支持。
Token classification 🤗 Hugging Face 课程的章节。
查看Token classification task guide了解如何使用模型。

Fill-Mask

AlbertForMaskedLM 由这个示例脚本和笔记本支持。
TFAlbertForMaskedLM 由这个示例脚本和笔记本支持。
FlaxAlbertForMaskedLM 由这个示例脚本和笔记本支持。
Masked language modeling 🤗 Hugging Face 课程的章节。
查看Masked language modeling task guide了解如何使用模型。

Question Answering

AlbertForQuestionAnswering 由这个示例脚本和笔记本支持。
TFAlbertForQuestionAnswering 由这个示例脚本和笔记本支持。
FlaxAlbertForQuestionAnswering 由这个示例脚本支持。
Question answering 章节来自 🤗 Hugging Face 课程。
查看Question answering task guide了解如何使用模型。

多项选择

AlbertForMultipleChoice 由这个示例脚本和笔记本支持。
TFAlbertForMultipleChoice 由这个示例脚本和笔记本支持。
查看多项选择任务指南以了解如何使用该模型。

Transformers

ALBERT

概述

使用提示

使用缩放点积注意力 (SDPA)

训练100次迭代

使用50批次进行推理

资源

AlbertConfig

类 transformers.AlbertConfig

AlbertTokenizer

类 transformers.AlbertTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

保存词汇表

AlbertTokenizerFast

类 transformers.AlbertTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

Albert 特定输出

类 transformers.models.albert.modeling_albert.AlbertForPreTrainingOutput

类 transformers.models.albert.modeling_tf_albert.TFAlbertForPreTrainingOutput

AlbertModel

类 transformers.AlbertModel

前进

AlbertForPreTraining

类 transformers.AlbertForPreTraining

前进

AlbertForMaskedLM

class transformers.AlbertForMaskedLM

前进

AlbertForSequenceClassification

类 transformers.AlbertForSequenceClassification

前进

AlbertForMultipleChoice

类 transformers.AlbertForMultipleChoice

前进

AlbertForTokenClassification

类 transformers.AlbertForTokenClassification

前进

AlbertForQuestionAnswering

类 transformers.AlbertForQuestionAnswering

前进

TFAlbertModel

类 transformers.TFAlbertModel

调用

TFAlbertForPreTraining

类 transformers.TFAlbertForPreTraining

调用

TFAlbertForMaskedLM

类 transformers.TFAlbertForMaskedLM

调用

TFAlbertForSequenceClassification

类 transformers.TFAlbertForSequenceClassification

调用

TFAlbertForMultipleChoice

类 transformers.TFAlbertForMultipleChoice

调用

TFAlbertForTokenClassification

类 transformers.TFAlbertForTokenClassification

调用

TFAlbertForQuestionAnswering

类 transformers.TFAlbertForQuestionAnswering

调用

FlaxAlbertModel

类 transformers.FlaxAlbertModel

__call__

FlaxAlbertForPreTraining

类 transformers.FlaxAlbertForPreTraining

__call__

FlaxAlbertForMaskedLM

类 transformers.FlaxAlbertForMaskedLM

__call__

FlaxAlbertForSequenceClassification

类 transformers.FlaxAlbertForSequenceClassification

__call__

FlaxAlbertForMultipleChoice

类 transformers.FlaxAlbertForMultipleChoice

__call__

call

call

call

call

call

call

call