Transformers

MEGA

该模型目前处于维护模式，我们不接受任何更改其代码的新PR。如果您在运行此模型时遇到任何问题，请重新安装支持此模型的最后一个版本：v4.40.2。您可以通过运行以下命令来执行此操作：pip install -U transformers==4.40.2。

概述

MEGA模型由Xuezhe Ma、Chunting Zhou、Xiang Kong、Junxian He、Liangke Gui、Graham Neubig、Jonathan May和Luke Zettlemoyer在Mega: Moving Average Equipped Gated Attention中提出。 MEGA提出了一种新的自注意力方法，每个编码器层除了标准的点积注意力头外，还配备了一个多头指数移动平均，这使得注意力机制具有更强的位置偏差。这使得MEGA在包括LRA在内的标准基准测试中能够与Transformers竞争，同时参数数量显著减少。MEGA的计算效率使其能够扩展到非常长的序列，使其成为长文档NLP任务的一个有吸引力的选择。

论文的摘要如下：

Transformer注意力机制中的设计选择，包括弱归纳偏差和二次计算复杂度，限制了其在长序列建模中的应用。在本文中，我们介绍了Mega，这是一种简单、理论上有依据的单头门控注意力机制，配备了（指数）移动平均，以将位置感知的局部依赖性的归纳偏差纳入位置无关的注意力机制中。我们进一步提出了一种Mega的变体，通过有效地将整个序列分割成固定长度的多个块，提供了线性的时间和空间复杂度，同时仅产生最小的质量损失。在广泛的序列建模基准测试中，包括长距离竞技场、神经机器翻译、自回归语言建模以及图像和语音分类，Mega在包括Transformer变体和最近的状态空间模型在内的其他序列模型中取得了显著的改进。

该模型由mnaylor贡献。原始代码可以在这里找到。

使用提示

MEGA 可以在相对较少的参数下表现良好。有关在各种设置中表现良好的架构规格示例，请参阅 MEGA 论文中的附录 D。如果使用 MEGA 作为解码器，请确保设置 bidirectional=False 以避免默认双向的错误。
Mega-chunk 是 mega 的一种变体，它将时间和空间复杂度从二次降低到线性。使用 MegaConfig.use_chunking 进行分块，并通过 MegaConfig.chunk_size 控制分块大小。

实现说明

MEGA的原始实现在softmax注意力和Laplace/平方ReLU方法之间对填充和因果自注意力的注意掩码有不一致的期望。此实现解决了这种不一致性。
原始实现不包括令牌类型嵌入；此实现增加了对这些的支持，选项由MegaConfig.add_token_type_embeddings控制

Transformers

MEGA

概述

使用提示

实现说明

MegaConfig

类 transformers.MegaConfig

MegaModel

类 transformers.MegaModel

前进

MegaForCausalLM

类 transformers.MegaForCausalLM

前进

MegaForMaskedLM

类 transformers.MegaForMaskedLM

前进

MegaForSequenceClassification

类 transformers.MegaForSequenceClassification

前进

MegaForMultipleChoice

类 transformers.MegaForMultipleChoice

前进

MegaForTokenClassification

类 transformers.MegaForTokenClassification

前进

MegaForQuestionAnswering

类 transformers.MegaForQuestionAnswering

前进