Transformers 文档

长形模型

Transformers

Longformer

概述

Longformer模型由Iz Beltagy、Matthew E. Peters和Arman Cohan在Longformer: The Long-Document Transformer中提出。

论文的摘要如下：

基于Transformer的模型由于其自注意力操作无法处理长序列，该操作与序列长度成二次方增长。为了解决这一限制，我们引入了Longformer，其注意力机制与序列长度成线性增长，使得处理数千个标记或更长的文档变得容易。Longformer的注意力机制是标准自注意力的直接替代品，并结合了局部窗口注意力和任务驱动的全局注意力。在之前的长序列Transformer工作的基础上，我们在字符级语言建模上评估了Longformer，并在text8和enwik8上取得了最先进的结果。与大多数之前的工作不同，我们还对Longformer进行了预训练，并在各种下游任务上进行了微调。我们的预训练Longformer在长文档任务上始终优于RoBERTa，并在WikiHop和TriviaQA上设定了新的最先进结果。

该模型由beltagy贡献。作者的代码可以在这里找到。

使用提示

由于Longformer基于RoBERTa，它没有token_type_ids。你不需要指明哪个token属于哪个段。只需用分隔符tokenizer.sep_token（或）分隔你的段。
一种通过用稀疏矩阵替换注意力矩阵来加速的变压器模型。通常，局部上下文（例如，左右两个标记是什么？）足以对给定标记采取行动。一些预选的输入标记仍然被赋予全局注意力，但注意力矩阵的参数大大减少，从而实现了加速。有关更多信息，请参阅局部注意力部分。

Longformer 自注意力机制

Longformer自注意力机制在“局部”上下文和“全局”上下文中都采用了自注意力机制。大多数标记只“局部”关注彼此，这意味着每个标记关注其 $\frac{1}{2} w$ 前一个标记和 $\frac{1}{2} w$ 后一个标记，其中 $w$ 是config.attention_window中定义的窗口长度。请注意，config.attention_window可以是List类型，以便为每一层定义不同的 $w$ 。少数选定的标记“全局”关注所有其他标记，就像在BertSelfAttention中所有标记通常所做的那样。

请注意，“局部”和“全局”关注的标记由不同的查询、键和值矩阵投影。还要注意，每个“局部”关注的标记不仅关注其窗口 $w$ 内的标记，还关注所有“全局”关注的标记，以便全局关注是对称的。

用户可以通过在运行时适当设置张量global_attention_mask来定义哪些标记“局部”关注，哪些标记“全局”关注。所有Longformer模型都采用以下逻辑来处理global_attention_mask：

0: 该标记“局部”参与，
1: 该标记“全局”参与。

更多信息请参考forward()方法。

使用Longformer自注意力机制，查询-键矩阵乘法操作的内存和时间复杂度，通常代表内存和时间的瓶颈，可以从 $\mathcal{O}(n_s \times n_s)$ 降低到 $\mathcal{O}(n_s \times w)$ ，其中 $n_s$ 是序列长度， $w$ 是平均窗口大小。假设“全局”参与标记的数量与“局部”参与标记的数量相比微不足道。

更多信息，请参考官方论文。

训练

LongformerForMaskedLM 的训练方式与 RobertaForMaskedLM 完全相同，应按以下方式使用：

input_ids = tokenizer.encode("This is a sentence from [MASK] training data", return_tensors="pt")
mlm_labels = tokenizer.encode("This is a sentence from the training data", return_tensors="pt")

loss = model(input_ids, labels=input_ids, masked_lm_labels=mlm_labels)[0]

Transformers

Longformer

概述

使用提示

Longformer 自注意力机制

训练

资源

LongformerConfig

类 transformers.LongformerConfig

LongformerTokenizer

类 transformers.LongformerTokenizer

build_inputs_with_special_tokens

convert_tokens_to_string

create_token_type_ids_from_sequences

get_special_tokens_mask

LongformerTokenizerFast

类 transformers.LongformerTokenizerFast

create_token_type_ids_from_sequences

Longformer 特定输出

类 transformers.models.longformer.modeling_longformer.LongformerBaseModelOutput

类 transformers.models.longformer.modeling_longformer.LongformerBaseModelOutputWithPooling

类 transformers.models.longformer.modeling_longformer.LongformerMaskedLMOutput

类 transformers.models.longformer.modeling_longformer.LongformerQuestionAnsweringModelOutput

类 transformers.models.longformer.modeling_longformer.LongformerSequenceClassifierOutput

类 transformers.models.longformer.modeling_longformer.LongformerMultipleChoiceModelOutput

类 transformers.models.longformer.modeling_longformer.LongformerTokenClassifierOutput

类 transformers.models.longformer.modeling_tf_longformer.TFLongformerBaseModelOutput

类 transformers.models.longformer.modeling_tf_longformer.TFLongformerBaseModelOutputWithPooling

类 transformers.models.longformer.modeling_tf_longformer.TFLongformerMaskedLMOutput

类 transformers.models.longformer.modeling_tf_longformer.TFLongformerQuestionAnsweringModelOutput

类 transformers.models.longformer.modeling_tf_longformer.TFLongformerSequenceClassifierOutput

类 transformers.models.longformer.modeling_tf_longformer.TFLongformerMultipleChoiceModelOutput

类 transformers.models.longformer.modeling_tf_longformer.TFLongformerTokenClassifierOutput

LongformerModel

类 transformers.LongformerModel

前进

LongformerForMaskedLM

类 transformers.LongformerForMaskedLM

前进

LongformerForSequenceClassification

类 transformers.LongformerForSequenceClassification

前进

LongformerForMultipleChoice

类 transformers.LongformerForMultipleChoice

前进

LongformerForTokenClassification

类 transformers.LongformerForTokenClassification

前进

LongformerForQuestionAnswering

类 transformers.LongformerForQuestionAnswering

前进

TFLongformerModel

类 transformers.TFLongformerModel

调用

TFLongformerForMaskedLM

类 transformers.TFLongformerForMaskedLM

调用

TFLongformerForQuestionAnswering

类 transformers.TFLongformerForQuestionAnswering

调用

TFLongformerForSequenceClassification

类 transformers.TFLongformerForSequenceClassification

调用

TFLongformerForTokenClassification

类 transformers.TFLongformerForTokenClassification

调用

TFLongformerForMultipleChoice

类 transformers.TFLongformerForMultipleChoice

调用