Transformers

LongT5

概述

LongT5模型由Mandy Guo、Joshua Ainslie、David Uthus、Santiago Ontanon、Jianmo Ni、Yun-Hsuan Sung和Yinfei Yang在LongT5: Efficient Text-To-Text Transformer for Long Sequences中提出。它是一个在文本到文本去噪生成设置中预训练的编码器-解码器变换器。LongT5模型是T5模型的扩展，它允许使用两种不同的高效注意力机制之一 - (1) 局部注意力，或 (2) 瞬态-全局注意力。

论文的摘要如下：

最近的研究表明，无论是（1）增加输入长度还是（2）增加模型大小，都可以提高基于Transformer的神经模型的性能。在本文中，我们提出了一种名为LongT5的新模型，通过它我们同时探索了增加输入长度和模型大小的影响。具体来说，我们整合了来自长输入Transformer（ETC）的注意力思想，并采用了来自摘要预训练（PEGASUS）的预训练策略，将其应用于可扩展的T5架构中。结果是我们称之为{\em Transient Global}（TGlobal）的新注意力机制，它模仿了ETC的局部/全局注意力机制，但不需要额外的侧输入。我们能够在多个摘要任务上取得最先进的结果，并在问答任务上优于原始的T5模型。

该模型由stancld贡献。原始代码可以在这里找到。

使用提示

LongT5ForConditionalGeneration 是 T5ForConditionalGeneration 的扩展，它将传统的编码器 自注意力 层替换为高效的局部注意力或 瞬态全局 (tglobal) 注意力。
与T5模型不同，LongT5不使用任务前缀。此外，它使用了不同的预训练目标，灵感来自于PegasusForConditionalGeneration的预训练。
LongT5 模型旨在高效且出色地处理长距离序列到序列任务，其中输入序列超过常用的512个标记。它能够处理长度高达16,384个标记的输入序列。
对于局部注意力，稀疏滑动窗口局部注意力操作允许给定标记仅关注其左右两侧的r个标记（默认情况下r=127）。局部注意力不会向模型引入任何新参数。该机制的复杂度在输入序列长度l上是线性的：O(l*r)。
瞬态全局注意力是局部注意力的扩展。此外，它允许每个输入标记与层中的所有其他标记进行交互。这是通过将输入序列分割成固定长度k（默认k=16）的块来实现的。然后，通过对块中每个标记的嵌入进行求和和归一化，获得该块的全局标记。因此，注意力机制允许每个标记像在局部注意力中一样关注附近的标记，也像在标准全局注意力中一样关注每个全局标记（瞬态表示全局标记是在每个注意力操作中动态构建的）。因此，TGlobal注意力引入了一些新参数——全局相对位置偏差和全局标记嵌入的层归一化。该机制的复杂度为O(l(r + l/k))。
下面是一个展示如何在pubmed数据集上评估微调的LongT5模型的示例。

>>> import evaluate
>>> from datasets import load_dataset
>>> from transformers import AutoTokenizer, LongT5ForConditionalGeneration

>>> dataset = load_dataset("scientific_papers", "pubmed", split="validation")
>>> model = (
...     LongT5ForConditionalGeneration.from_pretrained("Stancld/longt5-tglobal-large-16384-pubmed-3k_steps")
...     .to("cuda")
...     .half()
... )
>>> tokenizer = AutoTokenizer.from_pretrained("Stancld/longt5-tglobal-large-16384-pubmed-3k_steps")


>>> def generate_answers(batch):
...     inputs_dict = tokenizer(
...         batch["article"], max_length=16384, padding="max_length", truncation=True, return_tensors="pt"
...     )
...     input_ids = inputs_dict.input_ids.to("cuda")
...     attention_mask = inputs_dict.attention_mask.to("cuda")
...     output_ids = model.generate(input_ids, attention_mask=attention_mask, max_length=512, num_beams=2)
...     batch["predicted_abstract"] = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
...     return batch


>>> result = dataset.map(generate_answer, batched=True, batch_size=2)
>>> rouge = evaluate.load("rouge")
>>> rouge.compute(predictions=result["predicted_abstract"], references=result["abstract"])

Transformers

LongT5

概述

使用提示

资源

LongT5Config

类 transformers.LongT5Config

LongT5Model

类 transformers.LongT5Model

前进

LongT5ForConditionalGeneration

类 transformers.LongT5ForConditionalGeneration

前进

LongT5EncoderModel

类 transformers.LongT5EncoderModel

前进

FlaxLongT5Model

类 transformers.FlaxLongT5Model

__call__

编码

解码

FlaxLongT5ForConditionalGeneration

类 transformers.FlaxLongT5ForConditionalGeneration

__call__

编码

解码

call

call