Transformers 文档

Transformers

T5

概述

T5模型由探索迁移学习的极限与统一的文本到文本转换器一文中提出，作者包括Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu。

论文的摘要如下：

迁移学习，即模型首先在数据丰富的任务上进行预训练，然后在下游任务上进行微调，已成为自然语言处理（NLP）中的一项强大技术。迁移学习的有效性催生了多种方法、方法论和实践。在本文中，我们通过引入一个统一的框架，将每个语言问题转换为文本到文本的格式，探索了NLP中的迁移学习技术。我们的系统研究比较了预训练目标、架构、未标记数据集、迁移方法以及其他因素在数十种语言理解任务上的表现。通过将我们的探索见解与规模和我们新的“Colossal Clean Crawled Corpus”相结合，我们在涵盖摘要、问答、文本分类等多个基准测试中取得了最先进的结果。为了促进未来在NLP迁移学习方面的工作，我们发布了我们的数据集、预训练模型和代码。

所有检查点都可以在hub上找到。

该模型由thomwolf贡献。原始代码可以在这里找到。

使用提示

T5 是一种在无监督和有监督任务的多任务混合上预训练的编码器-解码器模型，每个任务都被转换为文本到文本的格式。T5 通过为每个任务对应的输入添加不同的前缀，在各种任务上表现良好，例如，对于翻译：将英语翻译成德语：…，对于摘要：摘要：…。
预训练包括监督学习和自监督学习。监督学习是在GLUE和SuperGLUE基准提供的下游任务上进行的（如上所述，将它们转换为文本到文本任务）。
自监督训练使用损坏的标记，通过随机移除15%的标记并用单独的前哨标记替换它们（如果连续几个标记被标记为移除，则整个组被替换为一个前哨标记）。编码器的输入是损坏的句子，解码器的输入是原始句子，目标则是被前哨标记分隔的丢弃标记。
T5使用相对标量嵌入。编码器输入填充可以在左侧和右侧进行。
请参阅下面的训练、推理和资源部分，了解有关使用的所有详细信息。

T5 有不同的大小：

基于原始的T5模型，谷歌发布了一些后续工作：

T5v1.1: T5v1.1 是 T5 的一个改进版本，进行了一些架构上的调整，并且仅在 C4 上进行预训练，没有混合监督任务。请参考 T5v1.1 的文档，可以在此处找到 here。
mT5: mT5 是一个多语言的 T5 模型。它是在 mC4 语料库上进行预训练的，该语料库包含 101 种语言。请参考 mT5 的文档，文档可以在此处找到 here。
byT5: byT5 是一个在字节序列而非 SentencePiece 子词标记序列上预训练的 T5 模型。请参考 byT5 的文档，文档可以在此处找到 here。
UL2: UL2 是一个类似于 T5 的模型，预训练于各种去噪目标
Flan-T5: Flan 是一种基于提示的预训练方法。Flan-T5 是在 Flan 数据集集合上训练的 T5 模型，这些数据集包括：taskmaster2, djaym7/wiki_dialog, deepmind/code_contests, lambada, gsm8k, aqua_rat, esnli, quasc 和 qed。
FLan-UL2 : 使用“Flan”提示调优和数据集集合进行微调的UL2模型。
UMT5: UmT5 是一个多语言的 T5 模型，使用新的采样方法 UniMax 在改进和更新的 mC4 多语言语料库上训练，涵盖 107 种语言的 29 万亿字符。请参考 mT5 的文档，可以在这里找到。

训练

T5 是一个编码器-解码器模型，并将所有 NLP 问题转换为文本到文本的格式。它使用教师强制进行训练。这意味着在训练时，我们总是需要一个输入序列和一个相应的目标序列。输入序列通过 input_ids 提供给模型。目标序列向右移动，即前面加上一个开始序列标记，并通过 decoder_input_ids 提供给解码器。在教师强制风格中，目标序列随后附加了 EOS 标记，并对应于 labels。PAD 标记在此用作开始序列标记。T5 可以在有监督和无监督的方式下进行训练/微调。

可以使用T5ForConditionalGeneration（或Tensorflow/Flax变体），它在解码器顶部包含了语言建模头。

无监督去噪训练

在这种设置中，输入序列的跨度被所谓的哨兵标记（也称为 唯一掩码标记）所掩盖，输出序列则由相同的哨兵标记和真实的掩码标记连接而成。每个哨兵标记代表该句子中的一个唯一掩码标记，并且应该以、，……直到开头。默认情况下，T5Tokenizer中提供了100个哨兵标记。

例如，句子“The cute dog walks in the park”在“cute dog”和“the”上加上掩码后，应按以下方式处理：

>>> from transformers import T5Tokenizer, T5ForConditionalGeneration

>>> tokenizer = T5Tokenizer.from_pretrained("google-t5/t5-small")
>>> model = T5ForConditionalGeneration.from_pretrained("google-t5/t5-small")

>>> input_ids = tokenizer("The <extra_id_0> walks in <extra_id_1> park", return_tensors="pt").input_ids
>>> labels = tokenizer("<extra_id_0> cute dog <extra_id_1> the <extra_id_2>", return_tensors="pt").input_ids

>>> # the forward function automatically creates the correct decoder_input_ids
>>> loss = model(input_ids=input_ids, labels=labels).loss
>>> loss.item()
3.7837

如果您有兴趣在新的语料库上预训练T5，请查看Examples目录中的run_t5_mlm_flax.py脚本。

监督训练

在这种设置中，输入序列和输出序列是标准的序列到序列的输入输出映射。假设我们想要微调模型以进行翻译，例如，我们有一个训练示例：输入序列“The house is wonderful.”和输出序列“Das Haus ist wunderbar.”，那么它们应该为模型准备如下：

>>> from transformers import T5Tokenizer, T5ForConditionalGeneration

>>> tokenizer = T5Tokenizer.from_pretrained("google-t5/t5-small")
>>> model = T5ForConditionalGeneration.from_pretrained("google-t5/t5-small")

>>> input_ids = tokenizer("translate English to German: The house is wonderful.", return_tensors="pt").input_ids
>>> labels = tokenizer("Das Haus ist wunderbar.", return_tensors="pt").input_ids

>>> # the forward function automatically creates the correct decoder_input_ids
>>> loss = model(input_ids=input_ids, labels=labels).loss
>>> loss.item()
0.2542

如你所见，模型只需要2个输入来计算损失：input_ids（即编码后的输入序列的input_ids）和labels（即编码后的目标序列的input_ids）。模型将基于labels自动创建decoder_input_ids，通过将它们向右移动一个位置并在前面添加config.decoder_start_token_id，对于T5来说，这个值等于0（即填充标记的id）。还要注意任务前缀：我们在编码输入序列之前，在前面加上‘translate English to German: ’。这将有助于提高性能，因为在T5的预训练期间使用了这个任务前缀。

然而，上面的例子只展示了一个训练样本。实际上，深度学习模型是以批次进行训练的。这意味着我们必须对样本进行填充/截断，使其长度相同。对于编码器-解码器模型，通常会定义max_source_length和max_target_length，它们分别决定了输入和输出序列的最大长度（否则会被截断）。这些参数应根据任务仔细设置。

此外，我们必须确保损失函数不考虑labels的填充标记ID。在PyTorch和Tensorflow中，可以通过将它们替换为-100来实现，这是CrossEntropyLoss的ignore_index。在Flax中，可以使用decoder_attention_mask来忽略损失中的填充标记（详情请参见Flax summarization script）。我们还将attention_mask作为附加输入传递给模型，以确保忽略输入的填充标记。下面的代码示例说明了所有这些内容。

>>> from transformers import T5Tokenizer, T5ForConditionalGeneration
>>> import torch

>>> tokenizer = T5Tokenizer.from_pretrained("google-t5/t5-small")
>>> model = T5ForConditionalGeneration.from_pretrained("google-t5/t5-small")

>>> # the following 2 hyperparameters are task-specific
>>> max_source_length = 512
>>> max_target_length = 128

>>> # Suppose we have the following 2 training examples:
>>> input_sequence_1 = "Welcome to NYC"
>>> output_sequence_1 = "Bienvenue à NYC"

>>> input_sequence_2 = "HuggingFace is a company"
>>> output_sequence_2 = "HuggingFace est une entreprise"

>>> # encode the inputs
>>> task_prefix = "translate English to French: "
>>> input_sequences = [input_sequence_1, input_sequence_2]

>>> encoding = tokenizer(
...     [task_prefix + sequence for sequence in input_sequences],
...     padding="longest",
...     max_length=max_source_length,
...     truncation=True,
...     return_tensors="pt",
... )

>>> input_ids, attention_mask = encoding.input_ids, encoding.attention_mask

>>> # encode the targets
>>> target_encoding = tokenizer(
...     [output_sequence_1, output_sequence_2],
...     padding="longest",
...     max_length=max_target_length,
...     truncation=True,
...     return_tensors="pt",
... )
>>> labels = target_encoding.input_ids

>>> # replace padding token id's of the labels by -100 so it's ignored by the loss
>>> labels[labels == tokenizer.pad_token_id] = -100

>>> # forward pass
>>> loss = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels).loss
>>> loss.item()
0.188

额外的训练提示：

T5模型在使用AdamW优化器时，需要比Trainer中设置的默认学习率稍高一些。通常，1e-4和3e-4对于大多数问题（分类、摘要、翻译、问答、问题生成）效果良好。请注意，T5是使用AdaFactor优化器进行预训练的。

根据这个论坛帖子，任务前缀在以下情况下很重要： (1) 进行多任务训练时 (2) 你的任务与T5预训练混合中使用的监督任务之一相似或相关（参见论文的附录D以了解使用的任务前缀）。

如果在TPU上进行训练，建议将数据集中的所有示例填充到相同的长度，或者使用pad_to_multiple_of来设置少量预定义的桶大小以容纳所有示例。在TPU上不推荐动态地将批次填充到最长的示例，因为这会导致每次遇到不同的批次形状时触发重新编译，从而显著减慢训练速度。仅填充到批次中最长的示例会导致在TPU上的训练非常缓慢。

推理

在推理时，建议使用generate()。该方法负责编码输入并通过交叉注意力层将编码的隐藏状态传递给解码器，并自回归生成解码器输出。查看这篇博客文章以了解使用Transformers生成文本的所有细节。还有这篇博客文章解释了编码器-解码器模型中的生成工作原理。

>>> from transformers import T5Tokenizer, T5ForConditionalGeneration

>>> tokenizer = T5Tokenizer.from_pretrained("google-t5/t5-small")
>>> model = T5ForConditionalGeneration.from_pretrained("google-t5/t5-small")

>>> input_ids = tokenizer("translate English to German: The house is wonderful.", return_tensors="pt").input_ids
>>> outputs = model.generate(input_ids)
>>> print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Das Haus ist wunderbar.

请注意，T5 使用 pad_token_id 作为 decoder_start_token_id，因此在不使用 generate() 进行生成时，请确保以 pad_token_id 开始。

上面的例子只展示了一个单一的例子。你也可以进行批量推理，如下所示：

>>> from transformers import T5Tokenizer, T5ForConditionalGeneration

>>> tokenizer = T5Tokenizer.from_pretrained("google-t5/t5-small")
>>> model = T5ForConditionalGeneration.from_pretrained("google-t5/t5-small")

>>> task_prefix = "translate English to German: "
>>> # use different length sentences to test batching
>>> sentences = ["The house is wonderful.", "I like to work in NYC."]

>>> inputs = tokenizer([task_prefix + sentence for sentence in sentences], return_tensors="pt", padding=True)

>>> output_sequences = model.generate(
...     input_ids=inputs["input_ids"],
...     attention_mask=inputs["attention_mask"],
...     do_sample=False,  # disable sampling to test if batching affects output
... )

>>> print(tokenizer.batch_decode(output_sequences, skip_special_tokens=True))
['Das Haus ist wunderbar.', 'Ich arbeite gerne in NYC.']

因为T5已经通过span-mask去噪目标进行了训练，它可以在推理过程中用于预测哨兵（被屏蔽的）标记。预测的标记随后将被放置在哨兵标记之间。

>>> from transformers import T5Tokenizer, T5ForConditionalGeneration

>>> tokenizer = T5Tokenizer.from_pretrained("google-t5/t5-small")
>>> model = T5ForConditionalGeneration.from_pretrained("google-t5/t5-small")

>>> input_ids = tokenizer("The <extra_id_0> walks in <extra_id_1> park", return_tensors="pt").input_ids

>>> sequence_ids = model.generate(input_ids)
>>> sequences = tokenizer.batch_decode(sequence_ids)
>>> sequences
['<pad> <extra_id_0> park offers <extra_id_1> the <extra_id_2> park.</s>']

性能

如果您希望获得更快的训练和推理性能，请为NVIDIA GPU安装NVIDIA APEX，或为AMD GPU安装ROCm APEX，然后模型将自动使用apex.normalization.FusedRMSNorm而不是T5LayerNorm。前者使用了优化的融合内核，比后者快几倍。

资源

一份官方的Hugging Face和社区（由🌎表示）资源列表，帮助您开始使用T5。如果您有兴趣提交资源以包含在此处，请随时打开一个Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Text Classification

一个关于如何微调T5进行分类和多项选择的笔记本。
一个关于如何微调T5进行情感跨度提取的笔记本。🌎

Token Classification

一个关于如何微调T5进行命名实体识别的笔记本。🌎

Text Generation

一个用于微调CodeT5以从Ruby代码生成文档字符串的笔记本。

Summarization

一个用于微调T5-base-dutch以在TPU上执行荷兰语抽象摘要的笔记本。
一个关于如何在PyTorch中微调T5进行摘要生成并使用WandB跟踪实验的笔记本。🌎
一篇关于分布式训练：使用🤗 Transformers和Amazon SageMaker训练BART/T5进行摘要生成的博客文章。
T5ForConditionalGeneration 由这个示例脚本和 notebook 支持。
TFT5ForConditionalGeneration 由这个示例脚本和笔记本支持。
FlaxT5ForConditionalGeneration 由这个 example script 支持。
Summarization 章节的 🤗 Hugging Face 课程。
Summarization task guide

Fill-Mask

FlaxT5ForConditionalGeneration 支持通过此示例脚本进行训练，该脚本使用跨度掩码语言模型目标来训练 T5。该脚本还展示了如何训练 T5 分词器。FlaxT5ForConditionalGeneration 也支持通过此 notebook 进行训练。

Translation

T5ForConditionalGeneration 由这个示例脚本和笔记本支持。
TFT5ForConditionalGeneration 由这个示例脚本和笔记本支持。
翻译任务指南

Question Answering

一个关于如何使用TensorFlow 2微调T5进行问答的笔记本。🌎
一个关于如何在TPU上微调T5以进行问答的笔记本。

🚀 部署

一篇关于如何以不到500美元的价格部署T5 11B进行推理的博客文章。

Transformers

T5

概述

使用提示

训练

推理

性能

资源

T5Config

类 transformers.T5Config

T5Tokenizer

类 transformers.T5Tokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

保存词汇表

T5TokenizerFast

类 transformers.T5TokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

T5模型

类 transformers.T5Model

前进

T5ForConditionalGeneration

类 transformers.T5ForConditionalGeneration

前进

T5EncoderModel

类 transformers.T5EncoderModel

前进

T5ForSequenceClassification

类 transformers.T5ForSequenceClassification

前进

T5ForTokenClassification

类 transformers.T5ForTokenClassification

前进

T5ForQuestionAnswering

类 transformers.T5ForQuestionAnswering

前进

TFT5Model

类 transformers.TFT5Model

调用

TFT5ForConditionalGeneration

类 transformers.TFT5ForConditionalGeneration

调用

TFT5EncoderModel

类 transformers.TFT5EncoderModel

调用

FlaxT5Model

类 transformers.FlaxT5Model

__call__

编码

解码

FlaxT5ForConditionalGeneration

类 transformers.FlaxT5ForConditionalGeneration

__call__

编码

解码

FlaxT5EncoderModel

类 transformers.FlaxT5EncoderModel

__call__

call

call

call