T5v1.1

概述

T5v1.1 由 Colin Raffel 等人在 google-research/text-to-text-transfer-transformer 仓库中发布。它是原始 T5 模型的改进版本。该模型由 patrickvonplaten 贡献。原始代码可以在这里找到。

可以直接将T5v1.1的权重插入到T5模型中，如下所示：

>>> from transformers import T5ForConditionalGeneration

>>> model = T5ForConditionalGeneration.from_pretrained("google/t5-v1_1-base")

T5 版本 1.1 相比原始 T5 模型包含以下改进：

在前馈隐藏层中使用GEGLU激活，而不是ReLU。参见这篇论文。
在预训练期间关闭了Dropout（质量提升）。在微调期间应重新启用Dropout。
仅在C4上进行预训练，未混合下游任务。
嵌入层和分类器层之间没有参数共享。
“xl” 和 “xxl” 替换了 “3B” 和 “11B”。模型形状略有不同 - 更大的 d_model 和更小的 num_heads 和 d_ff。

注意：T5 版本 1.1 仅在 C4 上进行了预训练，不包括任何监督训练。因此，与原始的 T5 模型不同，该模型在下游任务使用之前需要进行微调。由于 t5v1.1 是无监督预训练的，因此在单任务微调期间使用任务前缀没有真正的优势。如果您正在进行多任务微调，则应使用前缀。

谷歌发布了以下变体：

请参考T5的文档页面获取所有API参考、技巧、代码示例和笔记本。