Transformers 文档

UL2

UL2

概述

T5模型由Yi Tay、Mostafa Dehghani、Vinh Q. Tran、Xavier Garcia、Dara Bahri、Tal Schuster、Huaixiu Steven Zheng、Neil Houlsby、Donald Metzler在《统一语言学习范式》中提出。

论文的摘要如下:

现有的预训练模型通常针对特定类别的问题。迄今为止,关于正确的架构和预训练设置应该是什么,似乎仍然没有达成共识。本文提出了一个统一的预训练模型框架,该框架在数据集和设置中普遍有效。我们首先通过将架构原型与预训练目标分离——这两个概念通常被混淆。接下来,我们提出了一个广义且统一的自然语言处理自监督视角,并展示了不同的预训练目标如何可以相互转换,以及在不同目标之间进行插值如何有效。然后,我们提出了混合去噪器(Mixture-of-Denoisers, MoD),这是一种将多种预训练范式结合在一起的预训练目标。此外,我们引入了模式切换的概念,其中下游微调与特定的预训练方案相关联。我们进行了广泛的消融实验,比较了多种预训练目标,并发现我们的方法通过在多样的设置中优于T5和/或类似GPT的模型,推动了帕累托前沿。最后,通过将我们的模型扩展到200亿参数,我们在50个成熟的监督自然语言处理任务上实现了最先进的性能,这些任务包括语言生成(通过自动和人工评估)、语言理解、文本分类、问答、常识推理、长文本推理、结构化知识基础和信息检索。我们的模型在上下文学习中也取得了强劲的结果,在零样本SuperGLUE上优于1750亿参数的GPT-3,并在一次样本摘要任务中将T5-XXL的性能提高了三倍。

该模型由DanielHesslow贡献。原始代码可以在这里找到。

使用提示

  • UL2 是一个编码器-解码器模型,预训练于一系列去噪函数的混合,并在多个下游任务上进行了微调。
  • UL2 具有与 T5v1.1 相同的架构,但使用 Gated-SiLU 激活函数而不是 Gated-GELU。
  • 作者发布了一个架构的检查点,可以在这里here查看

由于UL2与T5v1.1具有相同的架构,请参考T5的文档页面以获取API参考、提示、代码示例和笔记本。

< > Update on GitHub