FLAN-T5

概述

FLAN-T5 在论文 Scaling Instruction-Finetuned Language Models 中发布 - 它是 T5 的增强版本，已在多种任务中进行了微调。

可以直接使用FLAN-T5权重而无需微调模型：

>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

>>> model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-small")
>>> tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-small")

>>> inputs = tokenizer("A step by step recipe to make bolognese pasta:", return_tensors="pt")
>>> outputs = model.generate(**inputs)
>>> print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['Pour a cup of bolognese into a large bowl and add the pasta']

FLAN-T5 包含了与 T5 版本 1.1 相同的改进（有关模型改进的完整详细信息，请参见这里。）

谷歌发布了以下变体：

原始检查点可以在这里找到。

请参考T5的文档页面获取所有API参考、代码示例和笔记本。有关FLAN-T5的训练和评估的更多详细信息，请参阅模型卡片。

< > Update on GitHub

Transformers

FLAN-T5

概述