Flan

有什么新内容？

本文探讨了缩放指导微调的好处，以及它如何提高各种模型（PaLM，T5）、提示设置（零短，少短，CoT）和基准（MMLU，TyDiQA）上的性能。这是通过以下方面探讨的：扩展任务数量（1.8K 任务）、扩展模型大小，以及在思维链数据上微调（使用了 9 个数据集）。

微调过程：

微调任务和保留任务如下所示：

FLAN1

当扩展微调任务数量和模型大小时的结果： 预计扩展模型大小和微调任务数量将继续改善性能，尽管扩展任务数量的效益递减。

在非 CoT 和 CoT 数据上微调时的结果： 在非 CoT 和 CoT 数据上联合微调可以改善两者的评估表现，相较于只微调其中一个。

此外，自一致性结合 CoT 在几个基准上取得了最先进的结果。CoT + 自一致性还显著改善了涉及数学问题的基准结果（例如 MGSM，GSM8K）。

CoT 微调在 BIG-Bench 任务上通过短语“让我们逐步思考”激活了零短推理。总体而言，零短 CoT Flan-PaLM 在没有微调的情况下优于零短 CoT PaLM。

以下是一些展示了 PaLM 和 Flan-PaLM 在未知任务上的零短 CoT 的演示。

以下是更多关于零短提示的示例。它展示了 PaLM 模型在零短设置中对重复和不回复指令的困难，而 Flan-PaLM 能够表现良好。少量范例可以减轻这些错误。

以下是一些展示了 Flan-PALM 模型在几种不同类型具有挑战性的开放式问题上的零短能力的示例：