自动推理与工具使用(ART)
结合CoT提示和工具的交错使用已被证明是一种强大且稳健的方法,用于解决许多LLM任务。这些方法通常需要手工制作特定任务的演示,并精心编排模型生成与工具使用的交错。Paranjape等人,(2023) (在新标签页中打开)提出了一个新框架,该框架使用冻结的LLM自动生成中间推理步骤作为程序。
ART 的工作原理如下:
- 给定一个新任务,它从任务库中选择多步推理和工具使用的演示
- 在测试时,每当调用外部工具时,它会暂停生成,并在恢复生成之前整合它们的输出
ART 鼓励模型从演示中泛化,以分解新任务并以零样本的方式在适当的地方使用工具。此外,ART 是可扩展的,因为它还使人类能够通过简单地更新任务和工具库来修复推理步骤中的错误或添加新工具。该过程如下所示:
图片来源: Paranjape et al., (2023) (在新标签页中打开)
ART在BigBench和MMLU基准测试中的未见任务上显著优于少样本提示和自动CoT,并且在结合人类反馈时超过了手工制作的CoT提示的性能。
下表展示了ART在BigBench和MMLU任务上的表现: