自动提示工程师 (APE)
图片来源: Zhou et al., (2022) (在新标签页中打开)
Zhou et al., (2022) (在新标签页中打开) 提出了自动提示工程师(APE)框架,用于自动指令生成和选择。指令生成问题被定义为自然语言合成,作为一个黑箱优化问题,使用LLMs生成并搜索候选解决方案。
第一步涉及一个大型语言模型(作为推理模型),该模型被提供输出演示以生成任务的指令候选。这些候选解决方案将指导搜索过程。指令使用目标模型执行,然后根据计算出的评估分数选择最合适的指令。
APE发现了一个比人工设计的“让我们一步一步思考”提示更好的零样本CoT提示(Kojima等人,2022(在新标签页中打开))。
提示“让我们一步一步地解决这个问题,以确保我们得到正确的答案。”引发了链式思维推理,并提高了在MultiArith和GSM8K基准测试中的表现:
图片来源: Zhou et al., (2022) (在新标签页中打开)
本文涉及一个与提示工程相关的重要主题,即自动优化提示的想法。虽然我们在本指南中没有深入探讨这个主题,但如果您对这个主题感兴趣,这里有一些关键论文:
- Prompt-OIRL (在新标签页中打开) - 提出使用离线逆强化学习生成依赖于查询的提示。
- OPRO (在新标签页中打开) - 介绍了使用LLMs优化提示的想法:让LLMs“深呼吸”可以提高数学问题的表现。
- AutoPrompt (在新标签页中打开) - 提出了一种基于梯度引导搜索的方法,自动为各种任务创建提示。
- Prefix Tuning (在新标签页中打开) - 一种轻量级的微调替代方案,为NLG任务添加可训练的前缀。
- Prompt Tuning (在新标签页中打开) - 提出了一种通过反向传播学习软提示的机制。