Reflexion

反思

Reflexion 是一个通过语言反馈来增强基于语言的代理的框架。根据 Shinn 等人 (2023) (在新标签页中打开) 的说法,“Reflexion 是一种新的‘语言’强化范式,它将策略参数化为代理的记忆编码与选择的 LLM 参数配对。”

在高层次上,Reflexion 将来自环境的反馈(无论是自由形式的语言还是标量)转换为语言反馈,也称为自我反思,这作为上下文提供给下一个情节中的LLM代理。这有助于代理快速有效地从先前的错误中学习,从而在许多高级任务中提高性能。

"Reflexion Framework"

如上图所示,Reflexion 由三个不同的模型组成:

  • 一个演员:根据状态观察生成文本和动作。演员在环境中采取行动并接收观察结果,从而产生轨迹。思维链(CoT)(在新标签页中打开)ReAct(在新标签页中打开)被用作演员模型。还添加了一个记忆组件,为代理提供额外的上下文。
  • 评估器:对Actor生成的输出进行评分。具体来说,它接收生成的轨迹(也称为短期记忆)作为输入,并输出奖励分数。根据任务的不同,使用不同的奖励函数(LLMs和基于规则的启发式方法用于决策任务)。
  • 自我反思:生成口头强化提示,以帮助演员进行自我改进。这一角色由LLM实现,并为未来的试验提供有价值的反馈。为了生成具体且相关的反馈(这些反馈也会存储在记忆中),自我反思模型利用奖励信号、当前轨迹及其持久记忆。这些经验(存储在长期记忆中)被代理利用,以快速改进决策。

总之,Reflexion过程的关键步骤是 a) 定义任务,b) 生成轨迹,c) 评估,d) 进行反思,以及 e) 生成下一个轨迹。下图展示了Reflexion代理如何学习迭代优化其行为以解决各种任务(如决策、编程和推理)的示例。Reflexion通过引入自我评估、自我反思和记忆组件扩展了ReAct框架。

"Reflexion Examples"

结果

实验结果表明,Reflexion代理在决策制定AlfWorld任务、HotPotQA中的推理问题以及HumanEval上的Python编程任务中显著提高了性能。

在顺序决策(AlfWorld)任务上进行评估时,ReAct + Reflexion 通过使用启发式和 GPT 的二元分类自评估技术,显著优于 ReAct,完成了 130/134 个任务。

"Reflexion ALFWorld Results"

Reflexion 在多个学习步骤中显著优于所有基线方法。仅进行推理时,以及当添加由最近轨迹组成的情景记忆时,Reflexion + CoT 分别优于仅使用 CoT 和使用情景记忆的 CoT。

"Reflexion ALFWorld Results"

如下表总结所示,Reflexion 在 MBPP、HumanEval 和 Leetcode Hard 上的 Python 和 Rust 代码编写方面通常优于之前的最先进方法。

"Reflexion ALFWorld Results"

何时使用Reflexion?

Reflexion 最适合以下情况:

  1. 代理需要从试错中学习:Reflexion 旨在通过反思过去的错误并将这些知识融入未来的决策中,帮助代理提高其表现。这使得它非常适合代理需要通过试错学习的任务,例如决策、推理和编程。

  2. 传统的强化学习方法不切实际:传统的强化学习(RL)方法通常需要大量的训练数据和昂贵的模型微调。Reflexion 提供了一种轻量级的替代方案,不需要微调基础语言模型,从而在数据和计算资源方面更加高效。

  3. 需要细致的反馈:Reflexion 使用口头反馈,这比传统强化学习中使用的标量奖励更加细致和具体。这使得代理能够更好地理解其错误,并在后续试验中做出更有针对性的改进。

  4. 可解释性和显式记忆很重要:与传统RL方法相比,Reflexion提供了一种更可解释和显式的情景记忆形式。代理的自我反思存储在其记忆中,使得分析和理解其学习过程更加容易。

反思在以下任务中是有效的:

  • 顺序决策: Reflexion 代理在 AlfWorld 任务中提高了性能,这些任务涉及在各种环境中导航并完成多步骤目标。
  • 推理: Reflexion 提高了代理在 HotPotQA 上的表现,这是一个需要跨多个文档进行推理的问答数据集。
  • 编程: Reflexion 代理在 HumanEval 和 MBPP 等基准测试中编写更好的代码,在某些情况下实现了最先进的结果。

以下是Reflexion的一些限制:

  • 依赖自我评估能力:Reflexion依赖于代理准确评估其表现并生成有用的自我反思的能力。这可能具有挑战性,特别是对于复杂任务,但预计随着模型能力的不断提高,Reflexion会随着时间的推移变得更好。
  • 长期记忆限制:Reflexion 使用了一个具有最大容量的滑动窗口,但对于更复杂的任务,使用向量嵌入或 SQL 数据库等高级结构可能更为有利。
  • 代码生成限制: 在指定准确的输入输出映射时,测试驱动开发存在一些限制(例如,非确定性的生成器函数和受硬件影响的函数输出)。

图表来源:Reflexion: Language Agents with Verbal Reinforcement Learning (在新标签页中打开)

参考文献