多模态 CoT 提示
最近Zhang等人(2023)提出了一种多模态思维链提示方法。传统的 CoT 侧重于语言模态。相比之下,多模态 CoT 将文本和视觉融入到一个两阶段框架中。第一步涉及基于多模态信息的理由生成。随后是第二阶段,答案推理,利用生成的信息性理由。
多模态 CoT 模型(1B)在 ScienceQA 基准测试中胜过了 GPT-3.5。
图片来源:Zhang等人(2023)
延伸阅读:
- 语言并非唯一所需:将感知与语言模型对齐(2023年2月)
最近Zhang等人(2023)提出了一种多模态思维链提示方法。传统的 CoT 侧重于语言模态。相比之下,多模态 CoT 将文本和视觉融入到一个两阶段框架中。第一步涉及基于多模态信息的理由生成。随后是第二阶段,答案推理,利用生成的信息性理由。
多模态 CoT 模型(1B)在 ScienceQA 基准测试中胜过了 GPT-3.5。
图片来源:Zhang等人(2023)
延伸阅读: