多模态CoT提示
Zhang et al. (2023) (在新标签页中打开) 最近提出了一种多模态思维链提示方法。传统的CoT主要关注语言模态。相比之下,多模态CoT将文本和视觉结合到一个两阶段框架中。第一步涉及基于多模态信息的推理生成。随后是第二阶段,答案推断,利用生成的信息丰富的推理。
多模态CoT模型(1B)在ScienceQA基准测试中表现优于GPT-3.5。
图片来源:Zhang et al. (2023) (在新标签页中打开)
进一步阅读:
- 语言并非一切:将感知与语言模型对齐 (在新标签页中打开) (2023年2月)