Multimodal CoT

多模态CoT提示

Zhang et al. (2023) (在新标签页中打开) 最近提出了一种多模态思维链提示方法。传统的CoT主要关注语言模态。相比之下,多模态CoT将文本和视觉结合到一个两阶段框架中。第一步涉及基于多模态信息的推理生成。随后是第二阶段,答案推断,利用生成的信息丰富的推理。

多模态CoT模型(1B)在ScienceQA基准测试中表现优于GPT-3.5。

MCOT

图片来源:Zhang et al. (2023) (在新标签页中打开)

进一步阅读: