多模态CoT提示

Zhang et al. (2023) (在新标签页中打开) 最近提出了一种多模态思维链提示方法。传统的CoT主要关注语言模态。相比之下，多模态CoT将文本和视觉结合到一个两阶段框架中。第一步涉及基于多模态信息的推理生成。随后是第二阶段，答案推断，利用生成的信息丰富的推理。

多模态CoT模型（1B）在ScienceQA基准测试中表现优于GPT-3.5。