简介:
- 引入多模态对话代理和LLaVA代理以增强LMM的功能。
- 用户可以使用
<img img_path>
标签同时输入文本和图像,以指定图像加载。 - 通过GPT-4V笔记本进行演示。
- 通过LLaVA笔记本进行演示。
引言
大型多模态模型(LMM)通过处理多感官数据来增强大型语言模型(LLM)的能力。
本博文和最新的AutoGen更新专注于视觉理解。用户可以输入图像,提出关于图像的问题,并从这些LMM中获得基于文本的回答。
我们现在支持来自OpenAI的gpt-4-vision-preview
模型和来自Microsoft的LLaVA
模型。
在这里,我们强调多模态对话代理和LLaVA代理,因为它们越来越受欢迎。 GPT-4V代表图像理解的前沿,而LLaVA是一个高效的模型,从LLama-2进行了精细调整。
安装
在AutoGen安装过程中加入lmm
功能:
pip install "pyautogen[lmm]"
然后,从AutoGen中导入多模态对话代理或LLaVA代理:
from autogen.agentchat.contrib.multimodal_conversable_agent import MultimodalConversableAgent # 用于GPT-4V
from autogen.agentchat.contrib.llava_agent import LLaVAAgent # 用于LLaVA