多模态#
LlamaIndex不仅提供构建基于语言的应用程序的能力,还支持多模态应用程序 - 结合语言和图像。
多模态用例类型#
目前正在积极探索这一领域,但一些引人注目的用例正在涌现。
RAG(检索增强生成)#
所有核心的 RAG 概念:索引、检索和合成,都可以扩展到图像设置中。
- 输入可以是文本或图像。
- 存储的知识库可以包含文本或图像。
- 用于响应生成的输入可以是文本或图像。
- 最终响应可以是文本或图像。
查看下面的指南:
结构化输出#
您可以通过新的 OpenAI GPT4V 通过 LlamaIndex 生成结构化
输出。用户只需指定一个 Pydantic 对象来定义输出的结构。
查看下面的指南:
检索增强图像字幕#
通常,理解图像需要从知识库中查找信息。在这里,检索增强图像字幕是一个流程 - 首先使用多模态模型为图像加上字幕,然后通过从文本语料库中检索来完善字幕。
查看下面的指南:
代理#
以下是一些展示了 GPT-4V 代理能力的初步作品。
评估和比较#
这些部分展示了不同多模态模型在不同用例中的比较。
LLaVa-13、Fuyu-8B 和 MiniGPT-4 多模态 LLM 模型在图像推理中的比较#
这些笔记本展示了如何使用不同的多模态 LLM 模型进行图像理解/推理。各种模型推理由 Replicate 或 OpenAI GPT4-V API 支持。我们比较了几种流行的多模态 LLMs:
- GPT4-V(OpenAI API)
- LLava-13B(Replicate)
- Fuyu-8B(Replicate)
- MiniGPT-4(Replicate)
- CogVLM(Replicate)
查看下面的指南:
多模态 RAG 的简单评估#
在这本指南中,我们将演示如何评估多模态 RAG 系统。与仅涉及文本的情况一样,我们将分别考虑检索器和生成器的评估。正如我们在关于评估多模态 RAG 的博客中所暗示的,我们在这里的方法涉及应用于评估检索器和生成器(用于仅文本情况)的通常技术的改编版本。这些改编版本是 llama-index 库的一部分(即,评估模块),本笔记本将指导您如何将它们应用于您的评估用例。
模型指南#
以下是一些笔记本指南,向您展示如何与不同的多模态模型提供者进行交互。