Skip to content

多模态#

LlamaIndex不仅提供构建基于语言的应用程序的能力,还支持多模态应用程序 - 结合语言和图像。

多模态用例类型#

目前正在积极探索这一领域,但一些引人注目的用例正在涌现。

RAG(检索增强生成)#

所有核心的 RAG 概念:索引、检索和合成,都可以扩展到图像设置中。

  • 输入可以是文本或图像。
  • 存储的知识库可以包含文本或图像。
  • 用于响应生成的输入可以是文本或图像。
  • 最终响应可以是文本或图像。

查看下面的指南:

结构化输出#

您可以通过新的 OpenAI GPT4V 通过 LlamaIndex 生成结构化输出。用户只需指定一个 Pydantic 对象来定义输出的结构。

查看下面的指南:

检索增强图像字幕#

通常,理解图像需要从知识库中查找信息。在这里,检索增强图像字幕是一个流程 - 首先使用多模态模型为图像加上字幕,然后通过从文本语料库中检索来完善字幕。

查看下面的指南:

代理#

以下是一些展示了 GPT-4V 代理能力的初步作品。

评估和比较#

这些部分展示了不同多模态模型在不同用例中的比较。

LLaVa-13、Fuyu-8B 和 MiniGPT-4 多模态 LLM 模型在图像推理中的比较#

这些笔记本展示了如何使用不同的多模态 LLM 模型进行图像理解/推理。各种模型推理由 Replicate 或 OpenAI GPT4-V API 支持。我们比较了几种流行的多模态 LLMs:

  • GPT4-V(OpenAI API)
  • LLava-13B(Replicate)
  • Fuyu-8B(Replicate)
  • MiniGPT-4(Replicate)
  • CogVLM(Replicate)

查看下面的指南:

多模态 RAG 的简单评估#

在这本指南中,我们将演示如何评估多模态 RAG 系统。与仅涉及文本的情况一样,我们将分别考虑检索器和生成器的评估。正如我们在关于评估多模态 RAG 的博客中所暗示的,我们在这里的方法涉及应用于评估检索器和生成器(用于仅文本情况)的通常技术的改编版本。这些改编版本是 llama-index 库的一部分(即,评估模块),本笔记本将指导您如何将它们应用于您的评估用例。

模型指南#

以下是一些笔记本指南,向您展示如何与不同的多模态模型提供者进行交互。