为生产环境构建高性能 RAG 应用程序#

快速原型化 RAG 应用程序很容易，但要使其性能优越、稳健且可扩展到大型知识语料库则很困难。

本指南包含了各种技巧，可帮助提升您的 RAG 流程的性能。我们首先概述了一些通用技术 - 它们按照从最简单到最具挑战性的顺序松散排序。然后，我们将更深入地探讨每种技术，它们解决的用例以及如何在 LlamaIndex 中实现！

最终目标是优化您的检索和生成性能，以便能够准确回答更多关于更复杂数据集的查询，而不会出现幻觉。

构建生产级 RAG 的通用技术#

以下是构建生产级 RAG 的一些重要考虑因素

将用于检索的块与用于合成的块解耦
面向更大文档集的结构化检索
根据任务动态检索块
优化上下文嵌入

我们在我们的生产级 RAG 网络研讨会中讨论了这些内容。查看此推文线程以获取更多综合详情。

将用于检索的块与用于合成的块解耦#

更好的检索的关键技术是将用于检索的块与用于合成的块解耦。

动机#

用于检索的最佳块表示可能与用于合成的最佳考虑不同。例如，原始文本块可能包含 LL 模型合成更详细答案所需的详细信息。然而，它可能包含填充词/信息，可能会偏向嵌入表示，或者可能缺乏全局上下文，在相关查询到来时可能根本不会被检索。

关键技术#

有两种主要方法可以利用这个想法：

1. 嵌入文档摘要，链接到与文档相关的块。

这可以帮助在检索块之前以高层次检索相关文档，而不是直接检索块（可能在不相关文档中）。

资源：

2. 嵌入句子，然后链接到句子周围的窗口。

这允许更精细地检索相关上下文（嵌入巨大块会导致“中间丢失”问题），同时确保 LL 模型合成所需的足够上下文。

资源：

元数据替换后处理器

面向更大文档集的结构化检索#

动机#

标准 RAG 栈（top-k 检索 + 基本文本拆分）的一个大问题是随着文档数量的增加而扩展性不佳 - 例如，如果您有 100 个不同的 PDF。在这种情况下，给定一个查询，您可能希望使用结构化信息来帮助更精确地检索；例如，如果您提出的问题只与两个 PDF 有关，使用结构化信息确保这两个 PDF 被返回，而不仅仅是与块的嵌入相似度。

关键技术#

有几种执行更结构化标记/检索以用于生产级 RAG 系统的方法，每种方法都有其优缺点。

1. 元数据过滤器 + 自动检索 使用元数据为每个文档打标签，然后存储在向量数据库中。在推断时，使用 LL 模型推断正确的元数据过滤器来查询向量数据库，除了语义查询字符串。

优点 ✅：受支持于主要向量数据库。可以通过多个维度过滤文档。
缺点 🚫：可能难以定义正确的标签。标签可能不包含足够相关信息以进行更精确的检索。此外，标签代表文档级别的关键字搜索，不允许进行语义查找。

资源：

2. 存储文档层次结构（摘要 -> 原始块）+ 递归检索 嵌入文档摘要并将其映射到每个文档的块。在块级别之前首先在文档级别获取。

优点 ✅：允许在文档级别进行语义查找。
缺点 🚫：不允许通过结构化标签进行关键字查找（可能比语义搜索更精确）。此外，自动生成摘要可能会很昂贵。

资源

根据任务动态检索块#

动机#

RAG 不仅仅是关于特定事实的问答，而这正是 top-k 相似度所优化的。用户可能会提出各种各样的查询。Naive RAG 堆栈处理的查询包括询问特定事实，例如“告诉我关于2023年该公司的多元化和包容性倡议”或者“叙述者在 Google 期间做了什么”。但查询也可能包括摘要，例如“你能给我一个关于这份文件的高层概述吗”，或者比较“你能比较 X 和 Y”。所有这些用例可能需要不同的检索技术。

关键技术#

LlamaIndex 提供了一些核心抽象，帮助你进行特定任务的检索。这包括我们的路由器模块以及我们的数据代理模块。这还包括一些高级查询引擎模块。这还包括其他将结构化和非结构化数据结合的模块。

你可以使用这些模块来进行联合问答和摘要，甚至将结构化查询与非结构化查询结合起来。

核心模块资源

详细指南资源

优化上下文嵌入#

动机#

这与上述“解耦用于检索与综合的块”的动机有关。我们希望确保嵌入针对您特定的数据语料库进行了优化检索。预训练模型可能无法捕捉与您的用例相关的数据的显著特性。

关键技术#

除了上面列出的一些技术，我们还可以尝试微调嵌入模型。我们实际上可以在无标签的文本语料库上进行这样的操作。

在这里查看我们的指南：

嵌入微调指南