RAG 模型的可靠性有多高？

这篇由Wu等人（2024）撰写的新论文旨在量化 RAG 模型和 LLMs 内部先验之间的博弈。

该论文侧重于对 GPT-4 和其他 LLMs 在问答分析中的表现。

研究发现，提供正确的检索信息可以修正大部分模型错误（准确率达到 94%）。

当文档中包含更多不正确的值且 LLM 的内部先验较弱时，LLM 更有可能重复不正确的信息。然而，研究发现，当其具有更强的先验时，LLMs 更具抗性。

该论文还报告称，“修改后的信息与模型先验偏离越大，模型越不倾向于选择它”。

许多开发人员和公司正在生产中使用 RAG 系统。这项工作强调了在使用 LLMs 时评估风险的重要性，考虑到可能包含支持、矛盾或完全不正确信息的不同类型上下文信息。