跳到主要内容

RAG 模型的可靠性有多高?

这篇由Wu等人(2024)撰写的新论文旨在量化 RAG 模型和 LLMs 内部先验之间的博弈。

该论文侧重于对 GPT-4 和其他 LLMs 在问答分析中的表现。

研究发现,提供正确的检索信息可以修正大部分模型错误(准确率达到 94%)。

"RAG 可靠性" 来源:Wu等人(2024)

当文档中包含更多不正确的值且 LLM 的内部先验较弱时,LLM 更有可能重复不正确的信息。然而,研究发现,当其具有更强的先验时,LLMs 更具抗性。

该论文还报告称,“修改后的信息与模型先验偏离越大,模型越不倾向于选择它”。

许多开发人员和公司正在生产中使用 RAG 系统。这项工作强调了在使用 LLMs 时评估风险的重要性,考虑到可能包含支持、矛盾或完全不正确信息的不同类型上下文信息。