RAG模型的忠实度如何？

这篇由Wu等人（2024）（在新标签页中打开）撰写的新论文旨在量化RAG与LLMs内部先验之间的拉锯战。

它专注于GPT-4和其他大型语言模型在问答分析中的应用。

研究发现，提供正确的检索信息可以修复大部分模型错误（准确率为94%）。

"RAG Faithfulness" 来源: Wu et al. (2024) (在新标签页中打开)

当文档包含更多错误值且LLM的内部先验较弱时，LLM更有可能背诵错误信息。然而，当LLM的先验较强时，它们被发现更具抵抗力。

该论文还报告称，“修改后的信息与模型的先验偏差越大，模型越不可能偏好它。”

许多开发者和公司正在生产环境中使用RAG系统。这项工作强调了在使用LLMs时评估风险的重要性，考虑到可能包含支持、矛盾或完全错误信息的不同类型的上下文信息。

LLM Reasoning LLM In-Context Recall