组件化评估#
要对您的流程进行更深入的评估,有助于将其分解为对各个组件的评估。
例如,特定的失败案例可能是由于未检索到正确的文档以及 LLM 误解上下文并产生了错误的结果。能够分离并单独处理这些问题可以帮助减少复杂性,并引导您逐步获得更令人满意的整体结果。
利用公共基准#
在进行初始模型选择时,查看模型在标准化、多样化的领域或任务集上的表现有助于评估。
嵌入的一个有用的基准是 MTEB Leaderboard。
评估检索#
BEIR 数据集#
BEIR 用于评估特定的检索模型在零-shot设置下是否能很好地泛化到小众领域。
由于大多数公开可用的嵌入和检索模型已经针对 BEIR 进行了基准测试(例如通过 MTEB 基准测试),因此在您想要评估独特模型时,利用 BEIR 更有帮助。
例如,在对您的数据集进行微调后,查看其在多样化领域上的性能下降情况可能会有所帮助。这可以表明数据漂移可能会影响您的检索准确性,例如,如果您在 RAG 系统中添加了超出微调训练分布范围的文档。
以下是一个展示如何将 BEIR 数据集与您的检索流程配合使用的笔记本。
我们将很快添加更多方法来评估检索。这包括在您自己的数据集上评估检索。
评估查询引擎组件(例如,不包括检索)#
在这种情况下,我们可能希望评估查询引擎的特定组件(可能会生成子问题或后续问题)在标准基准上的表现。这有助于表明您的检索流程相对于备选流程或模型的落后或领先程度。
HotpotQA 数据集#
HotpotQA 数据集用于评估需要多次检索步骤的查询。
示例:
限制:
- HotpotQA 是在维基百科语料库上进行评估的。尤其是 GPT4 这样的 LLM 往往能够相对良好地记忆维基百科中的信息。因此,该基准对于评估具有来自知识型模型(如 GPT4)的检索 + 重新排序系统并不特别适用。