📄️ 测试 LLM 链
提示链是一种常见的模式,用于通过 LLM 执行更复杂的推理。它被 LangChain 等库使用,OpenAI 也通过 OpenAI 函数 提供了内置支持。
📄️ 评估事实性
promptfoo 实现了 OpenAI 的事实性评估方法,使用 factuality 断言类型。
📄️ 评估 RAG 管道
检索增强生成是一种通过相关数据丰富 LLM 提示的方法。通常,用户提示将被转换为嵌入,并从向量存储中获取匹配的文档。然后,LLM 会使用这些匹配的文档作为提示的一部分进行调用。
📄️ OpenAI vs Azure 基准测试
无论你是通过 OpenAI 还是 Azure API 使用 GPT,结果都非常相似。但有一些关键差异:
📄️ 选择最佳GPT模型
本指南将引导您如何比较OpenAI的GPT-4o和GPT-4o-mini,这两个模型是目前最强大和有效的GPT模型的有力竞争者。通过此测试框架,您将有机会测试这些模型的推理能力、成本和延迟。
📄️ Claude 3.5 vs GPT-4o
学习如何使用promptfoo用自己的数据对Claude 3.5和GPT-4o进行基准测试。发现哪个模型最适合您的特定用例。