指南 | promptfoo

📄️ 测试 LLM 链

提示链是一种常见的模式，用于通过 LLM 执行更复杂的推理。它被 LangChain 等库使用，OpenAI 也通过 OpenAI 函数提供了内置支持。

📄️ 评估事实性

promptfoo 实现了 OpenAI 的事实性评估方法，使用 factuality 断言类型。

📄️ 评估 RAG 管道

检索增强生成是一种通过相关数据丰富 LLM 提示的方法。通常，用户提示将被转换为嵌入，并从向量存储中获取匹配的文档。然后，LLM 会使用这些匹配的文档作为提示的一部分进行调用。

📄️ OpenAI vs Azure 基准测试

无论你是通过 OpenAI 还是 Azure API 使用 GPT，结果都非常相似。但有一些关键差异：

📄️ 选择最佳GPT模型

本指南将引导您如何比较OpenAI的GPT-4o和GPT-4o-mini，这两个模型是目前最强大和有效的GPT模型的有力竞争者。通过此测试框架，您将有机会测试这些模型的推理能力、成本和延迟。

📄️ Claude 3.5 vs GPT-4o

学习如何使用promptfoo用自己的数据对Claude 3.5和GPT-4o进行基准测试。发现哪个模型最适合您的特定用例。

📄️ Cohere Command-R 基准测试

虽然公开的基准测试提供了能力的一般感知，但真正了解哪个模型最适合你的特定应用的唯一方法是自己运行定制评估。

📄️ Llama vs GPT 基准测试

本指南描述了如何使用 promptfoo CLI 比较三个模型 - Llama 3.1 405B、GPT 4o 和 GPT 4o-mini。

📄️ DBRX 基准测试

有许多通用的基准测试用于衡量 DBRX、Mixtral 等类似性能级别的 LLM。但公共基准测试往往被操纵，并不总能反映实际使用情况。

📄️ 评估JSON输出

让LLM输出有效的JSON可能是一项艰巨的任务。存在几种失败模式：

📄️ 选择合适的温度设置以优化LLM性能

在语言模型中，temperature 设置就像一个旋钮，用于调整模型响应的可预测性或意外性，帮助应用程序开发者根据不同任务微调AI的创造力。

📄️ 评估OpenAI助手

OpenAI最近发布了一个助手API，简化了消息状态和工具使用的处理。它还启用了代码解释器和知识检索功能，抽象了一些实现RAG架构的繁琐工作。

📄️ 评估 Replicate Lifeboat

Replicate 提供了一个 "Lifeboat" OpenAI 代理，允许你切换到他们托管的 Llama2-70b 实例。他们慷慨地在一周内免费提供此 API。

📄️ Gemini vs GPT

在比较Gemini与GPT时，你会发现网上有很多评估和意见。模型能力设定了你能实现的上限，但根据我的经验，大多数大型语言模型应用在很大程度上依赖于其提示词和使用场景。

📄️ Gemma vs Llama

比较谷歌的Gemma和Meta的Llama不仅仅是查看它们的规格和阅读通用基准测试。它们真正有用性的衡量标准在于它们在你特定需求的具体任务中的表现，以及在你的特定应用场景中的表现。

📄️ Gemma vs Mistral/Mixtral

在比较大型语言模型（LLM）的性能时，最好不要依赖通用基准。本指南将向您展示如何设置一个全面的基准测试，以比较 Gemma、Mistral 和 Mixtral。

📄️ GPT 3.5 vs GPT 4

本指南将引导你如何使用 promptfoo 比较 OpenAI 的 GPT-3.5 和 GPT-4。这个测试框架将让你有机会测试模型的推理能力、成本和延迟。

📄️ GPT-4o vs GPT-4o-mini

OpenAI 发布了 gpt-4o-mini，这是一个高度成本效益的小型模型，旨在通过降低智能成本来扩展使用 AI 构建的应用范围。GPT-4o mini 在性能和成本效益上超越了 GPT-3.5 Turbo，尽管它比 GPT-4o 更具成本效益，但在文本智能和多模态推理方面仍保持强大的能力。

📄️ gpt-4o vs o1

了解如何对 OpenAI 的 o1 和 o1-mini 进行基准测试。发现哪个模型最适合您的特定用例。

📄️ 无审查的Llama2基准测试

大多数大型语言模型（LLM）经过微调，以防止它们回答诸如“如何制作泰诺”、“在一场拳击比赛中谁会赢...”以及“写一个非常辣的蛋黄酱的食谱”等问题。

📄️ 如何进行LLM应用的红队测试

Promptfoo 是一个流行的开源评估框架，包含了LLM红队和渗透测试功能。

📄️ Mistral vs Llama

当Mistral发布时，它是基于多项评估的“迄今为止最好的7B模型”。最近，基于Mistral的专家混合模型Mixtral宣布，其评估性能更加令人印象深刻。

📄️ Mixtral vs GPT

在本指南中，我们将逐步介绍如何比较三个大型语言模型（LLM）：Mixtral、GPT-4o-mini 和 GPT-4o。我们将使用 promptfoo，一个命令行界面（CLI）工具，来运行评估并根据一组提示和测试用例比较这些模型的性能。

📄️ Phi vs Llama

在选择像Phi 3和Llama 3.1这样的大型语言模型时，重要的是要在特定的使用场景上进行基准测试，而不是仅仅依赖公开的基准测试。当模型在同一水平线上时，具体的应用场景会产生很大的差异。

📄️ 防止幻觉

LLM具有巨大的潜力，但它们容易生成错误或误导性的信息，这种现象被称为幻觉。事实性和LLM的“基础”是开发LLM应用程序的开发者关注的关键问题。

📄️ Qwen vs GPT-4 vs Llama

作为使用大型语言模型（LLM）的产品开发者，您可能专注于特定的使用场景。通用的基准测试容易被操纵，并且通常不适用于特定的产品需求。提高您的LLM应用程序质量的最佳方法是构建自己的基准测试。

📄️ LLM生成代码的沙盒评估

你正在使用LLM生成代码片段、函数，甚至是整个程序。盲目信任并在我们的生产环境——甚至开发环境中——执行这些生成的代码，可能会带来严重的安全风险。

📄️ 评估LLM文本到SQL的性能

Promptfoo是一个命令行工具，允许你测试和验证文本到SQL的转换。