GPT-4o vs GPT-4o-mini: 在你自己的数据上进行基准测试
OpenAI 发布了 gpt-4o-mini,这是一个高度成本效益的小型模型,旨在通过降低智能成本来扩展使用 AI 构建的应用范围。GPT-4o mini 在性能和成本效益上超越了 GPT-3.5 Turbo,尽管它比 GPT-4o 更具成本效益,但在文本智能和多模态推理方面仍保持强大的能力。
本指南将引导你如何使用 promptfoo 比较 OpenAI 的 GPT-4o 和 GPT-4o-mini。这个测试框架将让你有机会测试模型的推理能力、成本和延迟。
通用基准测试适用于通用用例。如果你正在构建一个 LLM 应用,你应该在自己的数据上评估这些模型,并根据你的特定需求做出明智的决定。
最终结果将是一个并排比较,看起来像这样:
前提条件
在我们深入之前,确保你已经准备好以下内容:
步骤 1: 设置
为你的比较项目创建一个专用目录:
npx promptfoo@latest init gpt-comparison
编辑 promptfooconfig.yaml
以包含 GPT-4o 和 GPT-4o-mini:
providers:
- openai:gpt-4o
- openai:gpt-4o-mini
步骤 2: 设计提示
在这个例子中,我们考虑一个自定义的二进制图像分类任务。如果你正在开发一个涉及将图像分类为两个类别(例如,猫 vs. 狗)的应用程序,你可以使用 promptfoo 设置类似的比较。
首先,调整你的 promptfooconfig.yaml
以包含与你的图像分类任务相关的提示和测试用例:
providers:
- openai:gpt-4o
- openai:gpt-4o-mini
prompts:
- |
role: user
content:
- type: text
text: Please classify this image as a cat or a dog in one word in lower case.
- type: image_url
image_url:
url: "{{url}}"
tests:
- vars:
url: 'https://upload.wikimedia.org/wikipedia/commons/thumb/b/b6/Felis_catus-cat_on_snow.jpg/640px-Felis_catus-cat_on_snow.jpg'
assert:
- type: equals
value: 'cat'
- vars:
url: 'https://upload.wikimedia.org/wikipedia/commons/thumb/4/47/American_Eskimo_Dog.jpg/612px-American_Eskimo_Dog.jpg'
assert:
- type: equals
value: 'dog'
使用 promptfoo eval
命令运行比较,看看每个模型在你的二进制图像分类任务中的表现。虽然 GPT-4o 可能提供更高的准确性,但 GPT-4o-mini 的较低成本使其成为成本效益至关重要的应用中的一个有吸引力的选择。
GPT-4o mini 旨在成本效益高,并且在各种推理任务中表现出色,是那些需要经济实惠且快速响应的应用的绝佳选择。它在 API 中支持文本和视觉,并将很快扩展到文本、图像、视频和音频的输入和输出,使其适用于广泛的使用场景。
成本、延迟和准确性之间的权衡将根据每个应用进行定制。这就是为什么运行你自己的评估很重要的原因。
用你自己的测试用例进行实验,并将本指南作为起点。要了解更多信息,请参见 入门指南。