Claude 3

Anthropic 宣布推出他们的新模型系列 Claude 3，包括 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。

据报道，Claude 3 Opus（最强大的模型）在 MMLU 和 HumanEval 等常见基准测试中表现优于 GPT-4 和所有其他模型。

结果和能力

Claude 3 的能力包括高级推理、基本数学、分析、数据提取、预测、内容创作、代码生成，以及在西班牙语、日语和法语等非英语语言之间的转换。下表展示了 Claude 3 在几个基准测试上与其他模型的比较，其中 Claude 3 Opus 的表现优于所有提到的模型：

"Claude 3 基准测试"

Claude 3 Haiku 是该系列中速度最快且成本效益最高的模型。Claude 3 Sonnet 比 Claude 之前的版本快 2 倍，而 Opus 与 Claude 2.1 一样快，但具有更优越的能力。

Claude 3 模型支持 200K 上下文窗口，但可以扩展到 1M 令牌以满足特定客户的需求。Claude 3 Opus 在“大海捞针”（NIAH）评估中取得了接近完美的召回率，该评估衡量了模型在大语料库中召回信息并有效处理长上下文提示的能力。

该模型还具有强大的视觉能力，可处理照片、图表和图形等格式。

"Claude 3 视觉能力"

Anthropic 还声称这些模型对请求有更细致入微的理解，并拒绝次数更少。Opus 在回答开放性问题的事实性问题方面也取得了显著进展，同时减少了错误答案或幻觉。Claude 3 模型在生成结构化输出（如 JSON 对象）方面也优于 Claude 2 模型。