Claude 3

Anthropic 宣布了 Claude 3，他们的新模型系列，包括 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。

据报道，Claude 3 Opus（最强的模型）在MMLU和HumanEval等常见基准测试中表现优于GPT-4和所有其他模型。

结果与能力

Claude 3 的能力包括高级推理、基础数学、分析、数据提取、预测、内容创作、代码生成以及将非英语语言（如西班牙语、日语和法语）进行转换。下表展示了 Claude 3 在多个基准测试中与其他模型的比较，其中 Claude 3 Opus 在所有提到的模型中表现最佳：

"Claude 3 Benchmarks"

Claude 3 Haiku 是该系列中最快且最具成本效益的模型。Claude 3 Sonnet 比之前的 Claude 版本快 2 倍，而 Opus 与 Claude 2.1 速度相当，但具备更强大的功能。

Claude 3 模型支持 200K 上下文窗口，但可以扩展到 1M 令牌以选择客户。Claude 3 Opus 在 Needle In A Haystack (NIAH) 评估中实现了近乎完美的召回率，该评估衡量模型在大语料库中召回信息并有效处理长上下文提示的能力。

这些模型还具有强大的视觉能力，能够处理照片、图表和图形等格式。

"Claude 3 Vision Capabilities"

Anthropic还声称，这些模型对请求有更细致的理解，并且拒绝的次数更少。Opus在开放式问题的实际问答中也显示出显著的改进，同时减少了错误答案或幻觉。Claude 3模型在生成像JSON对象这样的结构化输出方面也比Claude 2模型更好。