Mixtral 8x22B
Mixtral 8x22B 是由 Mistral AI 发布的新开源大型语言模型(LLM)。Mixtral 8x22B 的特点是一个稀疏专家混合模型,总共有 141B 参数,其中 39B 是活跃参数。
功能
Mixtral 8x22B 被训练成一个具有成本效益的模型,其能力包括多语言理解、数学推理、代码生成、原生函数调用支持和受限输出支持。该模型支持64K标记的上下文窗口大小,这使得在大文档上具有高性能的信息召回能力。
Mistral AI 声称 Mixtral 8x22B 提供了最佳的性能与成本比社区模型之一,并且由于其稀疏激活,速度显著加快。
结果
根据官方报告的结果 (在新标签页中打开),Mixtral 8x22B(具有39B活动参数)在多个推理和知识基准测试(如MMLU、HellaS、TriQA、NaturalQA等)上优于Command R+和Llama 2 70B等最先进的开源模型。
Mixtral 8x22B 在编码和数学任务上优于所有开源模型,在GSM8K、HumanEval和Math等基准测试中表现突出。据报道,Mixtral 8x22B Instruct 在GSM8K(maj@8)上获得了90%的分数。
更多关于Mixtral 8x22B的信息以及如何使用它,请访问:https://docs.mistral.ai/getting-started/open_weight_models/#operation/listModels (在新标签页中打开)
该模型是在Apache 2.0许可证下发布的。