Mixtral 8x22B

Mixtral 8x22B 是由 Mistral AI 发布的新开源大型语言模型（LLM）。Mixtral 8x22B 的特点是一个稀疏专家混合模型，总共有 141B 参数，其中 39B 是活跃参数。

功能

Mixtral 8x22B 被训练成一个具有成本效益的模型，其能力包括多语言理解、数学推理、代码生成、原生函数调用支持和受限输出支持。该模型支持64K标记的上下文窗口大小，这使得在大文档上具有高性能的信息召回能力。

Mistral AI 声称 Mixtral 8x22B 提供了最佳的性能与成本比社区模型之一，并且由于其稀疏激活，速度显著加快。

根据官方报告的结果 (在新标签页中打开)，Mixtral 8x22B（具有39B活动参数）在多个推理和知识基准测试（如MMLU、HellaS、TriQA、NaturalQA等）上优于Command R+和Llama 2 70B等最先进的开源模型。

Mixtral 8x22B 在编码和数学任务上优于所有开源模型，在GSM8K、HumanEval和Math等基准测试中表现突出。据报道，Mixtral 8x22B Instruct 在GSM8K（maj@8）上获得了90%的分数。

该模型是在Apache 2.0许可证下发布的。