跳到主要内容

llama

LLaMA:开放高效的基础语言模型

有什么新内容?

本文介绍了一系列参数从7B到65B不等的基础语言模型。

这些模型是在公开可用的数据集上训练的,总共训练了数万亿个标记。

(Hoffman等人,2022) 的研究表明,在给定较小的计算预算的情况下,训练在更多数据上的较小模型可以比较大的模型获得更好的性能。该研究建议在200B标记上训练10B模型。然而,LLaMA论文发现,即使在1T标记之后,7B模型的性能仍在持续提升。

LLAMA1

本研究专注于训练模型(LLaMA),通过在更多标记上训练,实现在各种推理预算下获得最佳性能。

能力与关键结果

总体而言,LLaMA-13B在许多基准测试中表现优于GPT-3(175B),尽管体积小了10倍,而且可以在单个GPU上运行。LLaMA 65B与Chinchilla-70B和PaLM-540B等模型竞争力相当。

论文: LLaMA: 开放高效的基础语言模型

代码: https://github.com/facebookresearch/llama

参考文献