LLaMA

LLaMA: 开放且高效的基础语言模型

⚠️

本节正在大力开发中。

有什么新内容?

本文介绍了一系列基础语言模型,参数范围从7B到65B。

模型是在使用公开可用数据集的数万亿个标记上进行训练的。

(Hoffman et al. 2022) (在新标签页中打开)进行的研究表明,在给定的计算预算下,使用更多数据训练的较小模型可以比更大的模型获得更好的性能。这项研究建议在200B tokens上训练10B模型。然而,LLaMA论文发现,即使在1T tokens之后,7B模型的性能仍在继续提高。

LLAMA1

这项工作的重点是通过训练更多的标记来训练模型(LLaMA),以在各种推理预算下实现最佳性能。

能力与关键成果

总体而言,LLaMA-13B 在许多基准测试中优于 GPT-3(175B),尽管它小了 10 倍并且可以在单个 GPU 上运行。LLaMA 65B 与 Chinchilla-70B 和 PaLM-540B 等模型具有竞争力。

论文: LLaMA: 开放且高效的基础语言模型 (在新标签页中打开)

代码: https://github.com/facebookresearch/llama (在新标签页中打开)

参考文献