LLM 集合

本节包括了一系列知名和基础 LLM 的集合和总结。

模型

模型	发布日期	大小（字节）	检查点	描述
Falcon LLM	2023 年 9 月	7, 40, 180	Falcon-7B, Falcon-40B, Falcon-180B	Falcon LLM 是一个具有 1800 亿参数、在 3500 亿标记上训练的基础大型语言模型（LLM）。TII 现已发布 Falcon LLM - 一个 180B 模型。
Mistral-7B-v0.1	2023 年 9 月	7	Mistral-7B-v0.1	Mistral-7B-v0.1 是一个预训练的生成文本模型，具有 70 亿参数。该模型基于变压器架构，具有诸如分组查询注意力、字节回退 BPE 分词器和滑动窗口注意力等功能。
CodeLlama	2023 年 8 月	7, 13, 34	CodeLlama-7B, CodeLlama-13B, CodeLlama-34B	Code Llama 系列旨在进行通用代码合成和理解。它专门针对指令遵循和更安全的部署进行了调整。这些模型是自回归的，并使用了优化的变压器架构。它们旨在用于英语和相关编程语言的商业和研究用途。
Llama-2	2023 年 7 月	7, 13, 70	Llama-2-7B, Llama-2-13B, Llama-2-70B	由 Meta AI 开发的 LLaMA-2 在 2023 年 7 月发布，拥有 70 亿参数的模型。它保持了与 LLaMA-1 类似的架构，但使用了更多 40% 的训练数据。LLaMA-2 包括基础模型和对话微调模型，称为 LLaMA-2 Chat，可用于许多商业用途，但有一些限制。
XGen-7B-8K	2023 年 7 月	7	XGen-7B-8K	Salesforce AI Research 开发的 XGen-7B-8K 是一个 70 亿参数的语言模型。
Claude-2	2023 年 7 月	130	-	Anthropic 开发的 Claude 2 是一个基础 LLM，旨在比其先前版本更安全和更易“操控”。它是对话型的，可用于各种任务，如客户支持、问答等。它可以处理大量文本，非常适合需要处理大量数据的应用，如文档、电子邮件、常见问题和聊天记录。
Tulu	2023 年 6 月	7, 13, 30, 65	Tulu-7B, Tulu-13B Tulu-30B, Tulu-65B	Tulu 是由 Allen Institute for AI 开发的一系列模型。这些模型是在 FLAN V2、CoT、Dolly、Open Assistant 1、GPT4-Alpaca、Code-Alpaca 和 ShareGPT 等指令数据集的混合上进行微调的 LLaMa 模型。它们旨在跨各种自然语言处理任务遵循复杂指令。
ChatGLM2-6B	2023 年 6 月	6	ChatGLM2-6B	ChatGLM2-6B 是开源双语（中英文）聊天模型 ChatGLM-6B 的第二代版本。它具有改进的性能、更长的上下文能力、更高效的推理，并且具有供学术和商业使用的开放许可。该模型使用混合目标函数进行训练，已经用 1.4T 双语标记进行了训练。与第一代相比，在各种数据集上表现出了显著的改进。
Nous-Hermes-13B	2023 年 6 月	13	Nous-Hermes-13B	Nous-Hermes-13B 是由 Nous Research 在超过 30 万条指令上进行微调的语言模型。
Baize-v2	2023年5月	7, 13	Baize-v2-13B	Baize-v2是由加州大学圣地亚哥分校和中山大学开发的开源聊天模型，经过LoRA微调，并使用监督微调（SFT）和带反馈的自蒸馏（SDF）进行训练。
RWKV-4-Raven	2023年5月	1.5, 3, 7, 14	RWKV-4-Raven	RWKV-4-Raven是一系列模型。这些模型在Alpaca、CodeAlpaca、Guanaco、GPT4All和ShareGPT等各种数据集上进行微调。它们采用100%的循环神经网络架构用于语言模型。
Guanaco	2023年5月	7, 13, 33, 65	Guanaco-7B, Guanaco-13B, Guanaco-33B, Guanaco-65B	Guanaco模型是通过在OASST1数据集上对LLaMA基础模型进行4位QLoRA调整微调的开源聊天机器人。它们旨在用于研究目的。这些模型允许以低成本进行本地实验，构建高质量的聊天机器人系统。
PaLM 2	2023年5月	-	-	一种具有更好的多语言和推理能力，比其前身PaLM更高效的语言模型。
Gorilla	2023年5月	7	Gorilla	Gorilla：连接大量API的大型语言模型
RedPajama-INCITE	2023年5月	3, 7	RedPajama-INCITE	一个包括基础、指令调整和聊天模型的系列模型。
LIMA	2023年5月	65	-	一个65B参数的LLaMa语言模型，仅通过1,000个精心策划的提示和回复上的标准监督损失进行微调，没有采用任何强化学习或人类偏好建模。
Replit Code	2023年5月	3	Replit Code	replit-code-v1-3b模型是在Stack Dedup v1.2数据集的20种语言上训练的27亿参数LLM。
h2oGPT	2023年5月	7, 12, 20, 40	h2oGPT	h2oGPT是一个LLM微调框架和带有文档问答功能的聊天机器人UI。
CodeGen2	2023年5月	1, 3, 7, 16	CodeGen2	用于程序合成的代码模型。
CodeT5 and CodeT5+	2023年5月	16	CodeT5	CodeT5和CodeT5+模型用于Salesforce Research的代码理解和生成。
StarCoder	2023年5月	15	StarCoder	StarCoder：用于代码的最先进LLM
MPT	2023年5月	7, 30	MPT-7B, MPT-30B	MosaicML的MPT模型是开源的商业许可的大型语言模型，提供针对各种NLP任务优化的可定制AI解决方案。
DLite	2023年5月	0.124 - 1.5	DLite-v2-1.5B	轻量级指令跟随模型，具有类似ChatGPT的互动性。
WizardLM	2023年4月	70, 30, 13	WizardLM-13B, WizardLM-30B, WizardLM-70B	WizardLM是一系列大型语言模型，旨在遵循复杂的指令。这些模型在编码、数学推理和开放领域对话中表现良好。这些模型具有友好的许可协议，并采用Vicuna的提示格式用于多轮对话。这些模型由WizardLM团队开发，旨在用于各种NLP任务。
FastChat-T5-3B	2023年4月	3	FastChat-T5-3B	FastChat-T5是一个开源聊天机器人，通过在从ShareGPT收集的用户共享对话上微调Flan-t5-xl（3B参数）进行训练。它基于编码器-解码器变压器架构，可以自动生成用户输入的响应。
GPT4All-13B-Snoozy	2023年4月	13	GPT4All-13B-Snoozy	GPT4All-13B-Snoozy是一个由Nomic AI开发的基于GPL许可的聊天机器人，训练于包括单词问题、多轮对话、代码、诗歌、歌曲和故事在内的大规模策划语料库。该模型是从LLama 13B微调而来，主要用于助手式交互数据，主要支持英语。
Koala-13B	2023年4月	13	Koala-13B	Koala-13B是由伯克利人工智能研究所（BAIR）创建的聊天机器人。它在Meta的LLaMA上进行了微调，专注于从网络上抓取的对话数据。该模型旨在在性能和成本之间取得平衡，提供了一个更轻量、开源的替代方案，以应对ChatGPT等模型。它已经在包括与ChatGPT等高性能闭源模型的对话在内的交互数据上进行了训练。
OpenAssistant (Llama family)	2023年4月	30, 70	Llama2-30b-oasst, Llama2-70b-oasst	OpenAssistant-LLaMA模型是OpenAssistant在LLaMA模型上的工作。它支持使用GGML格式进行CPU + GPU推断，并旨在为指令跟随任务提供一个开源替代方案。
Dolly	2023年4月	3, 7, 12	Dolly-v2-3B, Dolly-v2-7B, Dolly-v2-12B	Dolly是一个遵循指令的LLM，经过人工生成的指令数据集训练，许可用于研究和商业用途。
StableLM	2023年4月	3, 7	StableLM-Alpha-3B, StableLM-Alpha-7B	Stability AI的StableLM系列语言模型。
Pythia	2023年4月	0.070 - 12	Pythia	一套包含16个LLM的套件，所有模型都按照完全相同的顺序训练，参数范围从70M到12B。
Open Assistant (Pythia Family)	2023年3月	12	Open Assistant	OpenAssistant是一个基于对话的助手，能够理解任务，可以与第三方系统交互，并动态检索信息以执行任务。
Med-PaLM 2	2023年3月	-	-	用大型语言模型实现专业水平的医学问题回答。
ChatGLM-6B	2023年3月	6	ChatGLM-6B	ChatGLM-6B是一种基于通用语言模型（GLM）架构的开源中英双语对话模型，具有62亿参数。尽管其较小的规模导致一些事实或数学逻辑问题，但由于在超过1万亿英文和中文标记上进行训练，它非常擅长中文问答、摘要和对话任务。
GPT-3.5-turbo	2023年3月	175	-	GPT-3.5-Turbo是OpenAI优化用于聊天的先进语言模型，但也适用于传统完成任务。与GPT-3相比，在所有方面都提供更好的性能，每个标记便宜10倍。
Vicuna	2023年3月	7, 13, 33	Vicuna-7B, Vicuna-13B	Vicuna是基于变压器架构的自回归语言模型系列。它是从LLaMA微调而来，主要用于大型语言模型和聊天机器人的研究。由LMSYS开发，具有非商业许可。
Alpaca-13B	2023年3月	13	-	Alpaca是从Meta的LLaMA 7B微调而来的遵循指令的语言模型。它旨在用于学术研究，以解决虚假信息和有害信息等问题。Alpaca在包括52,000个指令跟随演示在内的数据上进行了训练，旨在成为学术研究的更易接近的选择。由于许可和安全问题，不适用于商业用途。
Claude-1	2023年3月	137	-	Claude 是由 Anthropic 构建的基础大型语言模型（LLM）。它旨在成为一个有益、诚实且无害的人工智能助手。它可以执行各种对话和文本处理任务，并可通过聊天界面和 API 访问。
Cerebras-GPT	2023年3月	0.111 - 13	Cerebras-GPT	Cerebras-GPT：在 Cerebras Wafer-Scale 集群上训练的开放式计算优化语言模型
BloombergGPT	2023年3月	50	-	BloombergGPT：金融领域的大型语言模型
PanGu-Σ	2023年3月	1085	-	PanGu-Σ：朝向拥有稀疏异构计算的万亿参数语言模型
GPT-4	2023年3月	-	-	GPT-4 技术报告
LLaMA	2023年2月	7, 13, 33, 65	LLaMA	LLaMA：开放且高效的基础语言模型
ChatGPT	2022年11月	-	-	一种名为 ChatGPT 的模型，以对话方式交互。对话格式使得 ChatGPT 能够回答后续问题，承认错误，质疑不正确的前提，并拒绝不当的请求。
Galactica	2022年11月	0.125 - 120	Galactica	Galactica：用于科学领域的大型语言模型
mT0	2022年11月	13	mT0-xxl	通过多任务微调实现跨语言泛化
BLOOM	2022年11月	176	BLOOM	BLOOM：一种拥有176B参数的开放式多语言语言模型
U-PaLM	2022年10月	540	-	通过额外0.1%的计算突破缩放定律
UL2	2022年10月	20	UL2, Flan-UL2	UL2：统一语言学习范式
Sparrow	2022年9月	70	-	通过有针对性的人类判断改善对话代理的对齐
Flan-T5	2022年10月	11	Flan-T5-xxl	缩放指令微调语言模型
AlexaTM	2022年8月	20	-	AlexaTM 20B：使用大规模多语言 Seq2Seq 模型进行少样本学习
GLM-130B	2022年10月	130	GLM-130B	GLM-130B：一种开放的双语预训练模型
OPT-IML	2022年12月	30, 175	OPT-IML	OPT-IML：通过泛化的视角扩展语言模型指令元学习
OPT	2022年5月	175	OPT-13B, OPT-66B	OPT：开放的预训练 Transformer 语言模型
PaLM	2022年4月	540	-	PaLM：通过路径扩展语言建模
Tk-Instruct	2022年4月	11	Tk-Instruct-11B	超自然指令：通过1600多个自然语言处理任务上的声明性指令实现泛化
GPT-NeoX-20B	2022年4月	20	GPT-NeoX-20B	GPT-NeoX-20B：一种开源的自回归语言模型
Chinchilla	2022年3月	70	-	表明在计算预算下，最佳性能不是由最大的模型实现的，而是由在更多数据上训练的较小模型实现的。
InstructGPT	2022年3月	175	-	训练语言模型遵循人类反馈的指令
CodeGen	2022年3月	0.350 - 16	CodeGen	CodeGen：用于代码的开放大型语言模型，具有多轮程序合成
AlphaCode	2022年2月	41	-	使用 AlphaCode 实现竞赛级别的代码生成
MT-NLG	2022年1月	530	-	使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 530B，一种大规模生成式语言模型
LaMDA	2022年1月	137	-	LaMDA：用于对话应用的语言模型
GLaM	2021年12月	1200	-	GLaM: 使用专家混合模型实现语言模型的高效扩展
Gopher	2021年12月	280	-	扩展语言模型：来自 Gopher 训练的方法、分析和见解
WebGPT	2021年12月	175	-	WebGPT：带有人类反馈的浏览器辅助问答
Yuan 1.0	2021年10月	245	-	Yuan 1.0：零-shot和少-shot学习中的大规模预训练语言模型
T0	2021年10月	11	T0	多任务提示训练实现零-shot任务泛化
FLAN	2021年9月	137	-	微调语言模型是零-shot学习者
HyperCLOVA	2021年9月	82	-	大规模语言模型能带来哪些变革？对 HyperCLOVA 进行的深入研究：亿级规模的韩语生成式预训练变换器
ERNIE 3.0 Titan	2021年7月	10	-	ERNIE 3.0 Titan：探索更大规模的知识增强预训练以实现语言理解和生成
Jurassic-1	2021年8月	178	-	Jurassic-1：技术细节和评估
ERNIE 3.0	2021年7月	10	-	ERNIE 3.0：大规模知识增强预训练以实现语言理解和生成
Codex	2021年7月	12	-	对代码进行大规模语言模型的评估
GPT-J-6B	2021年6月	6	GPT-J-6B	一种训练于 The Pile 的60亿参数自回归文本生成模型
CPM-2	2021年6月	198	CPM	CPM-2：大规模高性价比预训练语言模型
PanGu-α	2021年4月	13	PanGu-α	PanGu-α：具有自动并行计算的大规模自回归预训练中文语言模型
mT5	2020年10月	13	mT5	mT5：一种大规模多语言预训练文本到文本变换器
BART	2020年7月	-	BART	用于自然语言生成、翻译和理解的去噪序列到序列预训练
GShard	2020年6月	600	-	GShard：通过条件计算和自动分片扩展巨型模型
GPT-3	2020年5月	175	-	语言模型是少-shot学习者
CTRL	2019年9月	1.63	CTRL	CTRL：一种用于可控生成的条件变换器语言模型
ALBERT	2019年9月	0.235	ALBERT	用于自监督学习的轻量级BERT语言表示
XLNet	2019年6月	-	XLNet	用于语言理解和生成的通用自回归预训练
T5	2019年10月	0.06 - 11	Flan-T5	探索统一文本到文本变换器的迁移学习极限
GPT-2	2019年11月	1.5	GPT-2	语言模型是无监督多任务学习者
RoBERTa	2019年7月	0.125 - 0.355	RoBERTa	一种经过优化的鲁棒BERT预训练方法
BERT	2018年10月	-	BERT	来自变压器的双向编码器表示
GPT	2018年6月	-	GPT	通过生成式预训练改进语言理解

数据来源于Papers with Code，以及赵等人（2023年）的最新研究20。

LLM 集合

模型​

模型