LLM 集合
本节包括了一系列知名和基础 LLM 的集合和总结。
模型
模型 | 发布日期 | 大小(字节) | 检查点 | 描述 |
---|---|---|---|---|
Falcon LLM | 2023 年 9 月 | 7, 40, 180 | Falcon-7B, Falcon-40B, Falcon-180B | Falcon LLM 是一个具有 1800 亿参数、在 3500 亿标记上训练的基础大型语言模型(LLM)。TII 现已发布 Falcon LLM - 一个 180B 模型。 |
Mistral-7B-v0.1 | 2023 年 9 月 | 7 | Mistral-7B-v0.1 | Mistral-7B-v0.1 是一个预训练的生成文本模型,具有 70 亿参数。该模型基于变压器架构,具有诸如分组查询注意力、字节回退 BPE 分词器和滑动窗口注意力等功能。 |
CodeLlama | 2023 年 8 月 | 7, 13, 34 | CodeLlama-7B, CodeLlama-13B, CodeLlama-34B | Code Llama 系列旨在进行通用代码合成和理解。它专门针对指令遵循和更安全的部署进行了调整。这些模型是自回归的,并使用了优化的变压器架构。它们旨在用于英语和相关编程语言的商业和研究用途。 |
Llama-2 | 2023 年 7 月 | 7, 13, 70 | Llama-2-7B, Llama-2-13B, Llama-2-70B | 由 Meta AI 开发的 LLaMA-2 在 2023 年 7 月发布,拥有 70 亿参数的模型。它保持了与 LLaMA-1 类似的架构,但使用了更多 40% 的训练数据。LLaMA-2 包括基础模型和对话微调模型,称为 LLaMA-2 Chat,可用于许多商业用途,但有一些限制。 |
XGen-7B-8K | 2023 年 7 月 | 7 | XGen-7B-8K | Salesforce AI Research 开发的 XGen-7B-8K 是一个 70 亿参数的语言模型。 |
Claude-2 | 2023 年 7 月 | 130 | - | Anthropic 开发的 Claude 2 是一个基础 LLM,旨在比其先前版本更安全和更易“操控”。它是对话型的,可用于各种任务,如客户支持、问答等。它可以处理大量文本,非常适合需要处理大量数据的应用,如文档、电子邮件、常见问题和聊天记录。 |
Tulu | 2023 年 6 月 | 7, 13, 30, 65 | Tulu-7B, Tulu-13B Tulu-30B, Tulu-65B | Tulu 是由 Allen Institute for AI 开发的一系列模型。这些模型是在 FLAN V2、CoT、Dolly、Open Assistant 1、GPT4-Alpaca、Code-Alpaca 和 ShareGPT 等指令数据集的混合上进行微调的 LLaMa 模型。它们旨在跨各种自然语言处理任务遵循复杂指令。 |
ChatGLM2-6B | 2023 年 6 月 | 6 | ChatGLM2-6B | ChatGLM2-6B 是开源双语(中英文)聊天模型 ChatGLM-6B 的第二代版本。它具有改进的性能、更长的上下文能力、更高效的推理,并且具有供学术和商业使用的开放许可。该模型使用混合目标函数进行训练,已经用 1.4T 双语标记进行了训练。与第一代相比,在各种数据集上表现出了显著的改进。 |
Nous-Hermes-13B | 2023 年 6 月 | 13 | Nous-Hermes-13B | Nous-Hermes-13B 是由 Nous Research 在超过 30 万条指令上进行微调的语言模型。 |
Baize-v2 | 2023年5月 | 7, 13 | Baize-v2-13B | Baize-v2是由加州大学圣地亚哥分校和中山大学开发的开源聊天模型,经过LoRA微调,并使用监督微调(SFT)和带反馈的自蒸馏(SDF)进行训练。 |
RWKV-4-Raven | 2023年5月 | 1.5, 3, 7, 14 | RWKV-4-Raven | RWKV-4-Raven是一系列模型。这些模型在Alpaca、CodeAlpaca、Guanaco、GPT4All和ShareGPT等各种数据集上进行微调。它们采用100%的循环神经网络架构用于语言模型。 |
Guanaco | 2023年5月 | 7, 13, 33, 65 | Guanaco-7B, Guanaco-13B, Guanaco-33B, Guanaco-65B | Guanaco模型是通过在OASST1数据集上对LLaMA基础模型进行4位QLoRA调整微调的开源聊天机器人。它们旨在用于研究目的。这些模型允许以低成本进行本地实验,构建高质量的聊天机器人系统。 |
PaLM 2 | 2023年5月 | - | - | 一种具有更好的多语言和推理能力,比其前身PaLM更高效的语言模型。 |
Gorilla | 2023年5月 | 7 | Gorilla | Gorilla:连接大量API的大型语言模型 |
RedPajama-INCITE | 2023年5月 | 3, 7 | RedPajama-INCITE | 一个包括基础、指令调整和聊天模型的系列模型。 |
LIMA | 2023年5月 | 65 | - | 一个65B参数的LLaMa语言模型,仅通过1,000个精心策划的提示和回复上的标准监督损失进行微调,没有采用任何强化学习或人类偏好建模。 |
Replit Code | 2023年5月 | 3 | Replit Code | replit-code-v1-3b模型是在Stack Dedup v1.2数据集的20种语言上训练的27亿参数LLM。 |
h2oGPT | 2023年5月 | 7, 12, 20, 40 | h2oGPT | h2oGPT是一个LLM微调框架和带有文档问答功能的聊天机器人UI。 |
CodeGen2 | 2023年5月 | 1, 3, 7, 16 | CodeGen2 | 用于程序合成的代码模型。 |
CodeT5 and CodeT5+ | 2023年5月 | 16 | CodeT5 | CodeT5和CodeT5+模型用于Salesforce Research的代码理解和生成。 |
StarCoder | 2023年5月 | 15 | StarCoder | StarCoder:用于代码的最先进LLM |
MPT | 2023年5月 | 7, 30 | MPT-7B, MPT-30B | MosaicML的MPT模型是开源的商业许可的大型语言模型,提供针对各种NLP任务优化的可定制AI解决方案。 |
DLite | 2023年5月 | 0.124 - 1.5 | DLite-v2-1.5B | 轻量级指令跟随模型,具有类似ChatGPT的互动性。 |
WizardLM | 2023年4月 | 70, 30, 13 | WizardLM-13B, WizardLM-30B, WizardLM-70B | WizardLM是一系列大型语言模型,旨在遵循复杂的指令。这些模型在编码、数学推理和开放领域对话中表现良好。这些模型具有友好的许可协议,并采用Vicuna的提示格式用于多轮对话。这些模型由WizardLM团队开发,旨在用于各种NLP任务。 |
FastChat-T5-3B | 2023年4月 | 3 | FastChat-T5-3B | FastChat-T5是一个开源聊天机器人,通过在从ShareGPT收集的用户共享对话上微调Flan-t5-xl(3B参数)进行训练。它基于编码器-解码器变压器架构,可以自动生成用户输入的响应。 |
GPT4All-13B-Snoozy | 2023年4月 | 13 | GPT4All-13B-Snoozy | GPT4All-13B-Snoozy是一个由Nomic AI开发的基于GPL许可的聊天机器人,训练于包括单词问题、多轮对话、代码、诗歌、歌曲和故事在内的大规模策划语料库。该模型是从LLama 13B微调而来,主要用于助手式交互数据,主要支持英语。 |
Koala-13B | 2023年4月 | 13 | Koala-13B | Koala-13B是由伯克利人工智能研究所(BAIR)创建的聊天机器人。它在Meta的LLaMA上进行了微调,专注于从网络上抓取的对话数据。该模型旨在在性能和成本之间取得平衡,提供了一个更轻量、开源的替代方案,以应对ChatGPT等模型。它已经在包括与ChatGPT等高性能闭源模型的对话在内的交互数据上进行了训练。 |
OpenAssistant (Llama family) | 2023年4月 | 30, 70 | Llama2-30b-oasst, Llama2-70b-oasst | OpenAssistant-LLaMA模型是OpenAssistant在LLaMA模型上的工作。它支持使用GGML格式进行CPU + GPU推断,并旨在为指令跟随任务提供一个开源替代方案。 |
Dolly | 2023年4月 | 3, 7, 12 | Dolly-v2-3B, Dolly-v2-7B, Dolly-v2-12B | Dolly是一个遵循指令的LLM,经过人工生成的指令数据集训练,许可用于研究和商业用途。 |
StableLM | 2023年4月 | 3, 7 | StableLM-Alpha-3B, StableLM-Alpha-7B | Stability AI的StableLM系列语言模型。 |
Pythia | 2023年4月 | 0.070 - 12 | Pythia | 一套包含16个LLM的套件,所有模型都按照完全相同的顺序训练,参数范围从70M到12B。 |
Open Assistant (Pythia Family) | 2023年3月 | 12 | Open Assistant | OpenAssistant是一个基于对话的助手,能够理解任务,可以与第三方系统交互,并动态检索信息以执行任务。 |
Med-PaLM 2 | 2023年3月 | - | - | 用大型语言模型实现专业水平的医学问题回答。 |
ChatGLM-6B | 2023年3月 | 6 | ChatGLM-6B | ChatGLM-6B是一种基于通用语言模型(GLM)架构的开源中英双语对话模型,具有62亿参数。尽管其较小的规模导致一些事实或数学逻辑问题,但由于在超过1万亿英文和中文标记上进行训练,它非常擅长中文问答、摘要和对话任务。 |
GPT-3.5-turbo | 2023年3月 | 175 | - | GPT-3.5-Turbo是OpenAI优化用于聊天的先进语言模型,但也适用于传统完成任务。与GPT-3相比,在所有方面都提供更好的性能,每个标记便宜10倍。 |
Vicuna | 2023年3月 | 7, 13, 33 | Vicuna-7B, Vicuna-13B | Vicuna是基于变压器架构的自回归语言模型系列。它是从LLaMA微调而来,主要用于大型语言模型和聊天机器人的研究。由LMSYS开发,具有非商业许可。 |
Alpaca-13B | 2023年3月 | 13 | - | Alpaca是从Meta的LLaMA 7B微调而来的遵循指令的语言模型。它旨在用于学术研究,以解决虚假信息和有害信息等问题。Alpaca在包括52,000个指令跟随演示在内的数据上进行了训练,旨在成为学术研究的更易接近的选择。由于许可和安全问题,不适用于商业用途。 |
Claude-1 | 2023年3月 | 137 | - | Claude 是由 Anthropic 构建的基础大型语言模型(LLM)。它旨在成为一个有益、诚实且无害的人工智能助手。它可以执行各种对话和文本处理任务,并可通过聊天界面和 API 访问。 |
Cerebras-GPT | 2023年3月 | 0.111 - 13 | Cerebras-GPT | Cerebras-GPT:在 Cerebras Wafer-Scale 集群上训练的开放式计算优化语言模型 |
BloombergGPT | 2023年3月 | 50 | - | BloombergGPT:金融领域的大型语言模型 |
PanGu-Σ | 2023年3月 | 1085 | - | PanGu-Σ:朝向拥有稀疏异构计算的万亿参数语言模型 |
GPT-4 | 2023年3月 | - | - | GPT-4 技术报告 |
LLaMA | 2023年2月 | 7, 13, 33, 65 | LLaMA | LLaMA:开放且高效的基础语言模型 |
ChatGPT | 2022年11月 | - | - | 一种名为 ChatGPT 的模型,以对话方式交互。对话格式使得 ChatGPT 能够回答后续问题,承认错误,质疑不正确的前提,并拒绝不当的请求。 |
Galactica | 2022年11月 | 0.125 - 120 | Galactica | Galactica:用于科学领域的大型语言模型 |
mT0 | 2022年11月 | 13 | mT0-xxl | 通过多任务微调实现跨语言泛化 |
BLOOM | 2022年11月 | 176 | BLOOM | BLOOM:一种拥有176B参数的开放式多语言语言模型 |
U-PaLM | 2022年10月 | 540 | - | 通过额外0.1%的计算突破缩放定律 |
UL2 | 2022年10月 | 20 | UL2, Flan-UL2 | UL2:统一语言学习范式 |
Sparrow | 2022年9月 | 70 | - | 通过有针对性的人类判断改善对话代理的对齐 |
Flan-T5 | 2022年10月 | 11 | Flan-T5-xxl | 缩放指令微调语言模型 |
AlexaTM | 2022年8月 | 20 | - | AlexaTM 20B:使用大规模多语言 Seq2Seq 模型进行少样本学习 |
GLM-130B | 2022年10月 | 130 | GLM-130B | GLM-130B:一种开放的双语预训练模型 |
OPT-IML | 2022年12月 | 30, 175 | OPT-IML | OPT-IML:通过泛化的视角扩展语言模型指令元学习 |
OPT | 2022年5月 | 175 | OPT-13B, OPT-66B | OPT:开放的预训练 Transformer 语言模型 |
PaLM | 2022年4月 | 540 | - | PaLM:通过路径扩展语 言建模 |
Tk-Instruct | 2022年4月 | 11 | Tk-Instruct-11B | 超自然指令:通过1600多个自然语言处理任务上的声明性指令实现泛化 |
GPT-NeoX-20B | 2022年4月 | 20 | GPT-NeoX-20B | GPT-NeoX-20B:一种开源的自回归语言模型 |
Chinchilla | 2022年3月 | 70 | - | 表明在计算预算下,最佳性能不是由最大的模型实现的,而是由在更多数据上训练的较小模型实现的。 |
InstructGPT | 2022年3月 | 175 | - | 训练语言模型遵循人类反馈的指令 |
CodeGen | 2022年3月 | 0.350 - 16 | CodeGen | CodeGen:用于代码的开放大型语言模型,具有多轮程序合成 |
AlphaCode | 2022年2月 | 41 | - | 使用 AlphaCode 实现竞赛级别的代码生成 |
MT-NLG | 2022年1月 | 530 | - | 使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 530B,一种大规模生成式语言模型 |
LaMDA | 2022年1月 | 137 | - | LaMDA:用于对话应用的语言模型 |
GLaM | 2021年12月 | 1200 | - | GLaM: 使用专家混合模型实现语言模型的高效扩展 |
Gopher | 2021年12月 | 280 | - | 扩展语言模型:来自 Gopher 训练的方法、分析和见解 |
WebGPT | 2021年12月 | 175 | - | WebGPT:带有人类反馈的浏览器辅助问答 |
Yuan 1.0 | 2021年10月 | 245 | - | Yuan 1.0:零-shot和少-shot学习中的大规模预训练语言模型 |
T0 | 2021年10月 | 11 | T0 | 多任务提示训练实现零-shot任务泛化 |
FLAN | 2021年9月 | 137 | - | 微调语言模型是零-shot学习者 |
HyperCLOVA | 2021年9月 | 82 | - | 大规模语言模型能带来哪些变革?对 HyperCLOVA 进行的深入研究:亿级规模的韩语生成式预训练变换器 |
ERNIE 3.0 Titan | 2021年7月 | 10 | - | ERNIE 3.0 Titan:探索更大规模的知识增强预训练以实现语言理解和生成 |
Jurassic-1 | 2021年8月 | 178 | - | Jurassic-1:技术细节和评估 |
ERNIE 3.0 | 2021年7月 | 10 | - | ERNIE 3.0:大规模知识增强预训练以实现语言理解和生成 |
Codex | 2021年7月 | 12 | - | 对代码进行大规模语言模型的评估 |
GPT-J-6B | 2021年6月 | 6 | GPT-J-6B | 一种训练于 The Pile 的60亿参数自回归文本生成模型 |
CPM-2 | 2021年6月 | 198 | CPM | CPM-2:大规模高性价比预训练语言模型 |
PanGu-α | 2021年4月 | 13 | PanGu-α | PanGu-α:具有自动并行计算的大规模自回归预训练中文语言模型 |
mT5 | 2020年10月 | 13 | mT5 | mT5:一种大规模多语言预训练文本到文本变换器 |
BART | 2020年7月 | - | BART | 用于自然语言生成、翻译和理解的去噪序列到序列预训练 |
GShard | 2020年6月 | 600 | - | GShard:通过条件计算和自动分片扩展巨型模型 |
GPT-3 | 2020年5月 | 175 | - | 语言模型是少-shot学习者 |
CTRL | 2019年9月 | 1.63 | CTRL | CTRL:一种用于可控生成的条件变换器语言模型 |
ALBERT | 2019年9月 | 0.235 | ALBERT | 用于自监督学习的轻量级BERT语言表示 |
XLNet | 2019年6月 | - | XLNet | 用于语言理解和生成的通用自回归预训练 |
T5 | 2019年10月 | 0.06 - 11 | Flan-T5 | 探索统一文本到文本变换器的迁移学习极限 |
GPT-2 | 2019年11月 | 1.5 | GPT-2 | 语言模型是无监督多任务学习者 |
RoBERTa | 2019年7月 | 0.125 - 0.355 | RoBERTa | 一种经过优化的鲁棒BERT预训练方法 |
BERT | 2018年10月 | - | BERT | 来自变压器的双向编码器表示 |
GPT | 2018年6月 | - | GPT | 通过生成式预训练改进语言理解 |
数据来源于Papers with Code,以及赵等人(2023年)的最新研究20。