LLM 集合
本节包括一系列重要和基础的大型语言模型的收集和总结。
模型
模型 | 发布日期 | 大小 (B) | 检查点 | 描述 |
---|---|---|---|---|
Falcon LLM (在新标签页中打开) | 2023年9月 | 7, 40, 180 | Falcon-7B (在新标签页中打开), Falcon-40B (在新标签页中打开), Falcon-180B (在新标签页中打开) | Falcon LLM 是一个基础的大型语言模型 (LLM),拥有1800亿个参数,训练了35000亿个标记。TII 现已发布 Falcon LLM – 一个180B模型。 |
Mistral-7B-v0.1 (在新标签页中打开) | 2023年9月 | 7 | Mistral-7B-v0.1 (在新标签页中打开) | Mistral-7B-v0.1 是一个预训练的生成文本模型,拥有70亿个参数。该模型基于Transformer架构,具有分组查询注意力、字节回退BPE分词器和滑动窗口注意力等特性。 |
CodeLlama (opens in a new tab) | Aug 2023 | 7, 13, 34 | CodeLlama-7B (opens in a new tab), CodeLlama-13B (opens in a new tab), CodeLlama-34B (opens in a new tab) | The Code Llama family is designed for general code synthesis and understanding. It is specifically tuned for instruction following and safer deployment. The models are auto-regressive and use an optimized transformer architecture. They are intended for commercial and research use in English and relevant programming languages. |
Llama-2 (opens in a new tab) | Jul 2023 | 7, 13, 70 | Llama-2-7B (opens in a new tab), Llama-2-13B (opens in a new tab), Llama-2-70B (opens in a new tab) | LLaMA-2, developed by Meta AI, was released in July 2023 with models of 7, 13, and 70 billion parameters. It maintains a similar architecture to LLaMA-1 but uses 40% more training data. LLaMA-2 includes foundational models and dialog-fine-tuned models, known as LLaMA-2 Chat, and is available for many commercial uses, with some restrictions. |
XGen-7B-8K (在新标签页中打开) | 2023年7月 | 7 | XGen-7B-8K (在新标签页中打开) | XGen-7B-8K由Salesforce AI Research开发,是一个拥有70亿参数的语言模型。 |
Claude-2 (在新标签页中打开) | 2023年7月 | 130 | - | Claude 2是由Anthropic构建的基础LLM,旨在比其前一个版本更安全且更“可操控”。它具有对话功能,可用于各种任务,如客户支持、问答等。它能够处理大量文本,非常适合需要处理大量数据的应用程序,如文档、电子邮件、常见问题解答和聊天记录。 |
Tulu (opens in a new tab) | Jun 2023 | 7, 13, 30, 65 | Tulu-7B (opens in a new tab), Tulu-13B (opens in a new tab) Tulu-30B (opens in a new tab), Tulu-65B (opens in a new tab) | Tulu is a family of models developed by Allen Institute for AI. The models are LLaMa models that have been fine-tuned on a mixture of instruction datasets, including FLAN V2, CoT, Dolly, Open Assistant 1, GPT4-Alpaca, Code-Alpaca, and ShareGPT. They are designed to follow complex instructions across various NLP tasks |
ChatGLM2-6B (在新标签页中打开) | 2023年6月 | 6 | ChatGLM2-6B (在新标签页中打开) | ChatGLM2-6B 是开源双语(中英)聊天模型 ChatGLM-6B 的第二代版本。它具有改进的性能、更长的上下文能力、更高效的推理,并且开放了学术和商业使用的许可证。该模型使用混合目标函数,并已使用 1.4T 双语标记进行训练。与第一代相比,它在各种数据集上的性能有了显著提升。 |
Nous-Hermes-13B (在新标签页中打开) | 2023年6月 | 13 | Nous-Hermes-13B (在新标签页中打开) | Nous-Hermes-13B 是由 Nous Research 在超过 300,000 条指令上微调的语言模型。 |
Baize-v2 (在新标签页中打开) | 2023年5月 | 7, 13 | Baize-v2-13B (在新标签页中打开) | Baize-v2 是由加州大学圣地亚哥分校和中山大学开发的开源聊天模型,使用LoRA进行微调,并通过监督微调(SFT)和反馈自蒸馏(SDF)进行训练。 |
RWKV-4-Raven (在新标签页中打开) | 2023年5月 | 1.5, 3, 7, 14 | RWKV-4-Raven (在新标签页中打开) | RWKV-4-Raven 是一系列模型。这些模型在多个数据集上进行了微调,如 Alpaca、CodeAlpaca、Guanaco、GPT4All 和 ShareGPT。它们遵循 100% RNN 架构的语言模型。 |
Guanaco (opens in a new tab) | May 2023 | 7, 13, 33, 65 | Guanaco-7B (opens in a new tab), Guanaco-13B (opens in a new tab), Guanaco-33B (opens in a new tab) Guanaco-65B (opens in a new tab) | Guanaco models are open-source chatbots fine-tuned through 4-bit QLoRA tuning of LLaMA base models on the OASST1 dataset. They are intended for research purposes. The models allow for cheap and local experimentation with high-quality chatbot systems. |
PaLM 2 (在新标签页中打开) | 2023年5月 | - | - | 一种语言模型,具有更好的多语言和推理能力,并且比其前身PaLM更高效。 |
Gorilla (在新标签页中打开) | 2023年5月 | 7 | Gorilla (在新标签页中打开) | Gorilla: 连接大量API的大型语言模型 |
RedPajama-INCITE (在新标签页中打开) | 2023年5月 | 3, 7 | RedPajama-INCITE (在新标签页中打开) | 一系列模型,包括基础模型、指令调优模型和聊天模型。 |
LIMA (在新标签页中打开) | 2023年5月 | 65 | - | 一个65B参数的LLaMa语言模型,仅使用1,000个精心策划的提示和响应进行标准监督损失微调,没有任何强化学习或人类偏好建模。 |
Replit Code (在新标签页中打开) | 2023年5月 | 3 | Replit Code (在新标签页中打开) | replit-code-v1-3b 模型是一个 2.7B 的 LLM,使用 Stack Dedup v1.2 数据集中的 20 种语言进行训练。 |
h2oGPT (在新标签页中打开) | 2023年5月 | 7, 12, 20, 40 | h2oGPT (在新标签页中打开) | h2oGPT 是一个具有文档问答能力的LLM微调框架和聊天机器人UI。 |
CodeGen2 (在新标签页中打开) | 2023年5月 | 1, 3, 7, 16 | CodeGen2 (在新标签页中打开) | 用于程序合成的代码模型。 |
CodeT5 and CodeT5+ (在新标签页中打开) | 2023年5月 | 16 | CodeT5 (在新标签页中打开) | 来自Salesforce Research的CodeT5和CodeT5+模型,用于代码理解和生成。 |
StarCoder (在新标签页中打开) | 2023年5月 | 15 | StarCoder (在新标签页中打开) | StarCoder: 最先进的代码大语言模型 |
MPT (在新标签页中打开) | 2023年5月 | 7, 30 | MPT-7B (在新标签页中打开), MPT-30B (在新标签页中打开) | MosaicML的MPT模型是开源的、商业许可的大型语言模型,提供针对各种NLP任务优化的可定制AI解决方案。 |
DLite (在新标签页中打开) | 2023年5月 | 0.124 - 1.5 | DLite-v2-1.5B (在新标签页中打开) | 轻量级指令跟随模型,展现出类似ChatGPT的交互性。 |
WizardLM (opens in a new tab) | Apr 2023 | 70, 30, 13 | WizardLM-13B (opens in a new tab), WizardLM-30B (opens in a new tab), WizardLM-70B (opens in a new tab) | WizardLM is a family of large language models designed to follow complex instructions. The models performs well in coding, mathematical reasoning, and open-domain conversations. The models are license-friendly and adopt a prompt format from Vicuna for multi-turn conversations. The models are developed by the WizardLM Team, designed for various NLP tasks. |
FastChat-T5-3B (在新标签页中打开) | 2023年4月 | 3 | FastChat-T5-3B (在新标签页中打开) | FastChat-T5 是一个开源的聊天机器人,通过在从 ShareGPT 收集的用户共享对话上微调 Flan-t5-xl(3B 参数)进行训练。它基于编码器-解码器变压器架构,可以自回归生成对用户输入的响应。 |
GPT4All-13B-Snoozy (在新标签页中打开) | 2023年4月 | 13 | GPT4All-13B-Snoozy (在新标签页中打开) | GPT4All-13B-Snoozy 是一个基于GPL许可的聊天机器人,它在一个庞大的经过筛选的助手交互语料库上进行了训练,包括文字问题、多轮对话、代码、诗歌、歌曲和故事。它是从LLama 13B微调而来,由Nomic AI开发。该模型专为助手风格的交互数据设计,主要使用英语。 |
Koala-13B (在新标签页中打开) | 2023年4月 | 13 | Koala-13B (在新标签页中打开) | Koala-13B 是由伯克利人工智能研究(BAIR)创建的聊天机器人。它基于Meta的LLaMA进行微调,并专注于从网络上抓取的对话数据。该模型旨在平衡性能和成本,提供一种比ChatGPT等模型更轻量级的开源替代方案。它已经在包括与ChatGPT等高性能闭源模型的对话数据上进行了训练。 |
OpenAssistant (Llama family) (在新标签页中打开) | 2023年4月 | 30, 70 | Llama2-30b-oasst (在新标签页中打开), Llama2-70b-oasst (在新标签页中打开) | OpenAssistant-LLaMA 模型是 OpenAssistant 在 Llama 模型上的工作成果。它支持使用 GGML 格式进行 CPU + GPU 推理,旨在为指令跟随任务提供一个开源替代方案 |
Dolly (在新标签页中打开) | 2023年4月 | 3, 7, 12 | Dolly-v2-3B (在新标签页中打开), Dolly-v2-7B (在新标签页中打开), Dolly-v2-12B (在新标签页中打开) | 一个遵循指令的大型语言模型,基于人类生成的指令数据集进行微调,该数据集授权用于研究和商业用途。 |
StableLM (在新标签页中打开) | 2023年4月 | 3, 7 | StableLM-Alpha-3B (在新标签页中打开), StableLM-Alpha-7B (在新标签页中打开) | Stability AI的StableLM系列语言模型 |
Pythia (在新标签页中打开) | 2023年4月 | 0.070 - 12 | Pythia (在新标签页中打开) | 一套包含16个LLM的套件,所有模型都在完全相同的顺序下使用公开数据进行训练,参数规模从70M到12B不等。 |
Open Assistant (Pythia Family) (在新标签页中打开) | 2023年3月 | 12 | Open Assistant (在新标签页中打开) | OpenAssistant 是一个基于聊天的助手,能够理解任务,与第三方系统交互,并动态检索信息以完成任务。 |
Med-PaLM 2 (在新标签页中打开) | 2023年3月 | - | - | 迈向专家级医学问答的大型语言模型 |
ChatGLM-6B (在新标签页中打开) | 2023年3月 | 6 | ChatGLM-6B (在新标签页中打开) | ChatGLM-6B,是一个基于通用语言模型(GLM)架构的开源中英双语对话模型,拥有62亿参数。尽管其较小的规模导致了一些事实或数学逻辑问题,但由于其在超过1万亿个中英文标记上的训练,它擅长于中文问答、摘要和对话任务。 |
GPT-3.5-turbo (在新标签页中打开) | 2023年3月 | 175 | - | GPT-3.5-Turbo 是 OpenAI 的高级语言模型,专为聊天优化,但也适用于传统的完成任务。与 GPT-3 相比,它在所有方面都提供了更好的性能,并且每个标记的成本便宜了 10 倍。 |
Vicuna (在新标签页中打开) | 2023年3月 | 7, 13, 33 | Vicuna-7B (在新标签页中打开), Vicuna-13B (在新标签页中打开) | Vicuna 是基于 transformer 架构的自回归语言模型系列。它是从 LLaMA 微调而来,主要用于大型语言模型和聊天机器人的研究。它由 LMSYS 开发,并拥有非商业许可证。 |
Alpaca-13B (在新标签页中打开) | 2023年3月 | 13 | - | Alpaca 是一个基于 Meta 的 LLaMA 7B 微调的指令跟随语言模型。它旨在用于学术研究,以解决错误信息和毒性等问题。Alpaca 在 52K 条指令跟随演示上进行训练,旨在为学术研究提供一个更易获取的选择。由于许可和安全问题,它不适用于商业用途。 |
Claude-1 (在新标签页中打开) | 2023年3月 | 137 | - | Claude 是一个由 Anthropic 构建的基础大型语言模型(LLM)。它被设计为一个有帮助、诚实且无害的 AI 助手。它可以执行各种对话和文本处理任务,并通过聊天界面和 API 访问。 |
Cerebras-GPT (在新标签页中打开) | 2023年3月 | 0.111 - 13 | Cerebras-GPT (在新标签页中打开) | Cerebras-GPT: 在Cerebras晶圆级集群上训练的开源计算优化语言模型 |
BloombergGPT (在新标签页中打开) | 2023年3月 | 50 | - | BloombergGPT: 金融领域的大型语言模型 |
PanGu-Σ (在新标签页中打开) | 2023年3月 | 1085 | - | PanGu-Σ: 面向万亿参数语言模型的稀疏异构计算 |
GPT-4 (在新标签页中打开) | 2023年3月 | - | - | GPT-4 技术报告 |
LLaMA (在新标签页中打开) | 2023年2月 | 7, 13, 33, 65 | LLaMA (在新标签页中打开) | LLaMA: 开放且高效的基础语言模型 |
ChatGPT (在新标签页中打开) | 2022年11月 | - | - | 一个名为ChatGPT的模型,它以对话方式进行交互。这种对话格式使得ChatGPT能够回答后续问题,承认错误,挑战不正确的前提,并拒绝不适当的请求。 |
Galactica (在新标签页中打开) | 2022年11月 | 0.125 - 120 | Galactica (在新标签页中打开) | Galactica: 一个用于科学的大型语言模型 |
mT0 (在新标签页中打开) | 2022年11月 | 13 | mT0-xxl (在新标签页中打开) | 通过多任务微调实现跨语言泛化 |
BLOOM (在新标签页中打开) | 2022年11月 | 176 | BLOOM (在新标签页中打开) | BLOOM: 一个176B参数的开源多语言模型 |
U-PaLM (在新标签页中打开) | 2022年10月 | 540 | - | 以0.1%的额外计算超越扩展定律 |
UL2 (在新标签页中打开) | 2022年10月 | 20 | UL2, Flan-UL2 (在新标签页中打开) | UL2: 统一语言学习范式 |
Sparrow (在新标签页中打开) | 2022年9月 | 70 | - | 通过有针对性的人类判断改进对话代理的对齐 |
Flan-T5 (在新标签页中打开) | 2022年10月 | 11 | Flan-T5-xxl (在新标签页中打开) | 扩展指令微调语言模型 |
AlexaTM (在新标签页中打开) | 2022年8月 | 20 | - | AlexaTM 20B: 使用大规模多语言Seq2Seq模型进行少样本学习 |
GLM-130B (在新标签页中打开) | 2022年10月 | 130 | GLM-130B (在新标签页中打开) | GLM-130B: 一个开放的双语预训练模型 |
OPT-IML (在新标签页中打开) | 2022年12月 | 30, 175 | OPT-IML (在新标签页中打开) | OPT-IML: 通过泛化视角扩展语言模型指令元学习 |
OPT (在新标签页中打开) | 2022年5月 | 175 | OPT-13B (在新标签页中打开), OPT-66B (在新标签页中打开) | OPT: 开放预训练变压器语言模型 |
PaLM (在新标签页中打开) | 2022年4月 | 540 | - | PaLM: 使用Pathways扩展语言建模 |
Tk-Instruct (在新标签页中打开) | 2022年4月 | 11 | Tk-Instruct-11B (在新标签页中打开) | 超自然指令:通过1600多个NLP任务的声明性指令进行泛化 |
GPT-NeoX-20B (在新标签页中打开) | 2022年4月 | 20 | GPT-NeoX-20B (在新标签页中打开) | GPT-NeoX-20B: 一个开源的自动回归语言模型 |
Chinchilla (在新标签页中打开) | 2022年3月 | 70 | - | 表明对于计算预算,最佳性能不是由最大的模型实现的,而是由在更多数据上训练的较小模型实现的。 |
InstructGPT (在新标签页中打开) | 2022年3月 | 175 | - | 训练语言模型以遵循人类反馈的指令 |
CodeGen (在新标签页中打开) | 2022年3月 | 0.350 - 16 | CodeGen (在新标签页中打开) | CodeGen: 一个用于多轮程序合成的开放大型代码语言模型 |
AlphaCode (在新标签页中打开) | 2022年2月 | 41 | - | 使用AlphaCode进行竞赛级代码生成 |
MT-NLG (在新标签页中打开) | 2022年1月 | 530 | - | 使用DeepSpeed和Megatron训练Megatron-Turing NLG 530B,一个大规模生成语言模型 |
LaMDA (在新标签页中打开) | 2022年1月 | 137 | - | LaMDA: 用于对话应用的语言模型 |
GLaM (在新标签页中打开) | 2021年12月 | 1200 | - | GLaM:使用专家混合模型高效扩展语言模型 |
Gopher (在新标签页中打开) | 2021年12月 | 280 | - | 扩展语言模型:训练Gopher的方法、分析与见解 |
WebGPT (在新标签页中打开) | 2021年12月 | 175 | - | WebGPT:基于人类反馈的浏览器辅助问答 |
Yuan 1.0 (在新标签页中打开) | 2021年10月 | 245 | - | Yuan 1.0: 零样本和少样本学习中的大规模预训练语言模型 |
T0 (在新标签页中打开) | 2021年10月 | 11 | T0 (在新标签页中打开) | 多任务提示训练实现零样本任务泛化 |
FLAN (在新标签页中打开) | 2021年9月 | 137 | - | 微调语言模型是零样本学习者 |
HyperCLOVA (在新标签页中打开) | 2021年9月 | 82 | - | 大规模语言模型能带来哪些变化?深入研究HyperCLOVA:数十亿规模的韩语生成预训练变换器 |
ERNIE 3.0 Titan (在新标签页中打开) | 2021年7月 | 10 | - | ERNIE 3.0 Titan: 探索更大规模的知识增强预训练用于语言理解和生成 |
Jurassic-1 (在新标签页中打开) | 2021年8月 | 178 | - | Jurassic-1: 技术细节与评估 |
ERNIE 3.0 (在新标签页中打开) | 2021年7月 | 10 | - | ERNIE 3.0: 大规模知识增强的预训练用于语言理解和生成 |
Codex (在新标签页中打开) | 2021年7月 | 12 | - | 评估在代码上训练的大型语言模型 |
GPT-J-6B (在新标签页中打开) | 2021年6月 | 6 | GPT-J-6B (在新标签页中打开) | 一个60亿参数的自动回归文本生成模型,基于The Pile数据集训练。 |
CPM-2 (在新标签页中打开) | 2021年6月 | 198 | CPM (在新标签页中打开) | CPM-2: 大规模成本效益预训练语言模型 |
PanGu-α (在新标签页中打开) | 2021年4月 | 13 | PanGu-α (在新标签页中打开) | PanGu-α: 大规模自回归预训练中文语言模型与自动并行计算 |
mT5 (在新标签页中打开) | 2020年10月 | 13 | mT5 (在新标签页中打开) | mT5: 一个大规模多语言的预训练文本到文本转换器 |
BART (在新标签页中打开) | 2020年7月 | - | BART (在新标签页中打开) | 用于自然语言生成、翻译和理解的去噪序列到序列预训练 |
GShard (在新标签页中打开) | 2020年6月 | 600 | - | GShard: 使用条件计算和自动分片扩展巨型模型 |
GPT-3 (在新标签页中打开) | 2020年5月 | 175 | - | 语言模型是少样本学习者 |
CTRL (在新标签页中打开) | 2019年9月 | 1.63 | CTRL (在新标签页中打开) | CTRL: 用于可控生成的条件变压器语言模型 |
ALBERT (在新标签页中打开) | 2019年9月 | 0.235 | ALBERT (在新标签页中打开) | 用于语言表示自监督学习的轻量级BERT |
XLNet (在新标签页中打开) | 2019年6月 | - | XLNet (在新标签页中打开) | 用于语言理解和生成的广义自回归预训练 |
T5 (在新标签页中打开) | 2019年10月 | 0.06 - 11 | Flan-T5 (在新标签页中打开) | 探索使用统一的文本到文本转换器进行迁移学习的极限 |
GPT-2 (在新标签页中打开) | 2019年11月 | 1.5 | GPT-2 (在新标签页中打开) | 语言模型是无监督的多任务学习者 |
RoBERTa (在新标签页中打开) | 2019年7月 | 0.125 - 0.355 | RoBERTa (在新标签页中打开) | 一种鲁棒优化的BERT预训练方法 |
BERT (在新标签页中打开) | 2018年10月 | - | BERT (在新标签页中打开) | 来自Transformers的双向编码器表示 |
GPT (在新标签页中打开) | 2018年6月 | - | GPT (在新标签页中打开) | 通过生成式预训练提高语言理解能力 |
⚠️
本节正在开发中。
数据来源于Papers with Code (在新标签页中打开)以及Zhao等人 (2023) (在新标签页中打开)的最新研究。