Transformers 文档

OpenAI GPT2

Transformers

OpenAI GPT2

概述

OpenAI GPT-2 模型由 Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei 和 Ilya Sutskever 在 Language Models are Unsupervised Multitask Learners 中提出。它是一个因果（单向）的 transformer 模型，通过在一个约 40 GB 的文本数据语料库上进行语言建模预训练。

论文的摘要如下：

GPT-2 是一个基于 Transformer 的大型语言模型，拥有 15 亿个参数，训练于一个包含 800 万个网页的数据集[1]。GPT-2 的训练目标很简单：给定文本中的所有前面的单词，预测下一个单词。数据集的多样性使得这个简单的目标自然包含了跨多个领域的许多任务的演示。GPT-2 是 GPT 的直接扩展，参数数量超过 10 倍，并且训练数据量也超过 10 倍。

Write With Transformer 是一个由 Hugging Face 创建并托管的网络应用程序，展示了多个模型的生成能力。GPT-2 是其中之一，并且有五种不同的规模：small、medium、large、xl 以及 small 检查点的蒸馏版本：distilgpt-2。

该模型由thomwolf贡献。原始代码可以在这里找到。

使用提示

GPT-2 是一个具有绝对位置嵌入的模型，因此通常建议在输入的右侧而不是左侧进行填充。
GPT-2 是通过因果语言建模（CLM）目标进行训练的，因此在预测序列中的下一个标记方面非常强大。利用这一特性，GPT-2 可以生成语法连贯的文本，正如在 run_generation.py 示例脚本中所观察到的那样。
模型可以接受past_key_values（对于PyTorch）或past（对于TF）作为输入，这是先前计算的键/值注意力对。使用这个（past_key_values或past）值可以防止模型在文本生成上下文中重新计算预计算的值。对于PyTorch，请参阅GPT2Model.forward()方法的past_key_values参数，或对于TF，请参阅TFGPT2Model.call()方法的past参数以获取更多关于其使用的信息。
启用scale_attn_by_inverse_layer_idx和reorder_and_upcast_attn标志将应用来自Mistral的训练稳定性改进（仅适用于PyTorch）。

使用示例

generate() 方法可用于使用 GPT2 模型生成文本。

>>> from transformers import AutoModelForCausalLM, AutoTokenizer

>>> model = AutoModelForCausalLM.from_pretrained("gpt2")
>>> tokenizer = AutoTokenizer.from_pretrained("gpt2")

>>> prompt = "GPT2 is a model developed by OpenAI."

>>> input_ids = tokenizer(prompt, return_tensors="pt").input_ids

>>> gen_tokens = model.generate(
...     input_ids,
...     do_sample=True,
...     temperature=0.9,
...     max_length=100,
... )
>>> gen_text = tokenizer.batch_decode(gen_tokens)[0]

使用 Flash Attention 2

Flash Attention 2 是一个更快、优化的注意力分数计算版本，它依赖于 cuda 内核。

安装

首先，检查您的硬件是否与Flash Attention 2兼容。最新的兼容硬件列表可以在官方文档中找到。如果您的硬件不兼容Flash Attention 2，您仍然可以通过上述介绍的Better Transformer支持从注意力内核优化中受益。

接下来，安装最新版本的Flash Attention 2：

pip install -U flash-attn --no-build-isolation

用法

要使用Flash Attention 2加载模型，我们可以将参数attn_implementation="flash_attention_2"传递给.from_pretrained。我们还将以半精度（例如torch.float16）加载模型，因为这样几乎不会降低音频质量，但可以显著减少内存使用并加快推理速度：

>>> import torch
>>> from transformers import AutoModelForCausalLM, AutoTokenizer
>>> device = "cuda" # the device to load the model onto

>>> model = AutoModelForCausalLM.from_pretrained("gpt2", torch_dtype=torch.float16, attn_implementation="flash_attention_2")
>>> tokenizer = AutoTokenizer.from_pretrained("gpt2")

>>> prompt = "def hello_world():"

>>> model_inputs = tokenizer([prompt], return_tensors="pt").to(device)
>>> model.to(device)

>>> generated_ids = model.generate(**model_inputs, max_new_tokens=100, do_sample=True)
>>> tokenizer.batch_decode(generated_ids)[0]

预期的加速

下面是一个预期的加速图，比较了使用gpt2检查点的transformers原生实现与使用序列长度为512的Flash Attention 2版本模型的纯推理时间。

使用缩放点积注意力 (SDPA)

PyTorch 包含一个原生的缩放点积注意力（SDPA）操作符，作为 torch.nn.functional 的一部分。这个函数包含了几种实现，可以根据输入和使用的硬件进行应用。更多信息请参阅官方文档或 GPU 推理页面。

默认情况下，当有可用实现时，SDPA 用于 torch>=2.1.1，但你也可以在 from_pretrained() 中设置 attn_implementation="sdpa" 来明确请求使用 SDPA。

from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("gpt2", torch_dtype=torch.float16, attn_implementation="sdpa")
...

为了获得最佳加速效果，我们建议以半精度加载模型（例如 torch.float16 或 torch.bfloat16）。

在本地基准测试（rtx3080ti-16GB，PyTorch 2.2.1，操作系统 Ubuntu 22.04）中，使用float16与 gpt2-large，我们在训练和推理过程中看到了以下加速效果。

训练

批量大小	序列长度	每批次时间（Eager - 秒）	每批次时间（SDPA - 秒）	加速百分比（%）	Eager 峰值内存（MB）	SDPA 峰值内存（MB）	内存节省百分比（%）
1	128	0.039	0.032	23.042	3482.32	3494.62	-0.352
1	256	0.073	0.059	25.15	3546.66	3552.6	-0.167
1	512	0.155	0.118	30.96	4230.1	3665.59	15.4
1	1024	0.316	0.209	50.839	8682.26	4881.09	77.875
2	128	0.07	0.06	15.324	3557.8	3545.91	0.335
2	256	0.143	0.122	16.53	3901.5	3657.68	6.666
2	512	0.267	0.213	25.626	7062.21	4876.47	44.822
2	1024	OOM	0.404	/	OOM	8096.35	SDPA 没有 OOM
4	128	0.134	0.128	4.412	3675.79	3648.72	0.742
4	256	0.243	0.217	12.292	6129.76	4871.12	25.839
4	512	0.494	0.406	21.687	12466.6	8102.64	53.858
4	1024	内存溢出	0.795	/	内存溢出	14568.2	SDPA 没有内存溢出

推理

批量大小	序列长度	每个令牌的延迟 Eager (毫秒)	每个令牌的延迟 SDPA (毫秒)	加速 (%)	内存 Eager (MB)	内存 SDPA (MB)	内存节省 (%)
1	128	7.991	6.968	14.681	1685.2	1701.32	-0.947
1	256	8.462	7.199	17.536	1745.49	1770.78	-1.428
1	512	8.68	7.853	10.529	1907.69	1921.29	-0.708
1	768	9.101	8.365	8.791	2032.93	2068.12	-1.701
2	128	9.169	9.001	1.861	1803.84	1811.4	-0.418
2	256	9.907	9.78	1.294	1907.72	1921.44	-0.714
2	512	11.519	11.644	-1.071	2176.86	2197.75	-0.951
2	768	13.022	13.407	-2.873	2464.3	2491.06	-1.074
4	128	10.097	9.831	2.709	1942.25	1985.13	-2.16
4	256	11.599	11.398	1.764	2177.28	2197.86	-0.937
4	512	14.653	14.45	1.411	2753.16	2772.57	-0.7
4	768	17.846	17.617	1.299	3327.04	3343.97	-0.506

资源

以下是官方Hugging Face和社区（由🌎表示）提供的资源列表，帮助您开始使用GPT2。如果您有兴趣提交资源以包含在此处，请随时打开一个Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Text Generation

一篇关于如何使用Finetune a non-English GPT-2 Model with Hugging Face的博客。
一篇关于如何使用不同的解码方法通过Transformers生成文本的博客，使用GPT-2。
一篇关于从零开始训练CodeParrot 🦜的博客，这是一个大型的GPT-2模型。
一篇关于使用Faster Text Generation with TensorFlow and XLA和GPT-2的博客。
一篇关于如何使用Megatron-LM训练语言模型的博客，使用GPT-2模型。
一个关于如何微调GPT2以生成你最喜欢的艺术家风格的歌词的笔记本。🌎
一个关于如何微调GPT2以生成你最喜欢的Twitter用户风格的推文的笔记本。🌎
Causal language modeling 🤗 Hugging Face 课程的章节。
GPT2LMHeadModel 由这个因果语言建模示例脚本、文本生成示例脚本和笔记本支持。
TFGPT2LMHeadModel 由这个因果语言建模示例脚本和 notebook 支持。
FlaxGPT2LMHeadModel 由这个因果语言建模示例脚本和 notebook 支持。
文本分类任务指南
Token分类任务指南
因果语言建模任务指南

Transformers

OpenAI GPT2

概述

使用提示

使用示例

使用 Flash Attention 2

安装

用法

预期的加速

使用缩放点积注意力 (SDPA)

训练

推理

资源

GPT2Config

类 transformers.GPT2Config

GPT2Tokenizer

类 transformers.GPT2Tokenizer

保存词汇表

GPT2TokenizerFast

类 transformers.GPT2TokenizerFast

GPT2 特定输出

类 transformers.models.gpt2.modeling_gpt2.GPT2DoubleHeadsModelOutput

类 transformers.models.gpt2.modeling_tf_gpt2.TFGPT2DoubleHeadsModelOutput

GPT2Model

类 transformers.GPT2Model

前进

GPT2LMHeadModel

class transformers.GPT2LMHeadModel

前进

GPT2DoubleHeadsModel

类 transformers.GPT2DoubleHeadsModel

前进

GPT2ForQuestionAnswering

类 transformers.GPT2ForQuestionAnswering

前进

GPT2ForSequenceClassification

类 transformers.GPT2ForSequenceClassification

前进

GPT2ForTokenClassification

类 transformers.GPT2ForTokenClassification

前进

TFGPT2Model

类 transformers.TFGPT2Model

调用

TFGPT2LMHeadModel

类 transformers.TFGPT2LMHeadModel

调用

TFGPT2DoubleHeadsModel

类 transformers.TFGPT2DoubleHeadsModel

调用

TFGPT2ForSequenceClassification

类 transformers.TFGPT2ForSequenceClassification

调用

TFSequenceClassifierOutputWithPast

类 transformers.modeling_tf_outputs.TFSequenceClassifierOutputWithPast

TFGPT2Tokenizer

类 transformers.TFGPT2Tokenizer

from_config

from_pretrained

from_tokenizer

FlaxGPT2Model

类 transformers.FlaxGPT2Model

__call__

FlaxGPT2LMHeadModel

类 transformers.FlaxGPT2LMHeadModel

__call__

call

call