Transformers 文档

OpenAI GPT

Transformers

OpenAI GPT

概述

OpenAI GPT模型由Alec Radford、Karthik Narasimhan、Tim Salimans和Ilya Sutskever在通过生成预训练提高语言理解能力中提出。它是一种因果（单向）变压器，通过在具有长距离依赖关系的大规模语料库——多伦多图书语料库上进行语言建模预训练。

论文的摘要如下：

自然语言理解包括多种多样的任务，如文本蕴含、问答、语义相似性评估和文档分类。尽管大量未标注的文本语料库丰富，但用于学习这些特定任务的标注数据却稀缺，这使得判别训练的模型难以充分表现。我们展示了通过对未标注文本的多样化语料库进行生成式预训练，然后在每个特定任务上进行判别式微调，可以在这些任务上实现显著的提升。与之前的方法相比，我们在微调过程中利用任务感知的输入转换，以实现有效的迁移，同时只需对模型架构进行最小的更改。我们在自然语言理解的广泛基准测试中展示了我们方法的有效性。我们的通用任务无关模型优于那些为每个任务专门设计的架构的判别训练模型，在研究的12个任务中有9个显著改进了现有技术水平。

Write With Transformer 是一个由 Hugging Face 创建并托管的网络应用程序，展示了多个模型的生成能力。GPT 是其中之一。

该模型由thomwolf贡献。原始代码可以在这里找到。

使用提示

GPT 是一个具有绝对位置嵌入的模型，因此通常建议在输入的右侧而不是左侧进行填充。
GPT 是使用因果语言建模（CLM）目标进行训练的，因此在预测序列中的下一个标记方面非常强大。利用这一特性，GPT-2 能够生成语法连贯的文本，正如在 run_generation.py 示例脚本中所观察到的那样。

注意：

如果你想重现OpenAI GPT论文中的原始分词过程，你需要安装ftfy和SpaCy：

pip install spacy ftfy==4.4.3
python -m spacy download en

如果你不安装 ftfy 和 SpaCy，OpenAIGPTTokenizer 将默认使用 BERT 的 BasicTokenizer 进行分词，然后使用字节对编码（对于大多数使用场景来说应该没问题，不用担心）。

资源

一份官方的Hugging Face和社区（由🌎表示）资源列表，帮助您开始使用OpenAI GPT。如果您有兴趣提交资源以包含在此处，请随时打开一个Pull Request，我们将对其进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Text Classification

一篇关于使用SetFit在文本分类中超越OpenAI GPT-3的博客文章。
另请参阅：Text classification task guide

Text Generation

一篇关于如何使用Finetune a non-English GPT-2 Model with Hugging Face的博客。
一篇关于如何使用不同的解码方法通过Transformers生成文本的博客，使用GPT-2。
一篇关于从零开始训练CodeParrot 🦜的博客，这是一个大型的GPT-2模型。
一篇关于使用Faster Text Generation with TensorFlow and XLA和GPT-2的博客。
一篇关于如何使用Megatron-LM训练语言模型的博客，使用GPT-2模型。
一个关于如何微调GPT2以生成你最喜欢的艺术家风格的歌词的笔记本。🌎
一个关于如何微调GPT2以生成你最喜欢的Twitter用户风格的推文的笔记本。🌎
Causal language modeling 🤗 Hugging Face 课程的章节。
OpenAIGPTLMHeadModel 由这个因果语言建模示例脚本、文本生成示例脚本和 notebook 支持。
TFOpenAIGPTLMHeadModel 由这个因果语言建模示例脚本和笔记本支持。
另请参阅：Causal language modeling task guide

Token Classification

Transformers

OpenAI GPT

概述

使用提示

资源

OpenAIGPTConfig

类 transformers.OpenAIGPTConfig

OpenAIGPTTokenizer

类 transformers.OpenAIGPTTokenizer

保存词汇表

OpenAIGPTTokenizerFast

类 transformers.OpenAIGPTTokenizerFast

OpenAI 特定输出

类 transformers.models.openai.modeling_openai.OpenAIGPTDoubleHeadsModelOutput

类 transformers.models.openai.modeling_tf_openai.TFOpenAIGPTDoubleHeadsModelOutput

OpenAIGPTModel

类 transformers.OpenAIGPTModel

前进

OpenAIGPTLMHeadModel

类 transformers.OpenAIGPTLMHeadModel

前进

OpenAIGPTDoubleHeadsModel

类 transformers.OpenAIGPTDoubleHeadsModel

前进

OpenAIGPTForSequenceClassification

类 transformers.OpenAIGPTForSequenceClassification

前进

TFOpenAIGPTModel

类 transformers.TFOpenAIGPTModel

调用

TFOpenAIGPTLMHeadModel

类 transformers.TFOpenAIGPTLMHeadModel

调用

TFOpenAIGPTDoubleHeadsModel

类 transformers.TFOpenAIGPTDoubleHeadsModel

调用

TFOpenAIGPTForSequenceClassification

类 transformers.TFOpenAIGPTForSequenceClassification

调用