Transformers

Transformer XL

该模型目前仅处于维护模式，因此我们不会接受任何更改其代码的新PR。该模型由于与pickle.load相关的安全问题而被弃用。

我们建议切换到更新的模型以提高安全性。

如果您仍然希望在实验中使用TransfoXL，我们建议使用Hub checkpoint并指定一个特定的修订版，以确保您从Hub下载的文件是安全的。

你需要将环境变量 TRUST_REMOTE_CODE 设置为 True，以允许使用 pickle.load()：

import os
from transformers import TransfoXLTokenizer, TransfoXLLMHeadModel

os.environ["TRUST_REMOTE_CODE"] = "True"

checkpoint = 'transfo-xl/transfo-xl-wt103'
revision = '40a186da79458c9f9de846edfaea79c412137f97'

tokenizer = TransfoXLTokenizer.from_pretrained(checkpoint, revision=revision)
model = TransfoXLLMHeadModel.from_pretrained(checkpoint, revision=revision)

如果您在运行此模型时遇到任何问题，请重新安装支持此模型的最后一个版本：v4.35.0。您可以通过运行以下命令来执行此操作：pip install -U transformers==4.35.0。

概述

Transformer-XL模型由Zihang Dai、Zhilin Yang、Yiming Yang、Jaime Carbonell、Quoc V. Le和Ruslan Salakhutdinov在Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context中提出。它是一种具有相对位置（正弦）嵌入的因果（单向）变压器，可以重用先前计算的隐藏状态来处理更长的上下文（记忆）。该模型还使用了自适应softmax输入和输出（绑定）。

论文的摘要如下：

Transformer 有潜力学习更长期的依赖关系，但在语言建模的设置中受到固定长度上下文的限制。我们提出了一种新颖的神经架构 Transformer-XL，它能够在保持时间连贯性的同时，学习超出固定长度的依赖关系。它由段级循环机制和一种新颖的位置编码方案组成。我们的方法不仅能够捕捉更长期的依赖关系，还解决了上下文碎片化问题。因此，Transformer-XL 学习的依赖关系比 RNN 长 80%，比普通 Transformer 长 450%，在短序列和长序列上都表现更好，并且在评估时比普通 Transformer 快 1,800 倍以上。值得注意的是，我们将 bpc/困惑度的最新结果提高到 enwiki8 上的 0.99，text8 上的 1.08，WikiText-103 上的 18.3，One Billion Word 上的 21.8，以及 Penn Treebank 上的 54.5（无需微调）。当仅在 WikiText-103 上训练时，Transformer-XL 能够生成合理连贯的、包含数千个标记的新文本文章。

该模型由thomwolf贡献。原始代码可以在这里找到。

使用提示

Transformer-XL 使用相对正弦位置嵌入。填充可以在左侧或右侧进行。原始实现在 SQuAD 上进行训练时使用左侧填充，因此填充默认设置为左侧。
Transformer-XL 是少数没有序列长度限制的模型之一。
与常规的GPT模型相同，但引入了两个连续段的递归机制（类似于具有两个连续输入的常规RNN）。在这种情况下，一个段是多个连续标记（例如512个），可能跨越多个文档，并且这些段按顺序输入到模型中。
基本上，前一段的隐藏状态会与当前输入连接起来以计算注意力分数。这使得模型能够关注前一段以及当前段中的信息。通过堆叠多个注意力层，感受野可以扩展到多个前段。
这将位置嵌入更改为位置相对嵌入（因为常规的位置嵌入在给定位置的当前输入和当前隐藏状态中会给出相同的结果），并且需要在计算注意力分数的方式上做一些调整。

TransformerXL 不能与 torch.nn.DataParallel 一起使用，原因是 PyTorch 中的一个 bug，详见 issue #36035

Transformers

Transformer XL

概述

使用提示

资源

TransfoXLConfig

类 transformers.TransfoXLConfig

TransfoXLTokenizer

类 transformers.TransfoXLTokenizer

保存词汇表

TransfoXL 特定输出

类 transformers.models.deprecated.transfo_xl.modeling_transfo_xl.TransfoXLModelOutput

类 transformers.models.deprecated.transfo_xl.modeling_transfo_xl.TransfoXLLMHeadModelOutput

类 transformers.models.deprecated.transfo_xl.modeling_tf_transfo_xl.TFTransfoXLModelOutput

类 transformers.models.deprecated.transfo_xl.modeling_tf_transfo_xl.TFTransfoXLLMHeadModelOutput

TransfoXLModel

类 transformers.TransfoXLModel

前进

TransfoXLLMHeadModel

类 transformers.TransfoXLLMHeadModel

前进

TransfoXLForSequenceClassification

类 transformers.TransfoXLForSequenceClassification

前进

TFTransfoXLModel

类 transformers.TFTransfoXLModel

调用

TFTransfoXLLMHeadModel

类 transformers.TFTransfoXLLMHeadModel

调用

TFTransfoXLForSequenceClassification

类 transformers.TFTransfoXLForSequenceClassification

调用

内部层

类 transformers.AdaptiveEmbedding

类 transformers.TFAdaptiveEmbedding