Transformers 文档

XLNet

Transformers

XLNet

概述

XLNet模型由Zhilin Yang、Zihang Dai、Yiming Yang、Jaime Carbonell、Ruslan Salakhutdinov和Quoc V. Le在XLNet: Generalized Autoregressive Pretraining for Language Understanding中提出。XLNet是Transformer-XL模型的扩展，通过自回归方法预训练，通过最大化输入序列分解顺序的所有排列的期望似然来学习双向上下文。

论文的摘要如下：

凭借建模双向上下文的能力，基于去噪自编码的预训练方法（如BERT）在性能上优于基于自回归语言建模的预训练方法。然而，BERT依赖于通过掩码破坏输入，忽略了掩码位置之间的依赖关系，并存在预训练与微调之间的差异。鉴于这些优缺点，我们提出了XLNet，一种广义的自回归预训练方法，它（1）通过最大化所有因子分解顺序排列的期望似然来学习双向上下文，（2）由于其自回归公式，克服了BERT的局限性。此外，XLNet将来自Transformer-XL（最先进的自回归模型）的思想整合到预训练中。实验表明，在可比的实验设置下，XLNet在20个任务上优于BERT，通常优势显著，包括问答、自然语言推理、情感分析和文档排序。

该模型由thomwolf贡献。原始代码可以在这里找到。

使用提示

在训练和测试时，可以使用perm_mask输入来控制特定的注意力模式。
由于在各种分解顺序上训练完全自回归模型的难度，XLNet 仅使用输出标记的子集作为目标进行预训练，这些目标通过 target_mapping 输入选择。
要使用XLNet进行顺序解码（即不在完全双向设置中），请使用perm_mask和target_mapping输入来控制注意力范围和输出（参见examples/pytorch/text-generation/run_generation.py中的示例）
XLNet 是少数没有序列长度限制的模型之一。
XLNet 不是一个传统的自回归模型，而是使用了一种基于此的训练策略。它对句子中的标记进行排列，然后允许模型使用最后 n 个标记来预测第 n+1 个标记。由于这一切都是通过掩码完成的，句子实际上是以正确的顺序输入模型的，但 XLNet 不是为 n+1 掩码前 n 个标记，而是使用一个掩码来隐藏 1,…,序列长度的某个给定排列中的先前标记。
XLNet 也使用与 Transformer-XL 相同的递归机制来构建长期依赖关系。

Transformers

XLNet

概述

使用提示

资源

XLNetConfig

类 transformers.XLNetConfig

XLNetTokenizer

类 transformers.XLNetTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

保存词汇表

XLNetTokenizerFast

类 transformers.XLNetTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

XLNet 特定输出

类 transformers.models.xlnet.modeling_xlnet.XLNetModelOutput

类 transformers.models.xlnet.modeling_xlnet.XLNetLMHeadModelOutput

类 transformers.models.xlnet.modeling_xlnet.XLNetForSequenceClassificationOutput

类 transformers.models.xlnet.modeling_xlnet.XLNetForMultipleChoiceOutput

类 transformers.models.xlnet.modeling_xlnet.XLNetForTokenClassificationOutput

类 transformers.models.xlnet.modeling_xlnet.XLNetForQuestionAnsweringSimpleOutput

类 transformers.models.xlnet.modeling_xlnet.XLNetForQuestionAnsweringOutput

类 transformers.models.xlnet.modeling_tf_xlnet.TFXLNetModelOutput

类 transformers.models.xlnet.modeling_tf_xlnet.TFXLNetLMHeadModelOutput

类 transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForSequenceClassificationOutput

类 transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForMultipleChoiceOutput

类 transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForTokenClassificationOutput

类 transformers.models.xlnet.modeling_tf_xlnet.TFXLNetForQuestionAnsweringSimpleOutput

XLNetModel

类 transformers.XLNetModel

前进

XLNetLMHeadModel

类 transformers.XLNetLMHeadModel

前进

XLNetForSequenceClassification

类 transformers.XLNetForSequenceClassification

前进

XLNetForMultipleChoice

类 transformers.XLNetForMultipleChoice

前进

XLNetForTokenClassification

类 transformers.XLNetForTokenClassification

前进

XLNetForQuestionAnsweringSimple

类 transformers.XLNetForQuestionAnsweringSimple

前进

XLNetForQuestionAnswering

类 transformers.XLNetForQuestionAnswering

前进

TFXLNetModel

类 transformers.TFXLNetModel

调用

TFXLNetLMHeadModel

类 transformers.TFXLNetLMHeadModel

调用

TFXLNetForSequenceClassification

类 transformers.TFXLNetForSequenceClassification

调用

TFXLNetForMultipleChoice

类 transformers.TFXLNetForMultipleChoice

调用

TFXLNetForTokenClassification

类 transformers.TFXLNetForTokenClassification

调用

TFXLNetForQuestionAnsweringSimple

类 transformers.TFXLNetForQuestionAnsweringSimple

调用