Transformers 文档

ELECTRA

Transformers

ELECTRA

概述

ELECTRA模型在论文ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators中提出。ELECTRA是一种新的预训练方法，它训练两个Transformer模型：生成器和判别器。生成器的作用是替换序列中的标记，因此它被训练为一个掩码语言模型。判别器，即我们感兴趣的模型，试图识别序列中哪些标记被生成器替换了。

论文的摘要如下：

掩码语言建模（MLM）预训练方法，如BERT，通过用[MASK]替换一些标记来破坏输入，然后训练模型以重建原始标记。虽然它们在转移到下游NLP任务时产生了良好的结果，但它们通常需要大量的计算才能有效。作为替代方案，我们提出了一种更高效的预训练任务，称为替换标记检测。我们的方法不是通过掩码来破坏输入，而是通过用从小型生成器网络采样的合理替代品替换一些标记来破坏输入。然后，我们不是训练一个预测被破坏标记原始身份的模型，而是训练一个判别模型，预测被破坏输入中的每个标记是否被生成器样本替换。彻底的实验证明，这种新的预训练任务比MLM更高效，因为任务定义在所有输入标记上，而不仅仅是被掩码的小部分。因此，在相同的模型大小、数据和计算条件下，我们的方法学习的上下文表示显著优于BERT学习的表示。对于小型模型，收益尤其显著；例如，我们在一个GPU上训练了4天的模型，在GLUE自然语言理解基准上优于GPT（使用30倍以上的计算进行训练）。我们的方法在大规模应用中也表现良好，在使用不到1/4的计算时与RoBERTa和XLNet表现相当，并在使用相同计算量时优于它们。

该模型由lysandre贡献。原始代码可以在这里找到。

使用提示

ELECTRA 是一种预训练方法，因此对底层模型 BERT 几乎没有进行任何更改。唯一的改变是嵌入大小和隐藏大小的分离：嵌入大小通常较小，而隐藏大小较大。使用一个额外的投影层（线性）将嵌入从其嵌入大小投影到隐藏大小。在嵌入大小与隐藏大小相同的情况下，不使用投影层。
ELECTRA 是一种使用另一个（小型）掩码语言模型进行预训练的变压器模型。输入由该语言模型进行破坏，该模型接收随机掩码的输入文本，并输出一个文本，ELECTRA 需要预测哪个标记是原始的，哪个标记已被替换。与 GAN 训练类似，小型语言模型会训练几步（但目标是原始文本，而不是像传统 GAN 设置中那样欺骗 ELECTRA 模型），然后 ELECTRA 模型会训练几步。
使用Google Research的实现保存的ELECTRA检查点包含生成器和判别器。转换脚本要求用户命名要导出到正确架构的模型。然而，一旦转换为HuggingFace格式，这些检查点可以加载到所有可用的ELECTRA模型中。这意味着判别器可以加载到ElectraForMaskedLM模型中，生成器可以加载到ElectraForPreTraining模型中（分类头将随机初始化，因为它在生成器中不存在）。

Transformers

ELECTRA

概述

使用提示

资源

ElectraConfig

类 transformers.ElectraConfig

ElectraTokenizer

类 transformers.ElectraTokenizer

build_inputs_with_special_tokens

convert_tokens_to_string

create_token_type_ids_from_sequences

get_special_tokens_mask

ElectraTokenizerFast

类 transformers.ElectraTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

Electra 特定输出

类 transformers.models.electra.modeling_electra.ElectraForPreTrainingOutput

类 transformers.models.electra.modeling_tf_electra.TFElectraForPreTrainingOutput

ElectraModel

类 transformers.ElectraModel

前进

ElectraForPreTraining

class transformers.ElectraForPreTraining

前进

ElectraForCausalLM

类 transformers.ElectraForCausalLM

前进

ElectraForMaskedLM

类 transformers.ElectraForMaskedLM

前进

ElectraForSequenceClassification

类 transformers.ElectraForSequenceClassification

前进

ElectraForMultipleChoice

类 transformers.ElectraForMultipleChoice

前进

ElectraForTokenClassification

class transformers.ElectraForTokenClassification

前进

ElectraForQuestionAnswering

类 transformers.ElectraForQuestionAnswering

前进

TFElectraModel

类 transformers.TFElectraModel

调用

TFElectraForPreTraining

类 transformers.TFElectraForPreTraining

调用

TFElectraForMaskedLM

类 transformers.TFElectraForMaskedLM

调用

TFElectraForSequenceClassification

类 transformers.TFElectraForSequenceClassification

调用

TFElectraForMultipleChoice

类 transformers.TFElectraForMultipleChoice

调用

TFElectraForTokenClassification

类 transformers.TFElectraForTokenClassification

调用

TFElectraForQuestionAnswering

类 transformers.TFElectraForQuestionAnswering

调用

FlaxElectraModel

类 transformers.FlaxElectraModel

__call__

FlaxElectraForPreTraining

类 transformers.FlaxElectraForPreTraining

__call__

FlaxElectraForCausalLM

类 transformers.FlaxElectraForCausalLM

__call__

FlaxElectraForMaskedLM

类 transformers.FlaxElectraForMaskedLM

__call__

FlaxElectraForSequenceClassification

类 transformers.FlaxElectraForSequenceClassification

__call__

call

call

call

call

call

call

call

call