Transformers 文档

大鸟

Transformers

BigBird

概述

BigBird模型由Zaheer, Manzil和Guruganesh, Guru以及Dubey, Kumar Avinava和Ainslie, Joshua以及Alberti, Chris和Ontanon, Santiago以及Pham, Philip和Ravula, Anirudh以及Wang, Qifan和Yang, Li等人在Big Bird: Transformers for Longer Sequences中提出。BigBird是一种基于稀疏注意力的Transformer模型，它扩展了基于Transformer的模型，如BERT，以处理更长的序列。除了稀疏注意力外，BigBird还对输入序列应用全局注意力和随机注意力。理论上已经证明，应用稀疏、全局和随机注意力可以近似完全注意力，同时在处理较长序列时计算效率更高。由于能够处理更长的上下文，BigBird在各种长文档NLP任务（如问答和摘要）中表现出比BERT或RoBERTa更好的性能。

论文的摘要如下：

基于Transformer的模型，如BERT，已经成为NLP中最成功的深度学习模型之一。不幸的是，它们的核心限制之一是由于其全注意力机制，对序列长度的二次依赖（主要是内存方面）。为了解决这个问题，我们提出了BigBird，一种稀疏注意力机制，将这种二次依赖减少到线性。我们展示了BigBird是序列函数的通用逼近器，并且是图灵完备的，从而保留了二次全注意力模型的这些特性。在此过程中，我们的理论分析揭示了拥有O(1)全局标记（如CLS）的一些好处，这些标记作为稀疏注意力机制的一部分关注整个序列。所提出的稀疏注意力机制可以处理比以前使用类似硬件可能处理的序列长度长8倍的序列。由于能够处理更长的上下文，BigBird在各种NLP任务（如问答和摘要）中的性能显著提高。我们还提出了在基因组数据上的新应用。

该模型由vasudevgupta贡献。原始代码可以在这里找到。

使用提示

有关BigBird注意力机制如何工作的详细解释，请参阅此博客文章。
BigBird 提供了两种实现方式：original_full 和 block_sparse。对于序列长度小于1024的情况，建议使用 original_full，因为使用 block_sparse 注意力机制没有优势。
代码当前使用的窗口大小为3个块和2个全局块。
序列长度必须能被块大小整除。
当前实现仅支持ITC。
当前实现不支持 num_random_blocks = 0
BigBird 是一个具有绝对位置嵌入的模型，因此通常建议在右侧而不是左侧填充输入。

Transformers

BigBird

概述

使用提示

资源

BigBirdConfig

类 transformers.BigBirdConfig

BigBirdTokenizer

类 transformers.BigBirdTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

保存词汇表

BigBirdTokenizerFast

类 transformers.BigBirdTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

get_special_tokens_mask

BigBird 特定输出

类 transformers.models.big_bird.modeling_big_bird.BigBirdForPreTrainingOutput

BigBirdModel

类 transformers.BigBirdModel

前进

BigBirdForPreTraining

class transformers.BigBirdForPreTraining

前进

BigBirdForCausalLM

类 transformers.BigBirdForCausalLM

前进

BigBirdForMaskedLM

类 transformers.BigBirdForMaskedLM

前进

BigBirdForSequenceClassification

类 transformers.BigBirdForSequenceClassification

前进

BigBirdForMultipleChoice

类 transformers.BigBirdForMultipleChoice

前进

BigBirdForTokenClassification

class transformers.BigBirdForTokenClassification

前进

BigBirdForQuestionAnswering

类 transformers.BigBirdForQuestionAnswering

前进

FlaxBigBirdModel

类 transformers.FlaxBigBirdModel

__call__

FlaxBigBirdForPreTraining

类 transformers.FlaxBigBirdForPreTraining

__call__

FlaxBigBirdForCausalLM

类 transformers.FlaxBigBirdForCausalLM

__call__

FlaxBigBirdForMaskedLM

类 transformers.FlaxBigBirdForMaskedLM

__call__

FlaxBigBirdForSequenceClassification

类 transformers.FlaxBigBirdForSequenceClassification

__call__

FlaxBigBirdForMultipleChoice

类 transformers.FlaxBigBirdForMultipleChoice

__call__

FlaxBigBirdForTokenClassification

类 transformers.FlaxBigBirdForTokenClassification

__call__

FlaxBigBirdForQuestionAnswering

类 transformers.FlaxBigBirdForQuestionAnswering

__call__

call

call

call

call

call

call

call

call