Transformers 文档

感知器

Transformers

感知器

概述

Perceiver IO模型由Andrew Jaegle、Sebastian Borgeaud、Jean-Baptiste Alayrac、Carl Doersch、Catalin Ionescu、David Ding、Skanda Koppula、Daniel Zoran、Andrew Brock、Evan Shelhamer、Olivier Hénaff、Matthew M. Botvinick、Andrew Zisserman、Oriol Vinyals和João Carreira在Perceiver IO: A General Architecture for Structured Inputs & Outputs中提出。

Perceiver IO 是 Perceiver 的泛化版本，除了处理任意输入外，还能处理任意输出。原始的 Perceiver 只能生成单一的分类标签。除了分类标签外，Perceiver IO 还可以生成（例如）语言、光流和带有音频的多模态视频。这是通过使用与原始 Perceiver 相同的构建块来实现的。Perceiver IO 的计算复杂度在输入和输出大小上是线性的，并且大部分处理发生在潜在空间中，这使得我们能够处理比标准 Transformer 所能处理的更大规模的输入和输出。这意味着，例如，Perceiver IO 可以直接使用字节而不是分词输入来进行 BERT 风格的掩码语言建模。

论文的摘要如下：

最近提出的Perceiver模型在多个领域（图像、音频、多模态、点云）上取得了良好的结果，同时在计算和内存方面与输入大小呈线性扩展。虽然Perceiver支持多种输入，但它只能产生非常简单的输出，例如类别分数。Perceiver IO通过学习灵活查询模型的潜在空间以产生任意大小和语义的输出，克服了这一限制，同时不牺牲原始模型的吸引力特性。Perceiver IO仍然将模型深度与数据大小解耦，并且仍然与数据大小呈线性扩展，但现在同时考虑了输入和输出大小。完整的Perceiver IO模型在具有高度结构化输出空间的任务上取得了强劲的结果，例如自然语言和视觉理解、星际争霸II以及多任务和多模态领域。作为亮点，Perceiver IO在GLUE语言基准测试中与基于Transformer的BERT基线相匹配，而无需输入标记化，并在Sintel光流估计上实现了最先进的性能。

以下是Perceiver工作原理的简要说明：

Transformer的自注意力机制的主要问题是时间和内存需求随着序列长度的增加呈二次方增长。因此，像BERT和RoBERTa这样的模型被限制在最大512个标记的序列长度。Perceiver旨在通过不在输入上执行自注意力，而是在一组潜在变量上执行自注意力，并仅使用输入进行交叉注意力来解决这个问题。通过这种方式，时间和内存需求不再依赖于输入的长度，因为使用的是固定数量的潜在变量，如256或512。这些变量是随机初始化的，然后通过反向传播进行端到端的训练。

在内部，PerceiverModel 会创建潜在变量，这是一个形状为 (batch_size, num_latents, d_latents) 的张量。必须向模型提供 inputs（可以是文本、图像、音频等），模型将使用这些输入与潜在变量进行交叉注意力操作。Perceiver 编码器的输出是一个相同形状的张量。然后，可以像 BERT 一样，通过对序列维度进行平均，将潜在变量的最后隐藏状态转换为分类 logits，并在其上放置一个线性层，将 d_latents 投影到 num_labels。

这是原始Perceiver论文的想法。然而，它只能输出分类的logits。在后续的工作PerceiverIO中，他们将其推广，使模型也能产生任意大小的输出。你可能会问，这是如何实现的？这个想法实际上相对简单：定义任意大小的输出，然后使用输出作为查询，潜在变量的最后隐藏状态作为键和值，应用交叉注意力。

假设有人想要使用Perceiver进行掩码语言建模（BERT风格）。由于Perceiver的输入长度不会影响自注意力层的计算时间，因此可以提供原始字节，向模型提供长度为2048的inputs。如果现在掩码掉这2048个标记中的某些部分，可以将outputs定义为形状为(batch_size, 2048, 768)的张量。接下来，使用潜在变量的最终隐藏状态进行交叉注意力，以更新outputs张量。在交叉注意力之后，仍然会得到一个形状为(batch_size, 2048, 768)的张量。然后可以在顶部放置一个常规的语言建模头，将最后一个维度投影到模型的词汇表大小，即创建形状为(batch_size, 2048, 262)的logits（因为Perceiver使用262个字节ID的词汇表大小）。

Perceiver IO architecture. Taken from the original paper

该模型由nielsr贡献。原始代码可以在这里找到。

Perceiver 不与 torch.nn.DataParallel 一起工作，因为 PyTorch 中存在一个错误，请参阅 issue #36035

资源

开始使用Perceiver的最快方法是查看教程笔记本。
如果您想完全理解模型的工作原理及其在库中的实现，请参考博客文章。请注意，库中提供的模型仅展示了您可以使用Perceiver完成的一些示例。还有许多其他用例，包括问答、命名实体识别、对象检测、音频分类、视频分类等。
文本分类任务指南
Masked language modeling task guide
图像分类任务指南

Transformers

感知器

概述

资源

Perceiver 特定输出

类 transformers.models.perceiver.modeling_perceiver.PerceiverModelOutput

类 transformers.models.perceiver.modeling_perceiver.PerceiverDecoderOutput

类 transformers.models.perceiver.modeling_perceiver.PerceiverMaskedLMOutput

类 transformers.models.perceiver.modeling_perceiver.PerceiverClassifierOutput

PerceiverConfig

类 transformers.PerceiverConfig

PerceiverTokenizer

类 transformers.PerceiverTokenizer

__call__

PerceiverFeatureExtractor

类 transformers.PerceiverFeatureExtractor

__call__

PerceiverImageProcessor

class transformers.PerceiverImageProcessor

预处理

PerceiverTextPreprocessor

类 transformers.models.perceiver.modeling_perceiver.PerceiverTextPreprocessor

PerceiverImagePreprocessor

类 transformers.models.perceiver.modeling_perceiver.PerceiverImagePreprocessor

PerceiverOneHotPreprocessor

类 transformers.models.perceiver.modeling_perceiver.PerceiverOneHotPreprocessor

PerceiverAudioPreprocessor

class transformers.models.perceiver.modeling_perceiver.PerceiverAudioPreprocessor

PerceiverMultimodalPreprocessor

类 transformers.models.perceiver.modeling_perceiver.PerceiverMultimodalPreprocessor

PerceiverProjectionDecoder

类 transformers.models.perceiver.modeling_perceiver.PerceiverProjectionDecoder

PerceiverBasicDecoder

类 transformers.models.perceiver.modeling_perceiver.PerceiverBasicDecoder

PerceiverClassificationDecoder

类 transformers.models.perceiver.modeling_perceiver.PerceiverClassificationDecoder

PerceiverOpticalFlowDecoder

class transformers.models.perceiver.modeling_perceiver.PerceiverOpticalFlowDecoder

PerceiverBasicVideoAutoencodingDecoder

类 transformers.models.perceiver.modeling_perceiver.PerceiverBasicVideoAutoencodingDecoder

PerceiverMultimodalDecoder

类 transformers.models.perceiver.modeling_perceiver.PerceiverMultimodalDecoder

PerceiverProjectionPostprocessor

类 transformers.models.perceiver.modeling_perceiver.PerceiverProjectionPostprocessor

PerceiverAudioPostprocessor

类 transformers.models.perceiver.modeling_perceiver.PerceiverAudioPostprocessor

PerceiverClassificationPostprocessor

类 transformers.models.perceiver.modeling_perceiver.PerceiverClassificationPostprocessor

PerceiverMultimodalPostprocessor

类 transformers.models.perceiver.modeling_perceiver.PerceiverMultimodalPostprocessor

PerceiverModel

类 transformers.PerceiverModel

前进

PerceiverForMaskedLM

类 transformers.PerceiverForMaskedLM

前进

PerceiverForSequenceClassification

类 transformers.PerceiverForSequenceClassification

前进

PerceiverForImageClassificationLearned

类 transformers.PerceiverForImageClassificationLearned

前进

PerceiverForImageClassificationFourier

类 transformers.PerceiverForImageClassificationFourier

前进

PerceiverForImageClassificationConvProcessing

类 transformers.PerceiverForImageClassificationConvProcessing

前进

PerceiverForOpticalFlow

类 transformers.PerceiverForOpticalFlow

前进

PerceiverForMultimodalAutoencoding

类 transformers.PerceiverForMultimodalAutoencoding

前进

call

call