Transformers

LXMERT

概述

LXMERT模型由Hao Tan和Mohit Bansal在LXMERT: Learning Cross-Modality Encoder Representations from Transformers中提出。它是一系列双向变压器编码器（一个用于视觉模态，一个用于语言模态，然后一个用于融合两种模态），通过结合掩码语言建模、视觉-语言文本对齐、ROI特征回归、掩码视觉属性建模、掩码视觉对象建模和视觉问答目标进行预训练。预训练包括多个多模态数据集：MSCOCO、Visual-Genome + Visual-Genome问答、VQA 2.0和GQA。

论文的摘要如下：

视觉与语言推理需要对视觉概念、语言语义的理解，最重要的是，这两种模态之间的对齐和关系。因此，我们提出了LXMERT（从Transformer学习跨模态编码器表示）框架来学习这些视觉与语言的联系。在LXMERT中，我们构建了一个大规模的Transformer模型，该模型由三个编码器组成：对象关系编码器、语言编码器和跨模态编码器。接下来，为了使我们的模型具备连接视觉和语言语义的能力，我们通过五种不同的代表性预训练任务对模型进行预训练，这些任务包括：掩码语言建模、掩码对象预测（特征回归和标签分类）、跨模态匹配和图像问答。这些任务有助于学习模态内和跨模态的关系。从我们的预训练参数进行微调后，我们的模型在两个视觉问答数据集（即VQA和GQA）上取得了最先进的结果。我们还通过将其应用于具有挑战性的视觉推理任务NLVR，展示了我们预训练的跨模态模型的泛化能力，并将之前的最佳结果提高了22%（从54%提高到76%）。最后，我们展示了详细的消融研究，以证明我们新颖的模型组件和预训练策略对我们强大的结果有显著贡献；并展示了不同编码器的几种注意力可视化。

该模型由eltoto1219贡献。原始代码可以在这里找到。

使用提示

在视觉特征嵌入中，边界框不是必须使用的，任何类型的视觉空间特征都可以工作。
LXMERT输出的语言隐藏状态和视觉隐藏状态都通过跨模态层传递，因此它们包含来自两种模态的信息。要访问仅关注自身的模态，请从元组的第一个输入中选择视觉/语言隐藏状态。
双向跨模态编码器注意力仅在语言模态用作输入且视觉模态用作上下文向量时返回注意力值。此外，虽然跨模态编码器包含各自模态的自注意力和交叉注意力，但仅返回交叉注意力，而自注意力输出被忽略。

Transformers

LXMERT

概述

使用提示

资源

LxmertConfig

类 transformers.LxmertConfig

LxmertTokenizer

类 transformers.LxmertTokenizer

build_inputs_with_special_tokens

convert_tokens_to_string

create_token_type_ids_from_sequences

get_special_tokens_mask

LxmertTokenizerFast

类 transformers.LxmertTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

Lxmert 特定输出

类 transformers.models.lxmert.modeling_lxmert.LxmertModelOutput

类 transformers.models.lxmert.modeling_lxmert.LxmertForPreTrainingOutput

类 transformers.models.lxmert.modeling_lxmert.LxmertForQuestionAnsweringOutput

类 transformers.models.lxmert.modeling_tf_lxmert.TFLxmertModelOutput

类 transformers.models.lxmert.modeling_tf_lxmert.TFLxmertForPreTrainingOutput

LxmertModel

类 transformers.LxmertModel

前进

LxmertForPreTraining

类 transformers.LxmertForPreTraining

前进

LxmertForQuestionAnswering

类 transformers.LxmertForQuestionAnswering

前进

TFLxmertModel

类 transformers.TFLxmertModel

调用

TFLxmertForPreTraining

类 transformers.TFLxmertForPreTraining

调用