LXMERT
概述
LXMERT模型由Hao Tan和Mohit Bansal在LXMERT: Learning Cross-Modality Encoder Representations from Transformers中提出。它是一系列双向变压器编码器(一个用于视觉模态,一个用于语言模态,然后一个用于融合两种模态),通过结合掩码语言建模、视觉-语言文本对齐、ROI特征回归、掩码视觉属性建模、掩码视觉对象建模和视觉问答目标进行预训练。预训练包括多个多模态数据集:MSCOCO、Visual-Genome + Visual-Genome问答、VQA 2.0和GQA。
论文的摘要如下:
视觉与语言推理需要对视觉概念、语言语义的理解,最重要的是,这两种模态之间的对齐和关系。因此,我们提出了LXMERT(从Transformer学习跨模态编码器表示)框架来学习这些视觉与语言的联系。在LXMERT中,我们构建了一个大规模的Transformer模型,该模型由三个编码器组成:对象关系编码器、语言编码器和跨模态编码器。接下来,为了使我们的模型具备连接视觉和语言语义的能力,我们通过五种不同的代表性预训练任务对模型进行预训练,这些任务包括:掩码语言建模、掩码对象预测(特征回归和标签分类)、跨模态匹配和图像问答。这些任务有助于学习模态内和跨模态的关系。从我们的预训练参数进行微调后,我们的模型在两个视觉问答数据集(即VQA和GQA)上取得了最先进的结果。我们还通过将其应用于具有挑战性的视觉推理任务NLVR,展示了我们预训练的跨模态模型的泛化能力,并将之前的最佳结果提高了22%(从54%提高到76%)。最后,我们展示了详细的消融研究,以证明我们新颖的模型组件和预训练策略对我们强大的结果有显著贡献;并展示了不同编码器的几种注意力可视化。
该模型由eltoto1219贡献。原始代码可以在这里找到。
使用提示
- 在视觉特征嵌入中,边界框不是必须使用的,任何类型的视觉空间特征都可以工作。
- LXMERT输出的语言隐藏状态和视觉隐藏状态都通过跨模态层传递,因此它们包含来自两种模态的信息。要访问仅关注自身的模态,请从元组的第一个输入中选择视觉/语言隐藏状态。
- 双向跨模态编码器注意力仅在语言模态用作输入且视觉模态用作上下文向量时返回注意力值。此外,虽然跨模态编码器包含各自模态的自注意力和交叉注意力,但仅返回交叉注意力,而自注意力输出被忽略。
资源
LxmertConfig
类 transformers.LxmertConfig
< source >( vocab_size = 30522 hidden_size = 768 num_attention_heads = 12 num_qa_labels = 9500 num_object_labels = 1600 num_attr_labels = 400 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 l_layers = 9 x_layers = 5 r_layers = 5 visual_feat_dim = 2048 visual_pos_dim = 4 visual_loss_normalizer = 6.67 task_matched = True task_mask_lm = True task_obj_predict = True task_qa = True visual_obj_loss = True visual_attr_loss = True visual_feat_loss = True **kwargs )
参数
- vocab_size (
int
, 可选, 默认为 30522) — LXMERT 模型的词汇表大小。定义了可以通过调用 LxmertModel 或 TFLxmertModel 时传递的inputs_ids
表示的不同标记的数量。 - hidden_size (
int
, optional, 默认为 768) — 编码器层和池化层的维度。 - num_attention_heads (
int
, optional, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数。 - num_qa_labels (
int
, 可选, 默认为 9500) — 这表示不同问答(QA)标签的总数。如果使用多个带有QA的数据集,用户需要考虑所有数据集中标签的总数。 - num_object_labels (
int
, optional, 默认为 1600) — 这表示 lxmert 能够将池化对象特征分类为属于的语义上唯一对象的总数。 - num_attr_labels (
int
, optional, 默认为 400) — 这表示 lxmert 能够将池化对象特征分类为具有的语义上唯一属性的总数。 - intermediate_size (
int
, optional, 默认为 3072) — Transformer 编码器中“中间”(通常称为前馈)层的维度。 - hidden_act (
str
或Callable
, 可选, 默认为"gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"
、"relu"
、"silu"
和"gelu_new"
。 - hidden_dropout_prob (
float
, optional, 默认为 0.1) — 嵌入层、编码器和池化器中所有全连接层的 dropout 概率。 - attention_probs_dropout_prob (
float
, optional, 默认为 0.1) — 注意力概率的丢弃比率。 - max_position_embeddings (
int
, optional, 默认为 512) — 此模型可能使用的最大序列长度。通常将其设置为较大的值以防万一(例如,512、1024 或 2048)。 - type_vocab_size (
int
, optional, 默认为 2) — 传递给 BertModel 的 token_type_ids 的词汇大小。 - initializer_range (
float
, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。 - layer_norm_eps (
float
, optional, defaults to 1e-12) — 层归一化层使用的epsilon值。 - l_layers (
int
, optional, defaults to 9) — Transformer语言编码器中的隐藏层数量。 - x_layers (
int
, optional, defaults to 5) — Transformer跨模态编码器中的隐藏层数。 - r_layers (
int
, optional, defaults to 5) — Transformer视觉编码器中的隐藏层数量。 - visual_feat_dim (
int
, optional, 默认为 2048) — 这表示用作模型输入的池化对象特征的最后一维,表示每个对象特征本身的大小。 - visual_pos_dim (
int
, optional, 默认为 4) — 这表示混合到视觉特征中的空间特征的数量。默认设置为 4,因为通常这会表示边界框的位置。即,(x, y, 宽度, 高度) - visual_loss_normalizer (
float
, 可选, 默认为 6.67) — 这表示在预训练期间,如果决定使用多个基于视觉的损失目标进行训练,每个视觉损失将乘以的缩放因子。 - task_matched (
bool
, 可选, 默认为True
) — 此任务用于句子-图像匹配。如果句子正确描述了图像,标签将为1。如果句子没有正确描述图像,标签将为0。 - task_mask_lm (
bool
, optional, defaults toTrue
) — 是否将掩码语言建模(如BERT等预训练模型中使用)添加到损失目标中。 - task_obj_predict (
bool
, 可选, 默认为True
) — 是否将对象预测、属性预测和特征回归添加到损失目标中。 - task_qa (
bool
, optional, defaults toTrue
) — 是否将问答损失添加到目标中 - visual_obj_loss (
bool
, optional, defaults toTrue
) — 是否计算对象预测损失目标 - visual_attr_loss (
bool
, optional, defaults toTrue
) — 是否计算属性预测损失目标 - visual_feat_loss (
bool
, optional, defaults toTrue
) — 是否计算特征回归损失目标
这是用于存储LxmertModel或TFLxmertModel配置的配置类。它用于根据指定的参数实例化一个LXMERT模型,定义模型架构。使用默认值实例化配置将产生与Lxmert unc-nlp/lxmert-base-uncased架构类似的配置。
配置对象继承自PretrainedConfig,可用于控制模型输出。阅读PretrainedConfig的文档以获取更多信息。
LxmertTokenizer
类 transformers.LxmertTokenizer
< source >( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None clean_up_tokenization_spaces = True **kwargs )
参数
- vocab_file (
str
) — 包含词汇表的文件。 - do_lower_case (
bool
, optional, defaults toTrue
) — 是否在分词时将输入转换为小写。 - do_basic_tokenize (
bool
, optional, defaults toTrue
) — 是否在WordPiece之前进行基本的分词。 - never_split (
Iterable
, 可选) — 在分词过程中永远不会被分割的标记集合。仅在do_basic_tokenize=True
- unk_token (
str
, optional, defaults to"[UNK]"
) — 未知标记。不在词汇表中的标记无法转换为ID,而是设置为这个标记。 - sep_token (
str
, optional, defaults to"[SEP]"
) — 分隔符标记,用于从多个序列构建序列时,例如用于序列分类的两个序列或用于问答的文本和问题。它也用作使用特殊标记构建的序列的最后一个标记。 - pad_token (
str
, optional, defaults to"[PAD]"
) — 用于填充的标记,例如在批处理不同长度的序列时使用。 - cls_token (
str
, 可选, 默认为"[CLS]"
) — 用于序列分类的分类器标记(对整个序列进行分类而不是对每个标记进行分类)。当使用特殊标记构建时,它是序列的第一个标记。 - mask_token (
str
, optional, defaults to"[MASK]"
) — 用于屏蔽值的标记。这是在训练此模型时使用的标记,用于屏蔽语言建模。这是模型将尝试预测的标记。 - tokenize_chinese_chars (
bool
, optional, defaults toTrue
) — Whether or not to tokenize Chinese characters.这可能应该为日语停用(参见此 issue)。
- strip_accents (
bool
, 可选) — 是否去除所有重音符号。如果未指定此选项,则将由lowercase
的值决定(如原始Lxmert中所示)。 - clean_up_tokenization_spaces (
bool
, 可选, 默认为True
) — 是否在解码后清理空格,清理包括移除潜在的额外空格等可能的痕迹。
构建一个Lxmert分词器。基于WordPiece。
此分词器继承自PreTrainedTokenizer,其中包含了大部分主要方法。用户应参考此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
< source >( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None ) → List[int]
通过连接和添加特殊标记,从序列或序列对构建序列分类任务的模型输入。Lxmert序列具有以下格式:
- 单一序列:
[CLS] X [SEP]
- 序列对:
[CLS] A [SEP] B [SEP]
将一系列标记(字符串)转换为单个字符串。
create_token_type_ids_from_sequences
< source >( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None ) → List[int]
从传递给序列对分类任务的两个序列中创建一个掩码。一个Lxmert序列
如果 token_ids_1
是 None
,此方法仅返回掩码的第一部分(0s)。
get_special_tokens_mask
< source >( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None already_has_special_tokens: bool = False ) → List[int]
从没有添加特殊标记的标记列表中检索序列ID。当使用标记器的prepare_for_model
方法添加特殊标记时,会调用此方法。
LxmertTokenizerFast
类 transformers.LxmertTokenizerFast
< source >( vocab_file = None tokenizer_file = None do_lower_case = True unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None **kwargs )
参数
- vocab_file (
str
) — 包含词汇表的文件。 - do_lower_case (
bool
, optional, defaults toTrue
) — 是否在分词时将输入转换为小写。 - unk_token (
str
, optional, defaults to"[UNK]"
) — 未知标记。不在词汇表中的标记无法转换为ID,而是设置为这个标记。 - sep_token (
str
, optional, defaults to"[SEP]"
) — 分隔符标记,用于从多个序列构建一个序列时使用,例如用于序列分类的两个序列或用于问答的文本和问题。它也用作使用特殊标记构建的序列的最后一个标记。 - pad_token (
str
, optional, defaults to"[PAD]"
) — 用于填充的标记,例如在对不同长度的序列进行批处理时使用。 - cls_token (
str
, 可选, 默认为"[CLS]"
) — 用于序列分类的分类器标记(对整个序列进行分类而不是对每个标记进行分类)。当使用特殊标记构建时,它是序列的第一个标记。 - mask_token (
str
, 可选, 默认为"[MASK]"
) — 用于屏蔽值的标记。这是在训练此模型时用于屏蔽语言建模的标记。这是模型将尝试预测的标记。 - clean_text (
bool
, optional, defaults toTrue
) — 是否在分词前通过移除任何控制字符并用经典空格替换所有空格来清理文本。 - tokenize_chinese_chars (
bool
, 可选, 默认为True
) — 是否对中文字符进行分词。对于日语,可能需要停用此功能(参见 此问题)。 - strip_accents (
bool
, 可选) — 是否去除所有重音符号。如果未指定此选项,则将由lowercase
的值决定(如原始Lxmert中所示)。 - wordpieces_prefix (
str
, optional, defaults to"##"
) — 子词的前缀。
构建一个“快速”的Lxmert分词器(基于HuggingFace的tokenizers库)。基于WordPiece。
这个分词器继承自PreTrainedTokenizerFast,其中包含了大部分主要方法。用户应参考这个超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
< source >( token_ids_0 token_ids_1 = 无 ) → List[int]
通过连接和添加特殊标记,从序列或序列对构建序列分类任务的模型输入。Lxmert序列具有以下格式:
- 单一序列:
[CLS] X [SEP]
- 序列对:
[CLS] A [SEP] B [SEP]
create_token_type_ids_from_sequences
< source >( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None ) → List[int]
从传递给序列对分类任务的两个序列中创建一个掩码。一个Lxmert序列
如果 token_ids_1
是 None
,此方法仅返回掩码的第一部分(0s)。
Lxmert 特定输出
类 transformers.models.lxmert.modeling_lxmert.LxmertModelOutput
< source >( language_output: typing.Optional[torch.FloatTensor] = None vision_output: typing.Optional[torch.FloatTensor] = None pooled_output: typing.Optional[torch.FloatTensor] = None language_hidden_states: typing.Optional[typing.Tuple[torch.FloatTensor]] = None vision_hidden_states: typing.Optional[typing.Tuple[torch.FloatTensor]] = None language_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None vision_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None cross_encoder_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None )
参数
- language_output (
torch.FloatTensor
of shape(batch_size, sequence_length, hidden_size)
) — 语言编码器最后一层输出的隐藏状态序列。 - vision_output (
torch.FloatTensor
of shape(batch_size, sequence_length, hidden_size)
) — 视觉编码器最后一层输出的隐藏状态序列。 - pooled_output (
torch.FloatTensor
of shape(batch_size, hidden_size)
) — 序列的第一个标记(分类,CLS,标记)的最后一层隐藏状态,经过线性层和Tanh激活函数的进一步处理。线性 - language_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
. - vision_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
. - language_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(torch.FloatTensor)
, 可选, 当output_attentions=True
传递或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
Lxmert的输出包含语言、视觉和跨模态编码器的最后隐藏状态、池化输出和注意力概率。(注意:Lxmert中的视觉编码器被称为“关系”编码器)
类 transformers.models.lxmert.modeling_lxmert.LxmertForPreTrainingOutput
< source >( loss: typing.Optional[torch.FloatTensor] = None prediction_logits: typing.Optional[torch.FloatTensor] = None cross_relationship_score: typing.Optional[torch.FloatTensor] = None question_answering_score: typing.Optional[torch.FloatTensor] = None language_hidden_states: typing.Optional[typing.Tuple[torch.FloatTensor]] = None vision_hidden_states: typing.Optional[typing.Tuple[torch.FloatTensor]] = None language_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None vision_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None cross_encoder_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None )
参数
- loss (可选, 当提供
labels
时返回,torch.FloatTensor
形状为(1,)
) — 总损失,作为掩码语言建模损失和下一个序列预测(分类)损失的总和。 - prediction_logits (
torch.FloatTensor
of shape(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数(SoftMax之前每个词汇标记的分数)。 - cross_relationship_score (
torch.FloatTensor
of shape(batch_size, 2)
) — 文本匹配目标(分类)头的预测分数(在SoftMax之前的真/假继续的分数)。 - question_answering_score (
torch.FloatTensor
of shape(batch_size, n_qa_answers)
) — 问题回答目标的预测分数(分类)。 - language_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
. - vision_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
. - language_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
LxmertForPreTraining的输出类型。
类 transformers.models.lxmert.modeling_lxmert.LxmertForQuestionAnsweringOutput
< source >( loss: typing.Optional[torch.FloatTensor] = None question_answering_score: typing.Optional[torch.FloatTensor] = None language_hidden_states: typing.Optional[typing.Tuple[torch.FloatTensor]] = None vision_hidden_states: typing.Optional[typing.Tuple[torch.FloatTensor]] = None language_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None vision_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None cross_encoder_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None )
参数
- loss (可选, 当提供
labels
时返回,torch.FloatTensor
形状为(1,)
) — 总损失,即掩码语言建模损失和下一序列预测(分类)损失的总和。 - question_answering_score (
torch.FloatTensor
of shape(batch_size, n_qa_answers)
, optional) — 问题回答目标的预测分数(分类)。 - language_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
. - vision_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
. - language_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
类 transformers.models.lxmert.modeling_tf_lxmert.TFLxmertModelOutput
< source >( language_output: tf.Tensor | None = None vision_output: tf.Tensor | None = None pooled_output: tf.Tensor | None = None language_hidden_states: Tuple[tf.Tensor] | None = None vision_hidden_states: Tuple[tf.Tensor] | None = None language_attentions: Tuple[tf.Tensor] | None = None vision_attentions: Tuple[tf.Tensor] | None = None cross_encoder_attentions: Tuple[tf.Tensor] | None = None )
参数
- language_output (
tf.Tensor
of shape(batch_size, sequence_length, hidden_size)
) — 语言编码器最后一层输出的隐藏状态序列。 - vision_output (
tf.Tensor
of shape(batch_size, sequence_length, hidden_size)
) — 视觉编码器最后一层输出的隐藏状态序列。 - pooled_output (
tf.Tensor
of shape(batch_size, hidden_size)
) — 序列的第一个标记(分类,CLS,标记)的最后一层隐藏状态,经过线性层和Tanh激活函数的进一步处理。线性 - language_hidden_states (
tuple(tf.Tensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —tf.Tensor
的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
. - vision_hidden_states (
tuple(tf.Tensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
. - language_attentions (
tuple(tf.Tensor)
, 可选, 当output_attentions=True
传递或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(tf.Tensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(tf.Tensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —tf.Tensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
Lxmert的输出包含语言、视觉和跨模态编码器的最后隐藏状态、池化输出和注意力概率。(注意:Lxmert中的视觉编码器被称为“关系”编码器)
类 transformers.models.lxmert.modeling_tf_lxmert.TFLxmertForPreTrainingOutput
< source >( loss: tf.Tensor | None = None prediction_logits: tf.Tensor | None = None cross_relationship_score: tf.Tensor | None = None question_answering_score: tf.Tensor | None = None language_hidden_states: Tuple[tf.Tensor] | None = None vision_hidden_states: Tuple[tf.Tensor] | None = None language_attentions: Tuple[tf.Tensor] | None = None vision_attentions: Tuple[tf.Tensor] | None = None cross_encoder_attentions: Tuple[tf.Tensor] | None = None )
参数
- loss (可选, 当提供
labels
时返回,tf.Tensor
形状为(1,)
) — 总损失,作为掩码语言建模损失和下一个序列预测(分类)损失的总和。 - prediction_logits (
tf.Tensor
of shape(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数(SoftMax之前每个词汇标记的分数)。 - cross_relationship_score (
tf.Tensor
形状为(batch_size, 2)
) — 文本匹配目标(分类)头的预测分数(在SoftMax之前的True/False 继续的分数)。 - question_answering_score (
tf.Tensor
of shape(batch_size, n_qa_answers)
) — 问题回答目标的预测分数(分类)。 - language_hidden_states (
tuple(tf.Tensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —tf.Tensor
的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
. - vision_hidden_states (
tuple(tf.Tensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —tf.Tensor
的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
. - language_attentions (
tuple(tf.Tensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(tf.Tensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(tf.Tensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —tf.Tensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
LxmertForPreTraining的输出类型。
LxmertModel
类 transformers.LxmertModel
< source >( config )
参数
- config (LxmertConfig) — 包含模型所有参数的模型配置类。 使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
裸的Lxmert模型转换器输出原始隐藏状态,没有任何特定的头部。
LXMERT模型由Hao Tan和Mohit Bansal在LXMERT: Learning Cross-Modality Encoder Representations from Transformers中提出。它是一个视觉和语言转换器模型,预训练于多种多模态数据集,包括GQA、VQAv2.0、MSCOCO字幕和Visual genome,使用了掩码语言建模、感兴趣区域特征回归、问答属性预测的交叉熵损失和对象标签预测的组合。
该模型继承自PreTrainedModel。请查看超类文档以了解库为其所有模型实现的通用方法(如下载或保存、调整输入嵌入的大小、修剪头部等)。
该模型也是一个PyTorch torch.nn.Module 子类。 将其作为常规的PyTorch模块使用,并参考PyTorch文档以获取与一般使用和行为相关的所有信息。
前进
< source >( input_ids: typing.Optional[torch.LongTensor] = None visual_feats: typing.Optional[torch.FloatTensor] = None visual_pos: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None visual_attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.lxmert.modeling_lxmert.LxmertModelOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
of shape(batch_size, sequence_length)
) — Indices of input sequence tokens in the vocabulary.可以使用AutoTokenizer获取索引。详情请参见PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
- visual_feats (
torch.FloatTensor
of shape(batch_size, num_visual_features, visual_feat_dim)
) — This input represents visual features. They ROI pooled object features from bounding boxes using a faster-RCNN model)这些目前未由transformers库提供。
- visual_pos (
torch.FloatTensor
of shape(batch_size, num_visual_features, visual_pos_dim)
) — This input represents spacial features corresponding to their relative (via index) visual features. The pre-trained LXMERT model expects these spacial features to be normalized bounding boxes on a scale of 0 to这些目前未由transformers库提供。
- attention_mask (
torch.FloatTensor
of shape(batch_size, sequence_length)
, optional) — Mask to avoid performing attention on padding token indices. Mask values selected in[0, 1]
:- 1 for tokens that are not masked,
- 0 for tokens that are masked.
- visual_attention_mask (
torch.FloatTensor
of shape(batch_size, sequence_length)
, optional) — Mask to avoid performing attention on padding token indices. Mask values selected in[0, 1]
:- 1 for tokens that are not masked,
- 0 for tokens that are masked.
- token_type_ids (
torch.LongTensor
of shape(batch_size, sequence_length)
, optional) — Segment token indices to indicate first and second portions of the inputs. Indices are selected in[0, 1]
:- 0 corresponds to a sentence A token,
- 1 corresponds to a sentence B token.
- inputs_embeds (
torch.FloatTensor
of shape(batch_size, sequence_length, hidden_size)
, optional) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望对如何将input_ids
索引转换为相关向量有更多控制权,而不是使用模型的内部嵌入查找矩阵,这将非常有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
返回
transformers.models.lxmert.modeling_lxmert.LxmertModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.models.lxmert.modeling_lxmert.LxmertModelOutput 或一个由
torch.FloatTensor
组成的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含各种
元素,具体取决于配置(LxmertConfig)和输入。
- language_output (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
) — 语言编码器最后一层输出的隐藏状态序列。 - vision_output (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
) — 视觉编码器最后一层输出的隐藏状态序列。 - pooled_output (
torch.FloatTensor
形状为(batch_size, hidden_size)
) — 序列的第一个标记(分类,CLS,标记)的最后一层隐藏状态,进一步通过线性层和Tanh激活函数处理。线性 - language_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) — 由torch.FloatTensor
组成的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) — 由torch.FloatTensor
组成的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) — 由torch.FloatTensor
组成的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力softmax之后,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) — 由torch.FloatTensor
组成的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力softmax之后,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) — 由torch.FloatTensor
组成的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力softmax之后,用于计算自注意力头中的加权平均值。
LxmertModel 的前向方法,重写了 __call__
特殊方法。
尽管前向传递的配方需要在此函数内定义,但之后应该调用Module
实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, LxmertModel
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> model = LxmertModel.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
LxmertForPreTraining
类 transformers.LxmertForPreTraining
< source >( config )
参数
- config (LxmertConfig) — 包含模型所有参数的模型配置类。 使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
Lxmert 模型,顶部带有指定的预训练头。
LXMERT模型由Hao Tan和Mohit Bansal在LXMERT: Learning Cross-Modality Encoder Representations from Transformers中提出。它是一个视觉和语言转换器模型,预训练于多种多模态数据集,包括GQA、VQAv2.0、MSCOCO字幕和Visual genome,使用了掩码语言建模、感兴趣区域特征回归、问答属性预测的交叉熵损失和对象标签预测的组合。
该模型继承自PreTrainedModel。请查看超类文档以了解库为其所有模型实现的通用方法(如下载或保存、调整输入嵌入的大小、修剪头部等)。
该模型也是一个PyTorch torch.nn.Module 子类。 将其作为常规的PyTorch模块使用,并参考PyTorch文档以获取与一般使用和行为相关的所有信息。
前进
< source >( input_ids: typing.Optional[torch.LongTensor] = None visual_feats: typing.Optional[torch.FloatTensor] = None visual_pos: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None visual_attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None obj_labels: typing.Optional[typing.Dict[str, typing.Tuple[torch.FloatTensor, torch.FloatTensor]]] = None matched_label: typing.Optional[torch.LongTensor] = None ans: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None **kwargs ) → transformers.models.lxmert.modeling_lxmert.LxmertForPreTrainingOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
of shape(batch_size, sequence_length)
) — Indices of input sequence tokens in the vocabulary.可以使用AutoTokenizer获取索引。详情请参见PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
- visual_feats (
torch.FloatTensor
of shape(batch_size, num_visual_features, visual_feat_dim)
) — This input represents visual features. They ROI pooled object features from bounding boxes using a faster-RCNN model)这些目前未由transformers库提供。
- visual_pos (
torch.FloatTensor
of shape(batch_size, num_visual_features, visual_pos_dim)
) — This input represents spacial features corresponding to their relative (via index) visual features. The pre-trained LXMERT model expects these spacial features to be normalized bounding boxes on a scale of 0 to这些目前未由transformers库提供。
- attention_mask (
torch.FloatTensor
of shape(batch_size, sequence_length)
, optional) — Mask to avoid performing attention on padding token indices. Mask values selected in[0, 1]
:- 1 for tokens that are not masked,
- 0 for tokens that are masked.
- visual_attention_mask (
torch.FloatTensor
of shape(batch_size, sequence_length)
, optional) — Mask to avoid performing attention on padding token indices. Mask values selected in[0, 1]
:- 1 for tokens that are not masked,
- 0 for tokens that are masked.
- token_type_ids (
torch.LongTensor
of shape(batch_size, sequence_length)
, optional) — Segment token indices to indicate first and second portions of the inputs. Indices are selected in[0, 1]
:- 0 corresponds to a sentence A token,
- 1 corresponds to a sentence B token.
- inputs_embeds (
torch.FloatTensor
of shape(batch_size, sequence_length, hidden_size)
, optional) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望对如何将input_ids
索引转换为相关向量有更多控制,而不是使用模型的内部嵌入查找矩阵,这将非常有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量中的attentions
。 - output_hidden_states (
bool
, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states
。 - return_dict (
bool
, optional) — 是否返回一个ModelOutput而不是一个普通的元组。 - labels (
torch.LongTensor
of shape(batch_size, sequence_length)
, optional) — 用于计算掩码语言建模损失的标签。索引应在[-100, 0, ..., config.vocab_size]
范围内(参见input_ids
文档字符串)。索引设置为-100
的标记将被忽略(掩码), 损失仅针对标签在[0, ..., config.vocab_size]
范围内的标记进行计算 - obj_labels (
Dict[Str -- Tuple[Torch.FloatTensor, Torch.FloatTensor]]
, 可选): 每个键以每个视觉损失的名称命名,元组的每个元素的形状分别为(batch_size, num_features)
和(batch_size, num_features, visual_feature_dim)
,分别对应标签ID和 标签分数 - matched_label (
torch.LongTensor
形状为(batch_size,)
, 可选) — 用于计算文本输入是否与图像匹配(分类)损失的标签。输入 应该是一个序列对(参见input_ids
文档字符串)。索引应在[0, 1]
中:- 0 表示句子与图像不匹配,
- 1 表示句子与图像匹配。
- ans (
Torch.Tensor
of shape(batch_size)
, optional) — 正确答案的独热编码表示 optional
返回
transformers.models.lxmert.modeling_lxmert.LxmertForPreTrainingOutput 或 tuple(torch.FloatTensor)
一个 transformers.models.lxmert.modeling_lxmert.LxmertForPreTrainingOutput 或一个由
torch.FloatTensor
组成的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含各种
元素,具体取决于配置(LxmertConfig)和输入。
- loss (可选,当提供
labels
时返回,torch.FloatTensor
形状为(1,)
) — 总损失,作为掩码语言建模损失和下一序列预测 (分类)损失的总和。 - prediction_logits (
torch.FloatTensor
形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数(SoftMax 之前每个词汇标记的分数)。 - cross_relationship_score (
torch.FloatTensor
形状为(batch_size, 2)
) — 文本匹配目标(分类)头的预测分数(SoftMax 之前真/假 继续的分数)。 - question_answering_score (
torch.FloatTensor
形状为(batch_size, n_qa_answers)
) — 问答目标(分类)的预测分数。 - language_hidden_states (
tuple(torch.FloatTensor)
, 可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) — 由torch.FloatTensor
组成的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(torch.FloatTensor)
, 可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) — 由torch.FloatTensor
组成的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) — 由torch.FloatTensor
组成的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算 自注意力头中的加权平均值。 - vision_attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) — 由torch.FloatTensor
组成的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算 自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) — 由torch.FloatTensor
组成的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算 自注意力头中的加权平均值。
LxmertForPreTraining 的前向方法,重写了 __call__
特殊方法。
尽管前向传递的配方需要在此函数内定义,但之后应该调用Module
实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
LxmertForQuestionAnswering
类 transformers.LxmertForQuestionAnswering
< source >( config )
参数
- config (LxmertConfig) — 包含模型所有参数的模型配置类。 使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
Lxmert 模型,顶部带有视觉回答头,用于下游 QA 任务
LXMERT模型由Hao Tan和Mohit Bansal在LXMERT: Learning Cross-Modality Encoder Representations from Transformers中提出。它是一个视觉和语言转换器模型,预训练于多种多模态数据集,包括GQA、VQAv2.0、MSCOCO字幕和Visual genome,使用了掩码语言建模、感兴趣区域特征回归、问答属性预测的交叉熵损失和对象标签预测的组合。
该模型继承自PreTrainedModel。请查看超类文档以了解库为其所有模型实现的通用方法(如下载或保存、调整输入嵌入的大小、修剪头部等)。
该模型也是一个PyTorch torch.nn.Module 子类。 将其作为常规的PyTorch模块使用,并参考PyTorch文档以获取与一般使用和行为相关的所有信息。
前进
< source >( input_ids: typing.Optional[torch.LongTensor] = None visual_feats: typing.Optional[torch.FloatTensor] = None visual_pos: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None visual_attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.lxmert.modeling_lxmert.LxmertForQuestionAnsweringOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
of shape(batch_size, sequence_length)
) — Indices of input sequence tokens in the vocabulary.可以使用AutoTokenizer获取索引。详情请参见PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
- visual_feats (
torch.FloatTensor
of shape(batch_size, num_visual_features, visual_feat_dim)
) — This input represents visual features. They ROI pooled object features from bounding boxes using a faster-RCNN model)这些目前未由transformers库提供。
- visual_pos (
torch.FloatTensor
of shape(batch_size, num_visual_features, visual_pos_dim)
) — This input represents spacial features corresponding to their relative (via index) visual features. The pre-trained LXMERT model expects these spacial features to be normalized bounding boxes on a scale of 0 to这些目前未由transformers库提供。
- attention_mask (
torch.FloatTensor
of shape(batch_size, sequence_length)
, optional) — Mask to avoid performing attention on padding token indices. Mask values selected in[0, 1]
:- 1 for tokens that are not masked,
- 0 for tokens that are masked.
- visual_attention_mask (
torch.FloatTensor
of shape(batch_size, sequence_length)
, optional) — Mask to avoid performing attention on padding token indices. Mask values selected in[0, 1]
:- 1 for tokens that are not masked,
- 0 for tokens that are masked.
- token_type_ids (
torch.LongTensor
of shape(batch_size, sequence_length)
, optional) — Segment token indices to indicate first and second portions of the inputs. Indices are selected in[0, 1]
:- 0 corresponds to a sentence A token,
- 1 corresponds to a sentence B token.
- inputs_embeds (
torch.FloatTensor
of shape(batch_size, sequence_length, hidden_size)
, optional) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望对如何将input_ids
索引转换为相关向量有更多控制权,而不是使用模型的内部嵌入查找矩阵,这将非常有用。 - output_attentions (
bool
, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions
。 - output_hidden_states (
bool
, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回一个ModelOutput而不是一个普通的元组。 - labels (
Torch.Tensor
of shape(batch_size)
, optional) — 正确答案的独热编码表示
返回
transformers.models.lxmert.modeling_lxmert.LxmertForQuestionAnsweringOutput 或 tuple(torch.FloatTensor)
一个 transformers.models.lxmert.modeling_lxmert.LxmertForQuestionAnsweringOutput 或一个由
torch.FloatTensor
组成的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含各种
元素,具体取决于配置(LxmertConfig)和输入。
- loss (可选,当提供
labels
时返回,torch.FloatTensor
形状为(1,)
) — 总损失,作为掩码语言建模损失和下一个序列预测 (分类)损失的总和。 - question_answering_score (
torch.FloatTensor
形状为(batch_size, n_qa_answers)
, 可选) — 问答目标(分类)的预测分数。 - language_hidden_states (
tuple(torch.FloatTensor)
, 可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) — 由torch.FloatTensor
组成的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(torch.FloatTensor)
, 可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) — 由torch.FloatTensor
组成的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) — 由torch.FloatTensor
组成的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算 自注意力头中的加权平均值。 - vision_attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) — 由torch.FloatTensor
组成的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算 自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) — 由torch.FloatTensor
组成的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力权重在注意力 softmax 之后,用于计算 自注意力头中的加权平均值。
LxmertForQuestionAnswering 的前向方法,重写了 __call__
特殊方法。
尽管前向传递的配方需要在此函数内定义,但之后应该调用Module
实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, LxmertForQuestionAnswering
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> model = LxmertForQuestionAnswering.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"
>>> inputs = tokenizer(question, text, return_tensors="pt")
>>> with torch.no_grad():
... outputs = model(**inputs)
>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()
>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
>>> # target is "nice puppet"
>>> target_start_index = torch.tensor([14])
>>> target_end_index = torch.tensor([15])
>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = outputs.loss
TFLxmertModel
类 transformers.TFLxmertModel
< source >( config *inputs **kwargs )
参数
- config (LxmertConfig) — 包含模型所有参数的模型配置类。 使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
裸的Lxmert模型转换器输出原始隐藏状态,没有任何特定的头部。
LXMERT模型由Hao Tan和Mohit Bansal在LXMERT: Learning Cross-Modality Encoder Representations from Transformers中提出。它是一个视觉和语言转换模型,预训练于多种多模态数据集,包括GQA、VQAv2.0、MCSCOCO字幕和Visual genome,使用了掩码语言建模、感兴趣区域特征回归、用于问答属性预测的交叉熵损失和对象标签预测的组合。
该模型也是一个keras.Model子类。可以将其作为常规的TF 2.0 Keras模型使用,并参考TF 2.0文档以了解与一般使用和行为相关的所有事项。
TensorFlow 模型和层在 transformers
中接受两种格式作为输入:
- 将所有输入作为关键字参数(如PyTorch模型),或
- 将所有输入作为列表、元组或字典放在第一个位置参数中。
支持第二种格式的原因是,Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,当使用像 model.fit()
这样的方法时,事情应该“正常工作”——只需以 model.fit()
支持的任何格式传递你的输入和标签!然而,如果你想在 Keras 方法之外使用第二种格式,比如在使用 Keras Functional
API 创建自己的层或模型时,有三种方法可以用来将所有输入张量收集到第一个位置参数中:
- 仅包含
input_ids
的单个张量,没有其他内容:model(input_ids)
- 一个长度不定的列表,包含一个或多个输入张量,按照文档字符串中给出的顺序:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,包含一个或多个与文档字符串中给出的输入名称相关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,您不需要担心这些,因为您可以像传递任何其他Python函数一样传递输入!
调用
< source >( input_ids: TFModelInputType | None = None visual_feats: tf.Tensor | None = None visual_pos: tf.Tensor | None = None attention_mask: np.ndarray | tf.Tensor | None = None visual_attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → transformers.models.lxmert.modeling_tf_lxmert.TFLxmertModelOutput 或 tuple(tf.Tensor)
参数
- input_ids (
np.ndarray
ortf.Tensor
of shape(batch_size, sequence_length)
) — Indices of input sequence tokens in the vocabulary.可以使用AutoTokenizer获取索引。详情请参见PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。
- visual_feats (
tf.Tensor
of shape(batch_size, num_visual_features, visual_feat_dim)
) — This input represents visual features. They ROI pooled object features from bounding boxes using a faster-RCNN model)这些目前未由transformers库提供。
- visual_pos (
tf.Tensor
of shape(batch_size, num_visual_features, visual_feat_dim)
) — This input represents spacial features corresponding to their relative (via index) visual features. The pre-trained LXMERT model expects these spacial features to be normalized bounding boxes on a scale of 0 to这些目前未由transformers库提供。
- attention_mask (
tf.Tensor
of shape(batch_size, sequence_length)
, optional) — Mask to avoid performing attention on padding token indices. Mask values selected in[0, 1]
:- 1 for tokens that are not masked,
- 0 for tokens that are masked.
- visual_attention_mask (
tf.Tensor
of shape(batch_size, sequence_length)
, optional) — MMask to avoid performing attention on padding token indices. Mask values selected in[0, 1]
:- 1 for tokens that are not masked,
- 0 for tokens that are masked.
- token_type_ids (
tf.Tensor
of shape(batch_size, sequence_length)
, optional) — Segment token indices to indicate first and second portions of the inputs. Indices are selected in[0, 1]
:- 0 corresponds to a sentence A token,
- 1 corresponds to a sentence B token.
- inputs_embeds (
tf.Tensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望对如何将input_ids
索引转换为相关向量有更多控制,而不是使用模型的内部嵌入查找矩阵,这将非常有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量中的attentions
。此参数只能在eager模式下使用,在graph模式下将使用配置中的值。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。此参数只能在急切模式下使用,在图形模式下将使用配置中的值。 - return_dict (
bool
, 可选) — 是否返回一个ModelOutput而不是一个普通的元组。此参数可以在eager模式下使用,在graph模式下该值将始终设置为True. - 训练 (
bool
, 可选, 默认为False
) — 是否在训练模式下使用模型(一些模块如dropout模块在训练和评估时具有不同的行为)。
返回
transformers.models.lxmert.modeling_tf_lxmert.TFLxmertModelOutput 或 tuple(tf.Tensor)
一个 transformers.models.lxmert.modeling_tf_lxmert.TFLxmertModelOutput 或一个 tf.Tensor
元组(如果
return_dict=False
被传递或当 config.return_dict=False
时)包含各种元素,具体取决于
配置 (LxmertConfig) 和输入。
- language_output (
tf.Tensor
形状为(batch_size, sequence_length, hidden_size)
) — 语言编码器最后一层输出的隐藏状态序列。 - vision_output (
tf.Tensor
形状为(batch_size, sequence_length, hidden_size)
) — 视觉编码器最后一层输出的隐藏状态序列。 - pooled_output (
tf.Tensor
形状为(batch_size, hidden_size)
) — 序列的第一个标记(分类,CLS,标记)的最后一层隐藏状态,进一步通过线性层和 Tanh 激活函数处理。线性 - language_hidden_states (
tuple(tf.Tensor)
, 可选, 当output_hidden_states=True
被传递或当config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于输入特征 + 一个用于每个跨模态层的输出)形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(tf.Tensor)
, 可选, 当output_hidden_states=True
被传递或当config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于输入特征 + 一个用于每个跨模态层的输出)形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(tf.Tensor)
, 可选, 当output_attentions=True
被传递或当config.output_attentions=True
时返回) —tf.Tensor
元组(每层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(tf.Tensor)
, 可选, 当output_attentions=True
被传递或当config.output_attentions=True
时返回) —tf.Tensor
元组(每层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(tf.Tensor)
, 可选, 当output_attentions=True
被传递或当config.output_attentions=True
时返回) —tf.Tensor
元组(每层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TFLxmertModel 的前向方法,重写了 __call__
特殊方法。
尽管前向传递的配方需要在此函数内定义,但之后应该调用Module
实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, TFLxmertModel
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> model = TFLxmertModel.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)
>>> last_hidden_states = outputs.last_hidden_state
TFLxmertForPreTraining
类 transformers.TFLxmertForPreTraining
< source >( config *inputs **kwargs )
参数
- config (LxmertConfig) — 包含模型所有参数的模型配置类。 使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
Lxmert 模型,顶部带有language modeling
头。
LXMERT模型由Hao Tan和Mohit Bansal在LXMERT: Learning Cross-Modality Encoder Representations from Transformers中提出。它是一个视觉和语言转换模型,预训练于多种多模态数据集,包括GQA、VQAv2.0、MCSCOCO字幕和Visual genome,使用了掩码语言建模、感兴趣区域特征回归、用于问答属性预测的交叉熵损失和对象标签预测的组合。
该模型也是一个keras.Model子类。可以将其作为常规的TF 2.0 Keras模型使用,并参考TF 2.0文档以了解与一般使用和行为相关的所有事项。
TensorFlow 模型和层在 transformers
中接受两种格式作为输入:
- 将所有输入作为关键字参数(如PyTorch模型),或
- 将所有输入作为列表、元组或字典放在第一个位置参数中。
支持第二种格式的原因是,Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,当使用像 model.fit()
这样的方法时,事情应该“正常工作”——只需以 model.fit()
支持的任何格式传递你的输入和标签!然而,如果你想在 Keras 方法之外使用第二种格式,比如在使用 Keras Functional
API 创建自己的层或模型时,有三种方法可以用来将所有输入张量收集到第一个位置参数中:
- 仅包含
input_ids
的单个张量,没有其他内容:model(input_ids)
- 一个长度不定的列表,包含一个或多个输入张量,按照文档字符串中给出的顺序:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,包含一个或多个与文档字符串中给出的输入名称相关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,您不需要担心这些,因为您可以像传递任何其他Python函数一样传递输入!
调用
< source >( input_ids: TFModelInputType | None = None visual_feats: tf.Tensor | None = None visual_pos: tf.Tensor | None = None attention_mask: tf.Tensor | None = None visual_attention_mask: tf.Tensor | None = None token_type_ids: tf.Tensor | None = None inputs_embeds: tf.Tensor | None = None masked_lm_labels: tf.Tensor | None = None obj_labels: Dict[str, Tuple[tf.Tensor, tf.Tensor]] | None = None matched_label: tf.Tensor | None = None ans: tf.Tensor | None = None output_attentions: bool | None = None output_hidden_states: bool | None = None return_dict: bool | None = None training: bool = False ) → transformers.models.lxmert.modeling_tf_lxmert.TFLxmertForPreTrainingOutput 或 tuple(tf.Tensor)
参数
- input_ids (
np.ndarray
ortf.Tensor
of shape(batch_size, sequence_length)
) — Indices of input sequence tokens in the vocabulary.可以使用AutoTokenizer获取索引。详情请参见PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。
- visual_feats (
tf.Tensor
of shape(batch_size, num_visual_features, visual_feat_dim)
) — This input represents visual features. They ROI pooled object features from bounding boxes using a faster-RCNN model)这些目前未由transformers库提供。
- visual_pos (
tf.Tensor
of shape(batch_size, num_visual_features, visual_feat_dim)
) — This input represents spacial features corresponding to their relative (via index) visual features. The pre-trained LXMERT model expects these spacial features to be normalized bounding boxes on a scale of 0 to这些目前未由transformers库提供。
- attention_mask (
tf.Tensor
of shape(batch_size, sequence_length)
, optional) — Mask to avoid performing attention on padding token indices. Mask values selected in[0, 1]
:- 1 for tokens that are not masked,
- 0 for tokens that are masked.
- visual_attention_mask (
tf.Tensor
of shape(batch_size, sequence_length)
, optional) — MMask to avoid performing attention on padding token indices. Mask values selected in[0, 1]
:- 1 for tokens that are not masked,
- 0 for tokens that are masked.
- token_type_ids (
tf.Tensor
of shape(batch_size, sequence_length)
, optional) — Segment token indices to indicate first and second portions of the inputs. Indices are selected in[0, 1]
:- 0 corresponds to a sentence A token,
- 1 corresponds to a sentence B token.
- inputs_embeds (
tf.Tensor
of shape(batch_size, sequence_length, hidden_size)
, optional) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望对如何将input_ids
索引转换为相关向量有更多控制,而不是使用模型的内部嵌入查找矩阵,这将非常有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量中的attentions
。此参数只能在eager模式下使用,在graph模式下将使用配置中的值。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states
。此参数只能在急切模式下使用,在图形模式下将使用配置中的值。 - return_dict (
bool
, 可选) — 是否返回一个ModelOutput而不是一个普通的元组。此参数可以在eager模式下使用,在graph模式下该值将始终设置为True. - 训练 (
bool
, 可选, 默认为False
) — 是否在训练模式下使用模型(一些模块如dropout模块在训练和评估时具有不同的行为)。 - masked_lm_labels (
tf.Tensor
形状为(batch_size, sequence_length)
, 可选) — 用于计算掩码语言建模损失的标签。索引应在[-100, 0, ..., config.vocab_size]
范围内(参见input_ids
文档字符串)。索引设置为-100
的标记将被忽略(掩码), 损失仅针对标签在[0, ..., config.vocab_size]
范围内的标记计算 - obj_labels (
Dict[Str -- Tuple[tf.Tensor, tf.Tensor]]
, 可选, 默认为None
): 每个键以每个视觉损失的名称命名,元组的每个元素的形状分别为(batch_size, num_features)
和(batch_size, num_features, visual_feature_dim)
,分别对应标签ID和 标签分数 - matched_label (
tf.Tensor
形状为(batch_size,)
, 可选) — 用于计算文本输入是否与图像匹配(分类)损失的标签。输入 应该是一个序列对(参见input_ids
文档字符串)。索引应该在[0, 1]
中:- 0 表示句子与图像不匹配,
- 1 表示句子与图像匹配。
- ans (
tf.Tensor
of shape(batch_size)
, optional, defaults toNone
) — 正确答案的独热编码表示 optional
返回
transformers.models.lxmert.modeling_tf_lxmert.TFLxmertForPreTrainingOutput 或 tuple(tf.Tensor)
一个 transformers.models.lxmert.modeling_tf_lxmert.TFLxmertForPreTrainingOutput 或一个 tf.Tensor
元组(如果
return_dict=False
被传递或当 config.return_dict=False
时)包含各种元素,具体取决于
配置 (LxmertConfig) 和输入。
- loss (可选, 当
labels
提供时返回,tf.Tensor
形状为(1,)
) — 总损失,作为掩码语言建模损失和下一序列预测 (分类)损失的总和。 - prediction_logits (
tf.Tensor
形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数(SoftMax 之前每个词汇标记的分数)。 - cross_relationship_score (
tf.Tensor
形状为(batch_size, 2)
) — 文本匹配目标(分类)头的预测分数(SoftMax 之前真/假 继续的分数)。 - question_answering_score (
tf.Tensor
形状为(batch_size, n_qa_answers)
) — 问答目标(分类)的预测分数。 - language_hidden_states (
tuple(tf.Tensor)
, 可选, 当output_hidden_states=True
被传递或当config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于输入特征 + 一个用于每个跨模态层的输出)形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(tf.Tensor)
, 可选, 当output_hidden_states=True
被传递或当config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于输入特征 + 一个用于每个跨模态层的输出)形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(tf.Tensor)
, 可选, 当output_attentions=True
被传递或当config.output_attentions=True
时返回) —tf.Tensor
元组(每层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算 自注意力头中的加权平均值。 - vision_attentions (
tuple(tf.Tensor)
, 可选, 当output_attentions=True
被传递或当config.output_attentions=True
时返回) —tf.Tensor
元组(每层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算 自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(tf.Tensor)
, 可选, 当output_attentions=True
被传递或当config.output_attentions=True
时返回) —tf.Tensor
元组(每层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算 自注意力头中的加权平均值。
TFLxmertForPreTraining 的前向方法,重写了 __call__
特殊方法。
尽管前向传递的配方需要在此函数内定义,但之后应该调用Module
实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。