Transformers

桥塔

概述

BridgeTower模型由Xiao Xu、Chenfei Wu、Shachar Rosenman、Vasudev Lal、Wanxiang Che、Nan Duan在BridgeTower: Building Bridges Between Encoders in Vision-Language Representative Learning中提出。该模型的目标是在每个单模态编码器和跨模态编码器之间建立桥梁，以在跨模态编码器的每一层实现全面和详细的交互，从而在各种下游任务上实现显著的性能提升，同时几乎不增加额外的性能和计算成本。

本文已被AAAI’23会议接受。

论文的摘要如下：

近年来，采用双塔架构的视觉-语言（VL）模型在视觉-语言表示学习领域占据了主导地位。当前的VL模型要么使用轻量级的单模态编码器，并在深度跨模态编码器中同时学习提取、对齐和融合两种模态，要么将深度预训练的单模态编码器的最后一层单模态表示输入到顶层的跨模态编码器中。这两种方法都可能限制视觉-语言表示学习并影响模型性能。在本文中，我们提出了BRIDGETOWER，它引入了多个桥接层，这些桥接层在单模态编码器的顶层和跨模态编码器的每一层之间建立了连接。这使得在跨模态编码器中能够有效地进行自下而上的跨模态对齐和融合，从而在不同语义层次的预训练单模态编码器的视觉和文本表示之间建立联系。仅使用4M图像进行预训练，BRIDGETOWER在各种下游视觉-语言任务中实现了最先进的性能。特别是在VQAv2测试集上，BRIDGETOWER的准确率达到78.73%，比之前的最先进模型METER高出1.09%，且使用相同的预训练数据和几乎可以忽略不计的额外参数和计算成本。值得注意的是，当进一步扩展模型时，BRIDGETOWER的准确率达到81.15%，超过了在更大规模数据集上预训练的模型。

BridgeTower architecture. Taken from the original paper.

该模型由Anahita Bhiwandiwalla、Tiep Le和Shaoyen Tseng贡献。原始代码可以在这里找到。

使用技巧和示例

BridgeTower 由一个视觉编码器、一个文本编码器和多个轻量级桥接层的跨模态编码器组成。该方法的目标是在每个单模态编码器和跨模态编码器之间建立桥梁，以在跨模态编码器的每一层实现全面和详细的交互。原则上，可以在所提出的架构中应用任何视觉、文本或跨模态编码器。

BridgeTowerProcessor 将 RobertaTokenizer 和 BridgeTowerImageProcessor 包装成一个实例，分别用于编码文本和准备图像。

以下示例展示了如何使用BridgeTowerProcessor和BridgeTowerForContrastiveLearning运行对比学习。

>>> from transformers import BridgeTowerProcessor, BridgeTowerForContrastiveLearning
>>> import requests
>>> from PIL import Image

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> texts = ["An image of two cats chilling on a couch", "A football player scoring a goal"]

>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-large-itm-mlm-itc")
>>> model = BridgeTowerForContrastiveLearning.from_pretrained("BridgeTower/bridgetower-large-itm-mlm-itc")

>>> # forward pass
>>> scores = dict()
>>> for text in texts:
...     # prepare inputs
...     encoding = processor(image, text, return_tensors="pt")
...     outputs = model(**encoding)
...     scores[text] = outputs

以下示例展示了如何使用BridgeTowerProcessor和BridgeTowerForImageAndTextRetrieval运行图像-文本检索。

>>> from transformers import BridgeTowerProcessor, BridgeTowerForImageAndTextRetrieval
>>> import requests
>>> from PIL import Image

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> texts = ["An image of two cats chilling on a couch", "A football player scoring a goal"]

>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")
>>> model = BridgeTowerForImageAndTextRetrieval.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")

>>> # forward pass
>>> scores = dict()
>>> for text in texts:
...     # prepare inputs
...     encoding = processor(image, text, return_tensors="pt")
...     outputs = model(**encoding)
...     scores[text] = outputs.logits[0, 1].item()

以下示例展示了如何使用BridgeTowerProcessor和BridgeTowerForMaskedLM运行掩码语言建模。

>>> from transformers import BridgeTowerProcessor, BridgeTowerForMaskedLM
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000360943.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
>>> text = "a <mask> looking out of the window"

>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")
>>> model = BridgeTowerForMaskedLM.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")

>>> # prepare inputs
>>> encoding = processor(image, text, return_tensors="pt")

>>> # forward pass
>>> outputs = model(**encoding)

>>> results = processor.decode(outputs.logits.argmax(dim=-1).squeeze(0).tolist())

>>> print(results)
.a cat looking out of the window.

提示：

BridgeTower 的实现使用 RobertaTokenizer 生成文本嵌入，并使用 OpenAI 的 CLIP/ViT 模型计算视觉嵌入。
预训练的bridgeTower-base和bridgetower masked language modeling and image text matching的检查点已发布。
请参考表5了解BridgeTower在图像检索和其他下游任务上的表现。
此模型的PyTorch版本仅在torch 1.10及更高版本中可用。

Transformers

桥塔

概述

使用技巧和示例

BridgeTowerConfig

类 transformers.BridgeTowerConfig

from_text_vision_configs

BridgeTowerTextConfig

类 transformers.BridgeTowerTextConfig

BridgeTowerVisionConfig

类 transformers.BridgeTowerVisionConfig

BridgeTowerImageProcessor

类 transformers.BridgeTowerImageProcessor

预处理

BridgeTowerProcessor

类 transformers.BridgeTowerProcessor

__call__

BridgeTowerModel

类 transformers.BridgeTowerModel

前进

BridgeTowerForContrastiveLearning

类 transformers.BridgeTowerForContrastiveLearning

前进

BridgeTowerForMaskedLM

类 transformers.BridgeTowerForMaskedLM

前进

BridgeTowerForImageAndTextRetrieval

类 transformers.BridgeTowerForImageAndTextRetrieval

前进

call