Transformers

AltCLIP

概述

AltCLIP模型由Zhongzhi Chen、Guang Liu、Bo-Wen Zhang、Fulong Ye、Qinghong Yang、Ledell Wu在AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities中提出。AltCLIP（在CLIP中改变语言编码器）是一个在多种图像-文本和文本-文本对上训练的神经网络。通过将CLIP的文本编码器替换为预训练的多语言文本编码器XLM-R，我们可以在几乎所有任务上获得与CLIP非常接近的性能，并扩展了原始CLIP的能力，如多语言理解。

论文的摘要如下：

在这项工作中，我们提出了一种概念上简单且有效的方法来训练一个强大的双语多模态表示模型。从OpenAI发布的预训练多模态表示模型CLIP开始，我们将其文本编码器替换为预训练的多语言文本编码器XLM-R，并通过由教师学习和对比学习组成的两阶段训练方案对齐了两种语言和图像表示。我们通过对广泛任务的评估验证了我们的方法。我们在包括ImageNet-CN、Flicker30k-CN和COCO-CN在内的一系列任务上设定了新的最先进性能。此外，我们在几乎所有任务上都获得了与CLIP非常接近的性能，这表明可以简单地更改CLIP中的文本编码器以扩展功能，例如多语言理解。

该模型由jongjyh贡献。

使用提示和示例

AltCLIP的使用与CLIP非常相似。CLIP的区别在于文本编码器。请注意，我们使用双向注意力而不是因果注意力，并且我们使用XLM-R中的[CLS]标记来表示文本嵌入。

AltCLIP 是一个多模态视觉和语言模型。它可以用于图像-文本相似度和零样本图像分类。AltCLIP 使用类似 ViT 的 transformer 来获取视觉特征，并使用双向语言模型来获取文本特征。然后，文本和视觉特征都被投影到一个具有相同维度的潜在空间。投影后的图像和文本特征之间的点积被用作相似度分数。

为了将图像输入到Transformer编码器中，每张图像被分割成一系列固定大小的不重叠的补丁，然后进行线性嵌入。添加一个[CLS]标记作为整个图像的表示。作者还添加了绝对位置嵌入，并将生成的向量序列输入到标准的Transformer编码器中。CLIPImageProcessor可以用于调整图像大小（或重新缩放）并对图像进行归一化处理。

AltCLIPProcessor 将 CLIPImageProcessor 和 XLMRobertaTokenizer 封装到一个实例中，以便同时编码文本和准备图像。以下示例展示了如何使用 AltCLIPProcessor 和 AltCLIPModel 获取图像-文本相似度分数。

>>> from PIL import Image
>>> import requests

>>> from transformers import AltCLIPModel, AltCLIPProcessor

>>> model = AltCLIPModel.from_pretrained("BAAI/AltCLIP")
>>> processor = AltCLIPProcessor.from_pretrained("BAAI/AltCLIP")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

>>> outputs = model(**inputs)
>>> logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
>>> probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities

该模型基于CLIPModel，您可以像使用原始CLIP一样使用它。

Transformers

AltCLIP

概述

使用提示和示例

AltCLIPConfig

类 transformers.AltCLIPConfig

from_text_vision_configs

AltCLIPTextConfig

类 transformers.AltCLIPTextConfig

AltCLIPVisionConfig

类 transformers.AltCLIPVisionConfig

AltCLIPProcessor

类 transformers.AltCLIPProcessor

batch_decode

解码

AltCLIPModel

类 transformers.AltCLIPModel

前进

get_text_features

get_image_features

AltCLIPTextModel

class transformers.AltCLIPTextModel

前进

AltCLIPVisionModel

类 transformers.AltCLIPVisionModel

前进