Transformers

对齐

概述

ALIGN模型是由Chao Jia、Yinfei Yang、Ye Xia、Yi-Ting Chen、Zarana Parekh、Hieu Pham、Quoc V. Le、Yunhsuan Sung、Zhen Li、Tom Duerig在Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision中提出的。ALIGN是一个多模态视觉和语言模型。它可以用于图像-文本相似度和零样本图像分类。ALIGN采用双编码器架构，其中EfficientNet作为视觉编码器，BERT作为文本编码器，并通过对比学习来对齐视觉和文本表示。与之前的工作不同，ALIGN利用了一个大规模噪声数据集，并展示了通过简单的配方，语料库的规模可以用来实现SOTA表示。

论文的摘要如下：

预训练的表示对于许多自然语言处理（NLP）和感知任务变得越来越重要。尽管NLP中的表示学习已经转向无需人工注释的原始文本训练，但视觉和视觉-语言表示仍然严重依赖于需要昂贵成本或专家知识的精心策划的训练数据集。对于视觉应用，表示主要通过使用具有明确类别标签的数据集（如ImageNet或OpenImages）来学习。对于视觉-语言，流行的数据集如Conceptual Captions、MSCOCO或CLIP都涉及复杂的数据收集（和清理）过程。这种昂贵的策划过程限制了数据集的规模，从而阻碍了训练模型的扩展。在本文中，我们利用了一个包含超过十亿个图像-文本对的数据集，这些数据是在Conceptual Captions数据集中无需昂贵过滤或后处理步骤获得的。一个简单的双编码器架构通过对比损失学习对齐图像和文本对的视觉和语言表示。我们展示了我们语料库的规模可以弥补其噪声，并导致即使在这种简单的学习方案下也能达到最先进的表示。我们的视觉表示在转移到分类任务（如ImageNet和VTAB）时表现出色。对齐的视觉和语言表示使得零样本图像分类成为可能，并且在Flickr30K和MSCOCO图像-文本检索基准测试中设定了新的最先进结果，即使与更复杂的交叉注意力模型相比也是如此。这些表示还支持使用复杂文本和文本+图像查询进行跨模态搜索。

该模型由Alara Dirik贡献。原始代码未发布，此实现基于Kakao Brain根据原始论文的实现。

使用示例

ALIGN 使用 EfficientNet 获取视觉特征，使用 BERT 获取文本特征。然后将文本和视觉特征投影到具有相同维度的潜在空间。投影后的图像和文本特征之间的点积被用作相似度分数。

AlignProcessor 将 EfficientNetImageProcessor 和 BertTokenizer 包装成一个实例，以便同时编码文本和预处理图像。以下示例展示了如何使用 AlignProcessor 和 AlignModel 获取图像-文本相似度分数。

import requests
import torch
from PIL import Image
from transformers import AlignProcessor, AlignModel

processor = AlignProcessor.from_pretrained("kakaobrain/align-base")
model = AlignModel.from_pretrained("kakaobrain/align-base")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
candidate_labels = ["an image of a cat", "an image of a dog"]

inputs = processor(images=image ,text=candidate_labels, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# this is the image-text similarity score
logits_per_image = outputs.logits_per_image

# we can take the softmax to get the label probabilities
probs = logits_per_image.softmax(dim=1)
print(probs)

资源

一份官方的Hugging Face和社区（由🌎表示）资源列表，帮助您开始使用ALIGN。

一篇关于ALIGN和COYO-700M数据集的博客文章。
一个零样本图像分类 demo。
Model card 的 kakaobrain/align-base 模型。

如果您有兴趣提交资源以包含在此处，请随时打开一个Pull Request，我们将对其进行审查。理想情况下，资源应展示一些新的内容，而不是重复现有的资源。

Transformers

对齐

概述

使用示例

资源

AlignConfig

类 transformers.AlignConfig

from_text_vision_configs

AlignTextConfig

类 transformers.AlignTextConfig

AlignVisionConfig

类 transformers.AlignVisionConfig

AlignProcessor

类 transformers.AlignProcessor

batch_decode

解码

对齐模型

类 transformers.AlignModel

前进

get_text_features

get_image_features

AlignTextModel

类 transformers.AlignTextModel

前进

AlignVisionModel

class transformers.AlignVisionModel

前进