Transformers 文档

视觉变换器 (ViT)

Transformers

视觉变换器 (ViT)

概述

Vision Transformer (ViT) 模型是由 Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、Xiaohua Zhai、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、Georg Heigold、Sylvain Gelly、Jakob Uszkoreit 和 Neil Houlsby 在 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 中提出的。这是第一篇成功在 ImageNet 上训练 Transformer 编码器的论文，与常见的卷积架构相比，取得了非常好的结果。

论文的摘要如下：

尽管Transformer架构已成为自然语言处理任务的事实标准，但其在计算机视觉中的应用仍然有限。在视觉领域，注意力机制要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持其整体结构不变。我们表明，这种对卷积网络的依赖是不必要的，直接应用于图像块序列的纯Transformer在图像分类任务中可以表现得非常好。当在大规模数据上进行预训练并转移到多个中型或小型图像识别基准（如ImageNet、CIFAR-100、VTAB等）时，Vision Transformer（ViT）与最先进的卷积网络相比，取得了优异的结果，同时训练所需的计算资源显著减少。

ViT architecture. Taken from the original paper.

继最初的Vision Transformer之后，一些后续工作已经完成：

DeiT（数据高效的图像变换器）由Facebook AI开发。DeiT模型是经过蒸馏的视觉变换器。 DeiT的作者还发布了更高效训练的ViT模型，您可以直接将其插入ViTModel或 ViTForImageClassification。有4种变体可用（有3种不同尺寸）：facebook/deit-tiny-patch16-224， facebook/deit-small-patch16-224，facebook/deit-base-patch16-224和facebook/deit-base-patch16-384。请注意，应该使用 DeiTImageProcessor来为模型准备图像。
BEiT（图像变换器的BERT预训练）由微软研究院提出。BEiT模型通过一种受BERT（掩码图像建模）启发的自监督方法，并基于VQ-VAE，超越了使用监督预训练的视觉变换器。
DINO（一种用于自监督训练视觉Transformer的方法）由Facebook AI开发。使用DINO方法训练的视觉Transformer展示出卷积模型所不具备的非常有趣的特性。它们能够在没有经过专门训练的情况下进行对象分割。DINO的检查点可以在hub上找到。
MAE (Masked Autoencoders) 由 Facebook AI 提出。通过预训练 Vision Transformers 来重建大部分（75%）被遮蔽的补丁的像素值（使用非对称编码器-解码器架构），作者展示了这种简单的方法在微调后优于监督预训练。

该模型由nielsr贡献。原始代码（用JAX编写）可以在这里找到。

请注意，我们从Ross Wightman的timm库中转换了权重，他已经将权重从JAX转换为PyTorch。功劳归功于他！

使用提示

为了将图像输入到Transformer编码器中，每张图像被分割成一系列固定大小的不重叠的补丁，然后进行线性嵌入。添加一个[CLS]标记作为整个图像的表示，可以用于分类。作者还添加了绝对位置嵌入，并将生成的向量序列输入到标准的Transformer编码器中。
由于Vision Transformer期望每张图像具有相同的大小（分辨率），可以使用 ViTImageProcessor来调整（或重新缩放）和归一化图像以供模型使用。
在预训练或微调过程中使用的补丁分辨率和图像分辨率都反映在每个检查点的名称中。例如，google/vit-base-patch16-224指的是一个基础大小的架构，补丁分辨率为16x16，微调分辨率为224x224。所有检查点都可以在hub上找到。
可用的检查点要么是（1）仅在ImageNet-21k（包含1400万张图像和21k个类别的集合）上预训练，要么是（2）也在ImageNet（也称为ILSVRC 2012，包含130万张图像和1000个类别的集合）上进行了微调。
Vision Transformer 使用 224x224 的分辨率进行了预训练。在微调过程中，使用比预训练更高的分辨率通常是有益的 (Touvron et al., 2019), (Kolesnikov et al., 2020)。为了在更高分辨率下进行微调，作者根据预训练位置嵌入在原始图像中的位置进行了二维插值。
最佳结果是通过有监督的预训练获得的，这在NLP中并非如此。作者还进行了一项实验，使用自监督的预训练目标，即掩码补丁预测（受掩码语言建模的启发）。通过这种方法，较小的ViT-B/16模型在ImageNet上达到了79.9%的准确率，相比从头训练显著提高了2%，但仍比有监督的预训练低4%。

使用缩放点积注意力 (SDPA)

PyTorch 包含一个原生的缩放点积注意力（SDPA）操作符，作为 torch.nn.functional 的一部分。这个函数包含了几种实现，可以根据输入和使用的硬件进行应用。更多信息请参阅官方文档或 GPU 推理页面。

默认情况下，当有可用实现时，SDPA 用于 torch>=2.1.1，但你也可以在 from_pretrained() 中设置 attn_implementation="sdpa" 来明确请求使用 SDPA。

from transformers import ViTForImageClassification
model = ViTForImageClassification.from_pretrained("google/vit-base-patch16-224", attn_implementation="sdpa", torch_dtype=torch.float16)
...

为了获得最佳加速效果，我们建议以半精度加载模型（例如 torch.float16 或 torch.bfloat16）。

在本地基准测试（A100-40GB，PyTorch 2.3.0，操作系统 Ubuntu 22.04）中，使用float32和google/vit-base-patch16-224模型，我们在推理过程中看到了以下加速效果。

批量大小	平均推理时间（毫秒），eager模式	平均推理时间（毫秒），sdpa模型	加速比，Sdpa / Eager（倍）
1	7	6	1.17
2	8	6	1.33
4	8	6	1.33
8	8	6	1.33

资源

关于推理以及在自定义数据上微调ViT的演示笔记本可以在这里找到。以下是官方Hugging Face和社区（由🌎表示）资源的列表，以帮助您开始使用ViT。如果您有兴趣提交资源以包含在此处，请随时打开一个Pull Request，我们将进行审核！资源最好展示一些新的内容，而不是重复现有的资源。

ViTForImageClassification 支持以下内容：

Image Classification

一篇关于如何使用Fine-Tune ViT for Image Classification with Hugging Face Transformers的博客文章
一篇关于使用Hugging Face Transformers和Keras进行图像分类的博客文章
一个关于使用Hugging Face Transformers进行图像分类微调的笔记本
一个关于如何使用Hugging Face Trainer在CIFAR-10上微调Vision Transformer的笔记本
一个关于如何使用PyTorch Lightning在CIFAR-10上微调Vision Transformer的笔记本

⚗️ 优化

一篇关于如何使用Optimum通过量化加速视觉Transformer（ViT）的博客文章

⚡️ 推理

一个关于快速演示：Google Brain的视觉变换器（ViT）的笔记本

🚀 部署

一篇关于在Hugging Face中使用TF Serving部署Tensorflow视觉模型的博客文章
一篇关于在Vertex AI上部署Hugging Face ViT的博客文章
一篇关于使用TF Serving在Kubernetes上部署Hugging Face ViT的博客文章

Transformers

视觉变换器 (ViT)

概述

使用提示

使用缩放点积注意力 (SDPA)

资源

ViTConfig

类 transformers.ViTConfig

ViT特征提取器

类 transformers.ViTFeatureExtractor

__call__

ViTImageProcessor

类 transformers.ViTImageProcessor

预处理

ViTImageProcessorFast

类 transformers.ViTImageProcessorFast

预处理

ViTModel

类 transformers.ViTModel

前进

ViTForMaskedImageModeling

类 transformers.ViTForMaskedImageModeling

前进

ViTForImageClassification

类 transformers.ViTForImageClassification

前进

TFViTModel

类 transformers.TFViTModel

调用

TFViTForImageClassification

类 transformers.TFViTForImageClassification

调用

FlaxVitModel

类 transformers.FlaxViTModel

__call__

FlaxViTForImageClassification

类 transformers.FlaxViTForImageClassification

__call__

call

call

call