Transformers 文档

DeiT

Transformers

DeiT

概述

DeiT模型由Hugo Touvron、Matthieu Cord、Matthijs Douze、Francisco Massa、Alexandre Sablayrolles和Hervé Jégou在《通过注意力训练数据高效的图像变换器与蒸馏》中提出。Vision Transformer (ViT)在Dosovitskiy等人，2020年中引入，展示了使用Transformer编码器（类似BERT）可以匹配甚至超越现有的卷积神经网络。然而，该论文中引入的ViT模型需要在昂贵的基础设施上进行数周的训练，并使用外部数据。DeiT（数据高效的图像变换器）是更高效的图像分类变换器，与原始ViT模型相比，需要的数据和计算资源要少得多。

论文的摘要如下：

最近，完全基于注意力的神经网络被证明可以解决图像理解任务，如图像分类。然而，这些视觉变换器需要使用昂贵的基础设施预训练数亿张图像，从而限制了它们的应用。在这项工作中，我们通过在Imagenet上进行训练，产生了一个具有竞争力的无卷积变换器。我们在单台计算机上训练不到3天。我们的参考视觉变换器（86M参数）在没有外部数据的情况下，在ImageNet上实现了83.1%的top-1准确率（单裁剪评估）。更重要的是，我们引入了一种专门针对变换器的师生策略。它依赖于一个蒸馏令牌，确保学生通过注意力从教师那里学习。我们展示了这种基于令牌的蒸馏的优势，特别是在使用卷积网络作为教师时。这使我们在Imagenet（我们获得了高达85.2%的准确率）和迁移到其他任务时，报告了与卷积网络竞争的结果。我们分享了我们的代码和模型。

该模型由nielsr贡献。该模型的TensorFlow版本由amyeroberts添加。

使用提示

与ViT相比，DeiT模型使用所谓的蒸馏令牌来有效地从教师（在DeiT论文中，教师是一个类似ResNet的模型）中学习。蒸馏令牌通过反向传播学习，通过自注意力层与类别（[CLS]）和补丁令牌进行交互。
有两种方法可以对蒸馏模型进行微调，一种是（1）传统方式，仅在类别标记的最终隐藏状态上放置一个预测头，不使用蒸馏信号，或者（2）在类别标记和蒸馏标记上都放置预测头。在这种情况下，[CLS]预测头使用预测头输出与真实标签之间的常规交叉熵进行训练，而蒸馏预测头则使用硬蒸馏（蒸馏头输出与教师预测的标签之间的交叉熵）进行训练。在推理时，取两个头的平均预测作为最终预测。（2）也被称为“带蒸馏的微调”，因为它依赖于已经在下游数据集上微调过的教师模型。就模型而言，（1）对应于DeiTForImageClassification，（2）对应于DeiTForImageClassificationWithTeacher。
请注意，作者还尝试了对（2）进行软蒸馏（在这种情况下，蒸馏预测头使用KL散度进行训练，以匹配教师的softmax输出），但硬蒸馏给出了最佳结果。
所有发布的检查点仅在ImageNet-1k上进行了预训练和微调。没有使用外部数据。这与原始的ViT模型形成对比，后者使用了如JFT-300M数据集/Imagenet-21k等外部数据进行预训练。
DeiT的作者还发布了更高效训练的ViT模型，您可以直接将其插入ViTModel或ViTForImageClassification中。为了模拟在更大数据集上的训练（仅使用ImageNet-1k进行预训练），使用了数据增强、优化和正则化等技术。有4种变体可用（3种不同尺寸）：facebook/deit-tiny-patch16-224、facebook/deit-small-patch16-224、facebook/deit-base-patch16-224和facebook/deit-base-patch16-384。请注意，应使用DeiTImageProcessor来为模型准备图像。

使用缩放点积注意力 (SDPA)

PyTorch 包含一个原生的缩放点积注意力（SDPA）操作符，作为 torch.nn.functional 的一部分。这个函数包含了几种实现，可以根据输入和使用的硬件进行应用。更多信息请参阅官方文档或 GPU 推理页面。

默认情况下，当有可用实现时，SDPA 用于 torch>=2.1.1，但你也可以在 from_pretrained() 中设置 attn_implementation="sdpa" 来明确请求使用 SDPA。

from transformers import DeiTForImageClassification
model = DeiTForImageClassification.from_pretrained("facebook/deit-base-distilled-patch16-224", attn_implementation="sdpa", torch_dtype=torch.float16)
...

为了获得最佳加速效果，我们建议以半精度加载模型（例如 torch.float16 或 torch.bfloat16）。

在本地基准测试（A100-40GB，PyTorch 2.3.0，操作系统 Ubuntu 22.04）中，使用float32和facebook/deit-base-distilled-patch16-224模型，我们在推理过程中看到了以下加速效果。

批量大小	平均推理时间（毫秒），eager模式	平均推理时间（毫秒），sdpa模型	加速比，Sdpa / Eager（倍）
1	8	6	1.33
2	9	6	1.5
4	9	6	1.5
8	8	6	1.33

资源

一份官方的Hugging Face和社区（由🌎表示）资源列表，帮助您开始使用DeiT。

Image Classification

DeiTForImageClassification 由这个示例脚本和笔记本支持。
另请参阅：图像分类任务指南

除此之外：

DeiTForMaskedImageModeling 由这个示例脚本支持。

如果您有兴趣提交资源以包含在此处，请随时打开一个 Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Transformers

DeiT

概述

使用提示

使用缩放点积注意力 (SDPA)

资源

DeiTConfig

类 transformers.DeiTConfig

DeiTFeatureExtractor

类 transformers.DeiTFeatureExtractor

__call__

DeiTImageProcessor

class transformers.DeiTImageProcessor

预处理

DeiTModel

类 transformers.DeiTModel

前进

DeiTForMaskedImageModeling

类 transformers.DeiTForMaskedImageModeling

前进

DeiTForImageClassification

class transformers.DeiTForImageClassification

前进

DeiTForImageClassificationWithTeacher

类 transformers.DeiTForImageClassificationWithTeacher

前进

TFDeiTModel

类 transformers.TFDeiTModel

调用

TFDeiTForMaskedImageModeling

类 transformers.TFDeiTForMaskedImageModeling

调用

TFDeiTForImageClassification

类 transformers.TFDeiTForImageClassification

调用

TFDeiTForImageClassificationWithTeacher

类 transformers.TFDeiTForImageClassificationWithTeacher

调用

call