Transformers

高效前身

该模型目前处于维护模式，我们不接受任何更改其代码的新PR。如果您在运行此模型时遇到任何问题，请重新安装支持此模型的最后一个版本：v4.40.2。您可以通过运行以下命令来执行此操作：pip install -U transformers==4.40.2。

概述

EfficientFormer模型由Yanyu Li, Geng Yuan, Yang Wen, Eric Hu, Georgios Evangelidis, Sergey Tulyakov, Yanzhi Wang, Jian Ren在EfficientFormer: Vision Transformers at MobileNet Speed中提出。EfficientFormer提出了一种维度一致性的纯Transformer模型，可以在移动设备上运行，用于图像分类、目标检测和语义分割等密集预测任务。

论文的摘要如下：

视觉变换器（ViT）在计算机视觉任务中显示出快速进展，在各种基准测试中取得了令人瞩目的结果。然而，由于大量的参数和模型设计，例如注意力机制，基于ViT的模型通常比轻量级卷积网络慢几倍。因此，将ViT部署到实时应用中尤其具有挑战性，特别是在资源受限的硬件上，如移动设备。最近的努力试图通过网络架构搜索或与MobileNet块的混合设计来降低ViT的计算复杂性，但推理速度仍然不尽如人意。这引出了一个重要问题：变换器能否在获得高性能的同时像MobileNet一样快速运行？为了回答这个问题，我们首先重新审视了基于ViT的模型中使用的网络架构和操作符，并识别出低效的设计。然后，我们引入了一种维度一致的纯变换器（不含MobileNet块）作为设计范式。最后，我们进行了延迟驱动的精简，得到了一系列最终模型，称为EfficientFormer。大量实验表明，EfficientFormer在移动设备上的性能和速度方面具有优越性。我们最快的模型EfficientFormer-L1在ImageNet-1K上达到了79.2%的top-1准确率，在iPhone 12（使用CoreML编译）上仅需1.6毫秒的推理延迟，{与MobileNetV2×1.4（1.6毫秒，74.7% top-1）一样快}，而我们最大的模型EfficientFormer-L7在仅7.0毫秒的延迟下获得了83.3%的准确率。我们的工作证明，经过适当设计的变换器可以在保持高性能的同时在移动设备上达到极低的延迟。

该模型由novice03和Bearnardd贡献。原始代码可以在这里找到。该模型的TensorFlow版本由D-Roberts添加。

Transformers

高效前身

概述

文档资源

EfficientFormerConfig

类 transformers.EfficientFormerConfig

EfficientFormerImageProcessor

类 transformers.EfficientFormerImageProcessor

预处理

EfficientFormerModel

类 transformers.EfficientFormerModel

前进

EfficientFormerForImageClassification

类 transformers.EfficientFormerForImageClassification

前进

EfficientFormerForImageClassificationWithTeacher

类 transformers.EfficientFormerForImageClassificationWithTeacher

前进

TFEfficientFormerModel

类 transformers.TFEfficientFormerModel

调用

TFEfficientFormerForImageClassification

类 transformers.TFEfficientFormerForImageClassification

调用

TFEfficientFormerForImageClassificationWithTeacher

类 transformers.TFEfficientFormerForImageClassificationWithTeacher

调用