Transformers 文档

SegFormer

Transformers

SegFormer

概述

SegFormer模型由Enze Xie、Wenhai Wang、Zhiding Yu、Anima Anandkumar、Jose M. Alvarez和Ping Luo在SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers中提出。该模型由一个分层的Transformer编码器和一个轻量级的全MLP解码头组成，在图像分割基准测试（如ADE20K和Cityscapes）上取得了优异的结果。

论文的摘要如下：

我们提出了SegFormer，一个简单、高效且强大的语义分割框架，它将Transformer与轻量级多层感知器（MLP）解码器统一起来。SegFormer有两个吸引人的特点：1）SegFormer包含一个新颖的分层结构Transformer编码器，它输出多尺度特征。它不需要位置编码，从而避免了位置编码的插值，这在测试分辨率与训练不同时会导致性能下降。2）SegFormer避免了复杂的解码器。提出的MLP解码器聚合了来自不同层的信息，从而结合了局部注意力和全局注意力，以呈现强大的表示。我们展示了这种简单且轻量级的设计是在Transformer上实现高效分割的关键。我们扩展了我们的方法，从SegFormer-B0到SegFormer-B5获得了一系列模型，达到了比之前对应模型显著更好的性能和效率。例如，SegFormer-B4在ADE20K上实现了50.3%的mIoU，参数为64M，比之前最好的方法小5倍，性能提高了2.2%。我们最好的模型SegFormer-B5在Cityscapes验证集上实现了84.0%的mIoU，并在Cityscapes-C上展示了出色的零样本鲁棒性。

下图展示了SegFormer的架构。取自原始论文。

该模型由nielsr贡献。该模型的TensorFlow版本由sayakpaul贡献。原始代码可以在这里找到。

使用提示

SegFormer 由一个分层的 Transformer 编码器和一个轻量级的全 MLP 解码器头组成。 SegformerModel 是分层的 Transformer 编码器（在论文中也被称为 Mix Transformer 或 MiT）。SegformerForSemanticSegmentation 在全 MLP 解码器头的基础上添加了图像语义分割功能。此外，还有 SegformerForImageClassification，它可以用来——你猜对了——对图像进行分类。SegFormer 的作者首先在 ImageNet-1k 上预训练了 Transformer 编码器以进行图像分类。接下来，他们丢弃了分类头，并用全 MLP 解码头替换它。然后，他们在 ADE20K、Cityscapes 和 COCO-stuff 上对模型进行了微调，这些是语义分割的重要基准。所有检查点都可以在 hub 上找到。
开始使用SegFormer的最快方法是查看示例笔记本（展示了在自定义数据上的推理和微调）。还可以查看介绍SegFormer并说明如何在自定义数据上进行微调的博客文章。
TensorFlow 用户应参考此仓库，其中展示了现成的推理和微调。
还可以查看Hugging Face Spaces上的这个交互式演示，在自定义图像上尝试SegFormer模型。
SegFormer 适用于任何输入大小，因为它会将输入填充为可被 config.patch_sizes 整除的大小。
可以使用SegformerImageProcessor来为模型准备图像和相应的分割图。请注意，这个图像处理器相当基础，并不包括原始论文中使用的所有数据增强。原始的预处理流程（例如用于ADE20k数据集的）可以在这里找到。最重要的预处理步骤是图像和分割图被随机裁剪并填充到相同的大小，例如512x512或640x640，然后进行归一化。
需要记住的另一件事是，可以初始化SegformerImageProcessor，并将do_reduce_labels设置为True或False。在某些数据集（如ADE20k）中，0索引用于标注的分割图中的背景。然而，ADE20k在其150个标签中不包括“背景”类。因此，do_reduce_labels用于将所有标签减少1，并确保不为背景类计算损失（即它将标注图中的0替换为255，这是SegformerForSemanticSegmentation使用的损失函数的ignore_index）。然而，其他数据集使用0索引作为背景类，并将此类作为所有标签的一部分。在这种情况下，do_reduce_labels应设置为False，因为也应计算背景类的损失。
与大多数模型一样，SegFormer 有不同的大小，其详细信息可以在下表中找到（取自原始论文的表7）。

模型变体	深度	隐藏层大小	解码器隐藏层大小	参数 (M)	ImageNet-1k Top 1
MiT-b0	[2, 2, 2, 2]	[32, 64, 160, 256]	256	3.7	70.5
MiT-b1	[2, 2, 2, 2]	[64, 128, 320, 512]	256	14.0	78.7
MiT-b2	[3, 4, 6, 3]	[64, 128, 320, 512]	768	25.4	81.6
MiT-b3	[3, 4, 18, 3]	[64, 128, 320, 512]	768	45.2	83.1
MiT-b4	[3, 8, 27, 3]	[64, 128, 320, 512]	768	62.6	83.6
MiT-b5	[3, 6, 40, 3]	[64, 128, 320, 512]	768	82.0	83.8

请注意，上表中的MiT指的是SegFormer中引入的Mix Transformer编码器骨干。关于SegFormer在ADE20k等分割数据集上的结果，请参考论文。

资源

一份官方的Hugging Face和社区（由🌎表示）资源列表，帮助您开始使用SegFormer。

Image Classification

SegformerForImageClassification 支持此示例脚本和笔记本。
图像分类任务指南

语义分割：

SegformerForSemanticSegmentation 由这个 example script 支持。
关于在自定义数据集上微调SegFormer的博客可以在这里找到。
更多关于SegFormer的演示笔记本（包括推理和在自定义数据集上的微调）可以在这里找到。
TFSegformerForSemanticSegmentation 由这个示例笔记本支持。
语义分割任务指南

如果您有兴趣提交资源以包含在此处，请随时打开一个 Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Transformers

SegFormer

概述

使用提示

资源

SegformerConfig

类 transformers.SegformerConfig

SegformerFeatureExtractor

类 transformers.SegformerFeatureExtractor

__call__

post_process_semantic_segmentation

SegformerImageProcessor

类 transformers.SegformerImageProcessor

预处理

post_process_semantic_segmentation

SegformerModel

类 transformers.SegformerModel

前进

SegformerDecodeHead

类 transformers.SegformerDecodeHead

前进

SegformerForImageClassification

class transformers.SegformerForImageClassification

前进

SegformerForSemanticSegmentation

类 transformers.SegformerForSemanticSegmentation

前进

TFSegformerDecodeHead

类 transformers.TFSegformerDecodeHead

调用

TFSegformerModel

类 transformers.TFSegformerModel

调用

TFSegformerForImageClassification

类 transformers.TFSegformerForImageClassification

调用

TFSegformerForSemanticSegmentation

类 transformers.TFSegformerForSemanticSegmentation

调用

call