Transformers

MaskFormer

这是一个最近引入的模型，因此API尚未经过广泛测试。未来可能会有一些错误或轻微的破坏性更改需要修复。如果您发现任何异常，请提交一个Github Issue。

概述

MaskFormer模型由Bowen Cheng、Alexander G. Schwing和Alexander Kirillov在Per-Pixel Classification is Not All You Need for Semantic Segmentation中提出。MaskFormer通过掩码分类范式来解决语义分割问题，而不是执行传统的像素级分类。

论文的摘要如下：

现代方法通常将语义分割制定为每个像素的分类任务，而实例级分割则通过另一种掩码分类来处理。我们的关键见解是：掩码分类足够通用，可以使用完全相同的模型、损失和训练程序以统一的方式解决语义和实例级分割任务。基于这一观察，我们提出了MaskFormer，一个简单的掩码分类模型，它预测一组二进制掩码，每个掩码与一个全局类别标签预测相关联。总体而言，所提出的基于掩码分类的方法简化了语义和全景分割任务的有效方法，并展示了出色的实证结果。特别是，我们观察到当类别数量较大时，MaskFormer优于每个像素分类基线。我们基于掩码分类的方法在当前的语义分割（ADE20K上的55.6 mIoU）和全景分割（COCO上的52.7 PQ）模型中均表现出色。

下图展示了MaskFormer的架构。取自原始论文。

该模型由francesco贡献。原始代码可以在这里找到。

使用提示

MaskFormer的Transformer解码器与DETR的解码器相同。在训练过程中，DETR的作者确实发现使用辅助损失在解码器中是有帮助的，特别是帮助模型输出每个类别的正确数量的对象。如果你将MaskFormerConfig的参数use_auxiliary_loss设置为True，那么在每个解码器层之后会添加预测前馈神经网络和匈牙利损失（FFNs共享参数）。
如果你想在多个节点的分布式环境中训练模型，那么应该更新modeling_maskformer.py文件中MaskFormerLoss类中的get_num_masks函数。在多个节点上训练时，这应该设置为所有节点上目标掩码的平均数量，如原始实现中所示这里。
可以使用MaskFormerImageProcessor来为模型准备图像以及模型的可选目标。
要获得最终的分割结果，根据任务的不同，你可以调用post_process_semantic_segmentation()或post_process_panoptic_segmentation()。这两个任务都可以使用MaskFormerForInstanceSegmentation的输出解决，全景分割接受一个可选的label_ids_to_fuse参数，用于将目标对象（例如天空）的实例融合在一起。

资源

Image Segmentation

所有展示推理以及使用MaskFormer对自定义数据进行微调的笔记本都可以在这里找到。
用于微调 MaskFormer 的脚本，可以使用 Trainer 或 Accelerate，可以在这里找到。

Transformers

MaskFormer

概述

使用提示

资源

MaskFormer 特定输出

类 transformers.models.maskformer.modeling_maskformer.MaskFormerModelOutput

类 transformers.models.maskformer.modeling_maskformer.MaskFormerForInstanceSegmentationOutput

MaskFormerConfig

类 transformers.MaskFormerConfig

from_backbone_and_decoder_configs

MaskFormerImageProcessor

类 transformers.MaskFormerImageProcessor

预处理

encode_inputs

post_process_semantic_segmentation

post_process_instance_segmentation

post_process_panoptic_segmentation

MaskFormerFeatureExtractor

类 transformers.MaskFormerFeatureExtractor

__call__

encode_inputs

post_process_semantic_segmentation

post_process_instance_segmentation

post_process_panoptic_segmentation

MaskFormerModel

类 transformers.MaskFormerModel

前进

MaskFormerForInstanceSegmentation

类 transformers.MaskFormerForInstanceSegmentation

前进

call