Transformers

OneFormer

概述

OneFormer模型由Jitesh Jain、Jiachen Li、MangTik Chiu、Ali Hassani、Nikita Orlov和Humphrey Shi在OneFormer: One Transformer to Rule Universal Image Segmentation中提出。OneFormer是一个通用的图像分割框架，可以在单一的全景数据集上进行训练，以执行语义、实例和全景分割任务。OneFormer使用任务令牌来根据当前任务调整模型，使得架构在训练时是任务引导的，在推理时是任务动态的。

论文的摘要如下：

通用图像分割并不是一个新概念。过去几十年中，统一图像分割的尝试包括场景解析、全景分割，以及最近的新全景架构。然而，这些全景架构并没有真正统一图像分割，因为它们需要在语义、实例或全景分割上单独训练才能达到最佳性能。理想情况下，一个真正通用的框架应该只需训练一次，并在所有三种图像分割任务中实现SOTA性能。为此，我们提出了OneFormer，一个通过多任务一次性训练设计统一分割的通用图像分割框架。我们首先提出了一种任务条件联合训练策略，使得在单个多任务训练过程中能够对每个领域（语义、实例和全景分割）的真实数据进行训练。其次，我们引入了一个任务标记来根据当前任务调整我们的模型，使我们的模型具有任务动态性，以支持多任务训练和推理。第三，我们提出在训练过程中使用查询文本对比损失，以建立更好的任务间和类别间区分。值得注意的是，我们的单一OneFormer模型在ADE20k、CityScapes和COCO上的所有三种分割任务中均优于专门的Mask2Former模型，尽管后者在每种任务上分别训练并使用了三倍的资源。通过新的ConvNeXt和DiNAT骨干网络，我们观察到更多的性能提升。我们相信OneFormer是使图像分割更加通用和易于访问的重要一步。

下图展示了OneFormer的架构。取自原始论文。

该模型由Jitesh Jain贡献。原始代码可以在这里找到。

使用提示

OneFormer在推理过程中需要两个输入：image 和 task token。
在训练期间，OneFormer 仅使用全景注释。
如果你想在多个节点的分布式环境中训练模型，那么应该更新modeling_oneformer.py文件中OneFormerLoss类中的get_num_masks函数。在多个节点上训练时，这应该设置为所有节点上目标掩码的平均数量，如原始实现中所示这里。
可以使用OneFormerProcessor来为模型准备输入图像和任务输入，以及模型的可选目标。OneFormerProcessor将OneFormerImageProcessor和CLIPTokenizer封装到一个实例中，以便同时准备图像和编码任务输入。
为了获得最终的分割结果，根据任务的不同，你可以调用post_process_semantic_segmentation()或post_process_instance_segmentation()或post_process_panoptic_segmentation()。所有这三个任务都可以使用OneFormerForUniversalSegmentation输出来解决，全景分割接受一个可选的label_ids_to_fuse参数，用于将目标对象（例如天空）的实例融合在一起。

资源

一份官方的Hugging Face和社区（由🌎表示）资源列表，帮助您开始使用OneFormer。

关于在自定义数据上进行推理和微调的演示笔记本可以在这里找到。

如果您有兴趣提交资源以包含在此处，请随时打开一个Pull Request，我们将对其进行审查。理想情况下，资源应展示一些新的内容，而不是重复现有的资源。

Transformers

OneFormer

概述

使用提示

资源

OneFormer 特定输出

类 transformers.models.oneformer.modeling_oneformer.OneFormerModelOutput

类 transformers.models.oneformer.modeling_oneformer.OneFormerForUniversalSegmentationOutput

OneFormerConfig

类 transformers.OneFormerConfig

OneFormerImageProcessor

类 transformers.OneFormerImageProcessor

预处理

encode_inputs

post_process_semantic_segmentation

post_process_instance_segmentation

post_process_panoptic_segmentation

OneFormerProcessor

类 transformers.OneFormerProcessor

encode_inputs

post_process_instance_segmentation

post_process_panoptic_segmentation

post_process_semantic_segmentation

OneFormerModel

类 transformers.OneFormerModel

前进

OneFormerForUniversalSegmentation

类 transformers.OneFormerForUniversalSegmentation

前进