Transformers 文档

DETR

Transformers

DETR

概述

DETR模型由Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov和Sergey Zagoruyko在End-to-End Object Detection with Transformers中提出。DETR由一个卷积骨干网络和一个编码器-解码器Transformer组成，可以端到端地进行目标检测训练。它大大简化了像Faster-R-CNN和Mask-R-CNN这样的模型的复杂性，这些模型使用了区域提议、非极大值抑制过程和锚点生成等技术。此外，DETR还可以自然地扩展到全景分割，只需在解码器输出上添加一个掩码头即可。

论文的摘要如下：

我们提出了一种新方法，将目标检测视为一个直接的集合预测问题。我们的方法简化了检测流程，有效地消除了对许多手工设计组件的需求，如非极大值抑制过程或锚点生成，这些组件明确编码了我们对任务的先验知识。新框架的主要组成部分，称为DEtection TRansformer或DETR，是一个基于集合的全局损失，通过二分匹配强制唯一预测，以及一个变压器编码器-解码器架构。给定一组固定的学习对象查询，DETR推理对象之间的关系和全局图像上下文，以并行方式直接输出最终的预测集合。新模型在概念上简单，不需要专门的库，与许多其他现代检测器不同。DETR在具有挑战性的COCO目标检测数据集上展示了与成熟且高度优化的Faster RCNN基线相当的准确性和运行时性能。此外，DETR可以轻松推广，以统一的方式生成全景分割。我们表明，它显著优于竞争基线。

该模型由nielsr贡献。原始代码可以在这里找到。

DETR 的工作原理

以下是解释DetrForObjectDetection如何工作的简要说明：

首先，一张图像通过一个预训练的卷积骨干网络（在论文中，作者使用ResNet-50/ResNet-101）。假设我们还添加了一个批次维度。这意味着骨干网络的输入是一个形状为(batch_size, 3, height, width)的张量，假设图像有3个颜色通道（RGB）。CNN骨干网络输出一个新的较低分辨率的特征图，通常形状为(batch_size, 2048, height/32, width/32)。然后使用一个nn.Conv2D层将其投影以匹配DETR的Transformer的隐藏维度，默认情况下为256。所以现在，我们有一个形状为(batch_size, 256, height/32, width/32)的张量。接下来，特征图被展平并转置，以获得形状为(batch_size, seq_len, d_model) = (batch_size, width/32*height/32, 256)的张量。因此，与NLP模型的一个区别是，序列长度实际上比通常的要长，但d_model较小（在NLP中通常为768或更高）。

接下来，这通过编码器发送，输出相同形状的encoder_hidden_states（你可以将这些视为图像特征）。接下来，所谓的对象查询通过解码器发送。这是一个形状为(batch_size, num_queries, d_model)的张量，其中num_queries通常设置为100并初始化为零。这些输入嵌入是作者称为对象查询的学习位置编码，类似于编码器，它们被添加到每个注意力层的输入中。每个对象查询将在图像中寻找特定对象。解码器通过多个自注意力和编码器-解码器注意力层更新这些嵌入，以输出相同形状的decoder_hidden_states：(batch_size, num_queries, d_model)。接下来，在顶部添加两个头用于对象检测：一个线性层用于将每个对象查询分类为其中一个对象或“无对象”，以及一个MLP来预测每个查询的边界框。

模型使用二分匹配损失进行训练：我们实际上做的是将每个N = 100对象查询的预测类别和边界框与真实标注进行比较，填充到相同的长度N（因此，如果图像仅包含4个对象，96个标注将仅具有“无对象”作为类别和“无边界框”作为边界框）。使用匈牙利匹配算法来找到每个N查询与每个N标注之间的最佳一对一映射。接下来，使用标准交叉熵（用于类别）和L1与广义IoU损失的线性组合（用于边界框）来优化模型的参数。

DETR 可以自然地扩展到执行全景分割（统一了语义分割和实例分割）。DetrForSegmentation 在 DetrForObjectDetection 的基础上添加了一个分割掩码头。掩码头可以联合训练，也可以分两步进行，首先训练一个 DetrForObjectDetection 模型来检测“事物”（实例）和“背景”（如树木、道路、天空等）的边界框，然后冻结所有权重，仅训练掩码头 25 个周期。实验表明，这两种方法的结果相似。需要注意的是，预测边界框是训练的必要条件，因为匈牙利匹配是基于边界框之间的距离计算的。

使用提示

DETR 使用所谓的对象查询来检测图像中的对象。查询的数量决定了单张图像中可以检测到的最大对象数量，默认设置为100（参见DetrConfig的参数num_queries）。请注意，留有一些余地是好的（在COCO中，作者使用了100，而COCO图像中的最大对象数量约为70）。
DETR的解码器并行更新查询嵌入。这与GPT-2等语言模型不同，后者使用自回归解码而不是并行解码。因此，不使用因果注意力掩码。
DETR在每个自注意力和交叉注意力层之前将位置嵌入添加到隐藏状态，然后投影到查询和键。对于图像的位置嵌入，可以选择固定的正弦或学习的绝对位置嵌入。默认情况下，DetrConfig的参数position_embedding_type设置为"sine"。
在训练过程中，DETR的作者确实发现使用解码器中的辅助损失是有帮助的，特别是帮助模型输出每个类别的正确数量的对象。如果您将DetrConfig的参数auxiliary_loss设置为True，则在每个解码器层之后添加预测前馈神经网络和匈牙利损失（FFNs共享参数）。
如果你想在多个节点的分布式环境中训练模型，那么应该更新modeling_detr.py文件中DetrLoss类的num_boxes变量。在多个节点上训练时，这应该设置为所有节点上目标框的平均数量，如原始实现中所示这里。
DetrForObjectDetection 和 DetrForSegmentation 可以使用 timm library 中的任何卷积骨干网络进行初始化。例如，可以通过将 DetrConfig 的 backbone 属性设置为 "tf_mobilenetv3_small_075" 来使用 MobileNet 骨干网络进行初始化，然后使用该配置初始化模型。
DETR 调整输入图像的大小，使得最短边至少为一定数量的像素，而最长边最多为1333像素。在训练时，使用尺度增强，使得最短边随机设置为至少480像素，最多800像素。在推理时，最短边设置为800。可以使用DetrImageProcessor来为模型准备图像（以及可选的COCO格式的注释）。由于这种调整大小，批次中的图像可以有不同的尺寸。DETR通过将图像填充到批次中的最大尺寸，并创建一个像素掩码来指示哪些像素是真实的/哪些是填充的，来解决这个问题。或者，也可以定义一个自定义的collate_fn，以便使用~transformers.DetrImageProcessor.pad_and_create_pixel_mask将图像批量处理在一起。
图像的大小将决定使用的内存量，从而决定batch_size。建议每个GPU使用2的批量大小。有关更多信息，请参阅此Github线程。

有三种方法可以实例化一个DETR模型（取决于你的偏好）：

选项1：使用整个模型的预训练权重实例化DETR

>>> from transformers import DetrForObjectDetection

>>> model = DetrForObjectDetection.from_pretrained("facebook/detr-resnet-50")

选项2：使用随机初始化的权重实例化DETR的Transformer，但使用预训练的权重作为骨干网络

>>> from transformers import DetrConfig, DetrForObjectDetection

>>> config = DetrConfig()
>>> model = DetrForObjectDetection(config)

选项3：使用随机初始化的权重实例化DETR，用于骨干网络和Transformer

>>> config = DetrConfig(use_pretrained_backbone=False)
>>> model = DetrForObjectDetection(config)

作为总结，请考虑以下表格：

任务	目标检测	实例分割	全景分割
描述	预测图像中物体周围的边界框和类别标签	预测图像中物体（即实例）周围的掩码	预测图像中物体（即实例）以及“背景”（如树木和道路等背景物体）周围的掩码
模型	DetrForObjectDetection	DetrForSegmentation	DetrForSegmentation
示例数据集	COCO检测	COCO检测, COCO全景	COCO全景
提供给 DetrImageProcessor 的注释格式	{‘image_id’: `int`, ‘annotations’: `List[Dict]`} 每个 Dict 是一个 COCO 对象注释	{‘image_id’: `int`, ‘annotations’: `List[Dict]`} (在 COCO 检测的情况下) 或 {‘file_name’: `str`, ‘image_id’: `int`, ‘segments_info’: `List[Dict]`} (在 COCO 全景的情况下)	{‘file_name’: `str`, ‘image_id’: `int`, ‘segments_info’: `List[Dict]`} 和 masks_path (包含掩码 PNG 文件的目录路径)
后处理 (即将模型的输出转换为Pascal VOC格式)	`post_process()`	`post_process_segmentation()`	`post_process_segmentation()`, `post_process_panoptic()`
评估器	`CocoEvaluator` 带有 `iou_types="bbox"`	`CocoEvaluator` 带有 `iou_types="bbox"` 或 `"segm"`	`CocoEvaluator` 带有 `iou_tupes="bbox"` 或 `"segm"`, `PanopticEvaluator`

简而言之，应该准备COCO检测或COCO全景格式的数据，然后使用 DetrImageProcessor 创建 pixel_values, pixel_mask 和可选的 labels，这些可以用于训练（或微调）模型。对于评估，应该首先使用DetrImageProcessor的后处理方法之一转换模型的输出。这些可以提供给CocoEvaluator或PanopticEvaluator，它们允许你计算诸如平均精度（mAP）和全景质量（PQ）等指标。后者的对象在原始仓库中实现。有关评估的更多信息，请参阅示例笔记本。

资源

一份官方的 Hugging Face 和社区（由🌎表示）资源列表，帮助您开始使用 DETR。

Object Detection

所有展示如何在自定义数据集上微调DetrForObjectDetection和DetrForSegmentation的示例笔记本都可以在这里找到。
用于微调DetrForObjectDetection的脚本，使用Trainer或Accelerate，可以在这里找到。
另请参阅：Object detection task guide。

如果您有兴趣提交资源以包含在此处，请随时打开一个 Pull Request，我们将进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Transformers

DETR

概述

DETR 的工作原理

使用提示

资源

DetrConfig

类 transformers.DetrConfig

from_backbone_config

DetrImageProcessor

类 transformers.DetrImageProcessor

预处理

post_process_object_detection

post_process_semantic_segmentation

post_process_instance_segmentation

post_process_panoptic_segmentation

DetrImageProcessorFast

类 transformers.DetrImageProcessorFast

预处理

post_process_object_detection

post_process_semantic_segmentation

post_process_instance_segmentation

post_process_panoptic_segmentation

DetrFeatureExtractor

类 transformers.DetrFeatureExtractor

__call__

post_process_object_detection

post_process_semantic_segmentation

post_process_instance_segmentation

post_process_panoptic_segmentation

DETR 特定输出

类 transformers.models.detr.modeling_detr.DetrModelOutput

类 transformers.models.detr.modeling_detr.DetrObjectDetectionOutput

class transformers.models.detr.modeling_detr.DetrSegmentationOutput

DetrModel

类 transformers.DetrModel

前进

DetrForObjectDetection

类 transformers.DetrForObjectDetection

前进

DetrForSegmentation

类 transformers.DetrForSegmentation

前进

call