Transformers

RT-DETR

概述

RT-DETR模型由Wenyu Lv、Yian Zhao、Shangliang Xu、Jinman Wei、Guanzhong Wang、Cheng Cui、Yuning Du、Qingqing Dang、Yi Liu在DETRs Beat YOLOs on Real-time Object Detection中提出。

RT-DETR 是一个目标检测模型，全称为“实时检测变换器”。该模型旨在执行目标检测任务，重点在于实现实时性能的同时保持高准确性。RT-DETR 利用在深度学习各个领域中广受欢迎的变换器架构，处理图像以识别和定位其中的多个对象。

论文的摘要如下：

最近，基于端到端变压器的检测器（DETRs）取得了显著的性能。然而，DETRs高计算成本的问题尚未得到有效解决，限制了它们的实际应用，并阻碍了它们充分利用无需后处理（如非极大值抑制（NMS））的优势。在本文中，我们首先分析了现代实时目标检测器中NMS对推理速度的影响，并建立了一个端到端的速度基准。为了避免NMS引起的推理延迟，我们提出了实时检测变压器（RT-DETR），据我们所知，这是第一个实时端到端目标检测器。具体来说，我们设计了一个高效的混合编码器，通过解耦尺度内交互和跨尺度融合来高效处理多尺度特征，并提出了IoU感知查询选择以改进目标查询的初始化。此外，我们提出的检测器支持通过使用不同的解码器层灵活调整推理速度，而无需重新训练，这有助于实时目标检测器的实际应用。我们的RT-DETR-L在COCO val2017上达到了53.0%的AP，在T4 GPU上达到了114 FPS，而RT-DETR-X达到了54.8%的AP和74 FPS，在速度和准确性上都优于所有相同规模的YOLO检测器。此外，我们的RT-DETR-R50达到了53.1%的AP和108 FPS，在准确性上比DINO-Deformable-DETR-R50高出2.2%的AP，在FPS上高出约21倍。

RT-DETR performance relative to YOLO models. Taken from the original paper.

该模型版本由rafaelpadilla和sangbumchoi贡献。原始代码可以在这里找到。

使用提示

最初，使用预训练的卷积神经网络处理图像，具体来说，是原始代码中引用的Resnet-D变体。该网络从架构的最后三层提取特征。随后，使用混合编码器将多尺度特征转换为图像特征的序列数组。然后，使用配备辅助预测头的解码器来优化对象查询。此过程有助于直接生成边界框，无需任何额外的后处理即可获取边界框的logits和坐标。

>>> import torch
>>> import requests

>>> from PIL import Image
>>> from transformers import RTDetrForObjectDetection, RTDetrImageProcessor

>>> url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = RTDetrImageProcessor.from_pretrained("PekingU/rtdetr_r50vd")
>>> model = RTDetrForObjectDetection.from_pretrained("PekingU/rtdetr_r50vd")

>>> inputs = image_processor(images=image, return_tensors="pt")

>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> results = image_processor.post_process_object_detection(outputs, target_sizes=torch.tensor([(image.height, image.width)]), threshold=0.3)

>>> for result in results:
...     for score, label_id, box in zip(result["scores"], result["labels"], result["boxes"]):
...         score, label = score.item(), label_id.item()
...         box = [round(i, 2) for i in box.tolist()]
...         print(f"{model.config.id2label[label]}: {score:.2f} {box}")
sofa: 0.97 [0.14, 0.38, 640.13, 476.21]
cat: 0.96 [343.38, 24.28, 640.14, 371.5]
cat: 0.96 [13.23, 54.18, 318.98, 472.22]
remote: 0.95 [40.11, 73.44, 175.96, 118.48]
remote: 0.92 [333.73, 76.58, 369.97, 186.99]

资源

一份官方的Hugging Face和社区（由🌎表示）资源列表，帮助您开始使用RT-DETR。

Object Detection

用于微调 RTDetrForObjectDetection 的脚本，使用 Trainer 或 Accelerate 可以在这里找到。
另请参阅：Object detection task guide。
关于在自定义数据集上进行推理和微调RT-DETR的Notebooks可以在这里找到。🌎

Transformers

RT-DETR

概述

使用提示

资源

RTDetrConfig

类 transformers.RTDetrConfig

from_backbone_configs

RTDetrResNetConfig

类 transformers.RTDetrResNetConfig

RTDetrImageProcessor

类 transformers.RTDetrImageProcessor

预处理

post_process_object_detection

RTDetrImageProcessorFast

类 transformers.RTDetrImageProcessorFast

预处理

post_process_object_detection

RTDetrModel

类 transformers.RTDetrModel

前进

RTDetrForObjectDetection

类 transformers.RTDetrForObjectDetection

前进

RTDetrResNetBackbone

类 transformers.RTDetrResNetBackbone

前进