Transformers

OWLv2

概述

OWLv2 是由 Matthias Minderer、Alexey Gritsenko 和 Neil Houlsby 在 Scaling Open-Vocabulary Object Detection 中提出的。OWLv2 通过自训练扩展了 OWL-ViT，使用现有的检测器在图像-文本对上生成伪框注释。这使得在零样本目标检测方面取得了比之前最先进技术更大的进展。

论文的摘要如下：

开放词汇对象检测从预训练的视觉语言模型中受益匪浅，但仍然受到可用检测训练数据量的限制。虽然可以通过使用网络图像-文本对作为弱监督来扩展检测训练数据，但尚未达到与图像级预训练相当的规模。在这里，我们通过自训练扩展检测数据，自训练使用现有的检测器在图像-文本对上生成伪框注释。扩展自训练的主要挑战包括标签空间的选择、伪注释过滤和训练效率。我们提出了OWLv2模型和OWL-ST自训练方案，以应对这些挑战。OWLv2在可比的训练规模（约1000万个示例）下已经超越了之前最先进的开放词汇检测器的性能。然而，通过OWL-ST，我们可以扩展到超过10亿个示例，从而带来进一步的显著改进：使用L/14架构，OWL-ST将LVIS稀有类别的AP从31.2%提高到44.6%（相对改进43%），这些类别模型没有看到任何人类框注释。OWL-ST为开放世界定位解锁了网络规模的训练，类似于图像分类和语言建模所见的规模。

OWLv2 high-level overview. Taken from the original paper.

该模型由nielsr贡献。原始代码可以在这里找到。

使用示例

OWLv2 与其前身 OWL-ViT 一样，是一个零样本文本条件目标检测模型。OWL-ViT 使用 CLIP 作为其多模态骨干网络，使用类似 ViT 的 Transformer 获取视觉特征，并使用因果语言模型获取文本特征。为了将 CLIP 用于检测，OWL-ViT 移除了视觉模型的最终令牌池化层，并在每个 Transformer 输出令牌上附加了一个轻量级的分类和边界框头。通过用从文本模型获得的类名嵌入替换固定的分类层权重，实现了开放词汇分类。作者首先从头开始训练 CLIP，并使用二分匹配损失在标准检测数据集上对分类和边界框头进行端到端微调。每张图像可以使用一个或多个文本查询来执行零样本文本条件目标检测。

Owlv2ImageProcessor 可以用于调整（或重新缩放）和归一化模型的图像，而 CLIPTokenizer 用于编码文本。Owlv2Processor 将 Owlv2ImageProcessor 和 CLIPTokenizer 包装成一个实例，以便同时编码文本和准备图像。以下示例展示了如何使用 Owlv2Processor 和 Owlv2ForObjectDetection 执行对象检测。

>>> import requests
>>> from PIL import Image
>>> import torch

>>> from transformers import Owlv2Processor, Owlv2ForObjectDetection

>>> processor = Owlv2Processor.from_pretrained("google/owlv2-base-patch16-ensemble")
>>> model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-base-patch16-ensemble")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> texts = [["a photo of a cat", "a photo of a dog"]]
>>> inputs = processor(text=texts, images=image, return_tensors="pt")
>>> outputs = model(**inputs)

>>> # Target image sizes (height, width) to rescale box predictions [batch_size, 2]
>>> target_sizes = torch.Tensor([image.size[::-1]])
>>> # Convert outputs (bounding boxes and class logits) to Pascal VOC Format (xmin, ymin, xmax, ymax)
>>> results = processor.post_process_object_detection(outputs=outputs, target_sizes=target_sizes, threshold=0.1)
>>> i = 0  # Retrieve predictions for the first image for the corresponding text queries
>>> text = texts[i]
>>> boxes, scores, labels = results[i]["boxes"], results[i]["scores"], results[i]["labels"]
>>> for box, score, label in zip(boxes, scores, labels):
...     box = [round(i, 2) for i in box.tolist()]
...     print(f"Detected {text[label]} with confidence {round(score.item(), 3)} at location {box}")
Detected a photo of a cat with confidence 0.614 at location [341.67, 23.39, 642.32, 371.35]
Detected a photo of a cat with confidence 0.665 at location [6.75, 51.96, 326.62, 473.13]

资源

一个关于使用OWLv2进行零样本和单样本（图像引导）目标检测的演示笔记本可以在这里找到。
零样本目标检测任务指南

OWLv2的架构与OWL-ViT相同，但目标检测头现在还包括一个物体分类器，它预测一个预测框包含物体（与背景相对）的（与查询无关的）可能性。物体得分可以用于独立于文本查询对预测进行排序或过滤。 OWLv2的使用与OWL-ViT相同，但使用了新的、更新的图像处理器（Owlv2ImageProcessor）。

Transformers

OWLv2

概述

使用示例

资源

Owlv2Config

类 transformers.Owlv2Config

from_text_vision_configs

Owlv2TextConfig

类 transformers.Owlv2TextConfig

Owlv2VisionConfig

类 transformers.Owlv2VisionConfig

Owlv2ImageProcessor

类 transformers.Owlv2ImageProcessor

预处理

post_process_object_detection

post_process_image_guided_detection

Owlv2Processor

类 transformers.Owlv2Processor

batch_decode

解码

post_process_image_guided_detection

post_process_object_detection

Owlv2Model

类 transformers.Owlv2Model

前进

get_text_features

get_image_features

Owlv2TextModel

类 transformers.Owlv2TextModel

前进

Owlv2VisionModel

class transformers.Owlv2VisionModel

前进

Owlv2ForObjectDetection

类 transformers.Owlv2ForObjectDetection

前进

image_guided_detection