OWLv2

概述

OWLv2 是由 Matthias Minderer, Alexey Gritsenko, Neil Houlsby 在 Scaling Open-Vocabulary Object Detection 中提出的。OWLv2 通过使用自训练来扩展 OWL-ViT，自训练使用现有的检测器在图像-文本对上生成伪边界框注释。这在零样本对象检测方面取得了相对于先前最先进技术的巨大提升。

论文摘要如下

开放词汇对象检测极大地受益于预训练的视觉-语言模型，但仍受限于可用的检测训练数据量。虽然可以通过使用 Web 图像-文本对作为弱监督来扩展检测训练数据，但这尚未在与图像级预训练相当的规模上完成。在这里，我们使用自训练来扩大检测数据规模，自训练使用现有的检测器在图像-文本对上生成伪边界框注释。扩展自训练的主要挑战是标签空间的选择、伪注释过滤和训练效率。我们提出了 OWLv2 模型和 OWL-ST 自训练配方，以应对这些挑战。OWLv2 在相当的训练规模（约 1000 万个示例）下，已经超越了先前最先进的开放词汇检测器的性能。然而，通过 OWL-ST，我们可以扩展到超过 10 亿个示例，从而产生更大的改进：使用 L/14 架构，OWL-ST 将 LVIS 稀有类别（模型未见过人工边界框注释）的 AP 从 31.2% 提高到 44.6%（相对改进 43%）。OWL-ST 为开放世界定位解锁了 Web 规模的训练，类似于图像分类和语言建模中所见的情况。

OWLv2 高级概述。摘自原始论文。

此模型由 nielsr 贡献。原始代码可以在这里找到。

使用示例

OWLv2 就像它的前身 OWL-ViT 一样，是一个零样本文本条件对象检测模型。OWL-ViT 使用 CLIP 作为其多模态骨干网络，使用类似 ViT 的 Transformer 来获取视觉特征，并使用因果语言模型来获取文本特征。为了将 CLIP 用于检测，OWL-ViT 移除了视觉模型的最终 token 池化层，并将一个轻量级的分类和边界框头部连接到每个 transformer 输出 token。通过用从文本模型获得的类名嵌入替换固定的分类层权重，实现了开放词汇分类。作者首先从头开始训练 CLIP，然后使用二分图匹配损失在标准检测数据集上对带有分类和边界框头部的 CLIP 进行端到端微调。每个图像可以使用一个或多个文本查询来执行零样本文本条件对象检测。

Owlv2ImageProcessor 可以用于调整大小（或重新缩放）和标准化模型的图像，CLIPTokenizer 用于编码文本。Owlv2Processor 将 Owlv2ImageProcessor 和 CLIPTokenizer 包装到单个实例中，以同时编码文本和准备图像。以下示例展示了如何使用 Owlv2Processor 和 Owlv2ForObjectDetection 执行对象检测。

>>> import requests
>>> from PIL import Image
>>> import torch

>>> from transformers import Owlv2Processor, Owlv2ForObjectDetection

>>> processor = Owlv2Processor.from_pretrained("google/owlv2-base-patch16-ensemble")
>>> model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-base-patch16-ensemble")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> text_labels = [["a photo of a cat", "a photo of a dog"]]
>>> inputs = processor(text=text_labels, images=image, return_tensors="pt")
>>> outputs = model(**inputs)

>>> # Target image sizes (height, width) to rescale box predictions [batch_size, 2]
>>> target_sizes = torch.tensor([(image.height, image.width)])
>>> # Convert outputs (bounding boxes and class logits) to Pascal VOC format (xmin, ymin, xmax, ymax)
>>> results = processor.post_process_grounded_object_detection(
...     outputs=outputs, target_sizes=target_sizes, threshold=0.1, text_labels=text_labels
... )
>>> # Retrieve predictions for the first image for the corresponding text queries
>>> result = results[0]
>>> boxes, scores, text_labels = result["boxes"], result["scores"], result["text_labels"]
>>> for box, score, text_label in zip(boxes, scores, text_labels):
...     box = [round(i, 2) for i in box.tolist()]
...     print(f"Detected {text_label} with confidence {round(score.item(), 3)} at location {box}")
Detected a photo of a cat with confidence 0.614 at location [341.67, 23.39, 642.32, 371.35]
Detected a photo of a cat with confidence 0.665 at location [6.75, 51.96, 326.62, 473.13]

资源

一个关于使用 OWLv2 进行零样本和单样本（图像引导）对象检测的演示 notebook 可以在这里找到。
零样本对象检测任务指南

OWLv2 的架构与 OWL-ViT 相同，但是对象检测头部现在还包括一个对象性分类器，用于预测（与查询无关的）预测框包含对象的可能性（而不是背景）。对象性得分可以用于独立于文本查询对预测进行排名或过滤。OWLv2 的使用方式与 OWL-ViT 相同，只是使用了一个新的、更新的图像处理器 (Owlv2ImageProcessor)。

Transformers

OWLv2

概述

使用示例

资源

Owlv2Config

class transformers.Owlv2Config

from_text_vision_configs

Owlv2TextConfig

class transformers.Owlv2TextConfig

Owlv2VisionConfig

class transformers.Owlv2VisionConfig

Owlv2ImageProcessor

class transformers.Owlv2ImageProcessor

preprocess

post_process_object_detection

post_process_image_guided_detection

Owlv2Processor

class transformers.Owlv2Processor

__call__

post_process_grounded_object_detection

post_process_image_guided_detection

Owlv2Model

class transformers.Owlv2Model

forward

get_text_features

get_image_features

Owlv2TextModel

class transformers.Owlv2TextModel

forward

Owlv2VisionModel

class transformers.Owlv2VisionModel

forward

Owlv2ForObjectDetection

class transformers.Owlv2ForObjectDetection

forward

image_guided_detection

call