DETR

概述

DETR 模型由 Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov 和 Sergey Zagoruyko 在 End-to-End Object Detection with Transformers 中提出。DETR 由一个卷积骨干网络和Transformer编码器-解码器组成，可以端到端地用于目标检测。它极大地简化了像 Faster-R-CNN 和 Mask-R-CNN 等模型的复杂性，这些模型使用了区域提议、非极大值抑制过程和锚点生成等。此外，DETR 还可以通过简单地在解码器输出之上添加一个掩码头来自然地扩展到执行全景分割。

论文摘要如下：

我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测管道，有效地消除了对许多手工设计组件的需求，例如非极大值抑制过程或显式编码我们对任务先验知识的锚点生成。新框架（称为检测 Transformer 或 DETR）的主要组成部分是一个基于集合的全局损失，该损失通过二分匹配强制进行唯一预测，以及一个 Transformer 编码器-解码器架构。给定一组固定的少量学习到的对象查询，DETR 能够推理对象与全局图像上下文之间的关系，直接并行输出最终的预测集。与许多其他现代检测器不同，新模型在概念上很简单，不需要专门的库。DETR 在具有挑战性的 COCO 目标检测数据集上，展示了与成熟且高度优化的 Faster RCNN 基线相当的准确性和运行时性能。此外，DETR 可以很容易地以统一的方式泛化以生成全景分割。我们表明它显著优于有竞争力的基线。

此模型由 nielsr 贡献。原始代码可以在这里找到。

DETR 工作原理

以下是关于 DetrForObjectDetection 工作原理的 TLDR 解释

首先，图像通过预训练的卷积骨干网络（在论文中，作者使用 ResNet-50/ResNet-101）发送。假设我们还添加了一个批次维度。这意味着骨干网络的输入是形状为 `(batch_size, 3, height, width)` 的张量，假设图像有 3 个颜色通道（RGB）。CNN 骨干网络输出一个新的低分辨率特征图，通常形状为 `(batch_size, 2048, height/32, width/32)`。然后，使用 `nn.Conv2D` 层将其投影以匹配 DETR Transformer 的隐藏维度，默认情况下为 `256`。因此，现在我们有一个形状为 `(batch_size, 256, height/32, width/32)` 的张量。接下来，将特征图展平并转置以获得形状为 `(batch_size, seq_len, d_model)` = `(batch_size, width/32*height/32, 256)` 的张量。因此，与 NLP 模型的一个区别是，序列长度实际上比通常更长，但 `d_model` 更小（在 NLP 中通常为 768 或更高）。

接下来，它通过编码器，输出相同形状的 `encoder_hidden_states`（您可以将它们视为图像特征）。接下来，所谓的**对象查询**通过解码器发送。这是一个形状为 `(batch_size, num_queries, d_model)` 的张量，其中 `num_queries` 通常设置为 100 并用零初始化。这些输入嵌入是作者称之为对象查询的学习到的位置编码，与编码器类似，它们被添加到每个注意力层的输入中。每个对象查询都将在图像中查找特定对象。解码器通过多个自注意力层和编码器-解码器注意力层更新这些嵌入，以输出相同形状的 `decoder_hidden_states`：`(batch_size, num_queries, d_model)`。接下来，在顶部添加两个头用于对象检测：一个线性层用于将每个对象查询分类为其中一个对象或“无对象”，以及一个 MLP 用于预测每个查询的边界框。

该模型使用**二分匹配损失**进行训练：因此我们实际做的是将 N = 100 个对象查询中的每个查询的预测类别 + 边界框与地面真实注释进行比较，并填充到相同的长度 N（因此，如果图像只包含 4 个对象，则 96 个注释将只具有“无对象”作为类别和“无边界框”作为边界框）。使用匈牙利匹配算法找到 N 个查询中的每个查询与 N 个注释中的每个注释之间的最佳一对一映射。接下来，使用标准交叉熵（用于类别）和 L1 与广义 IoU 损失（用于边界框）的线性组合来优化模型的参数。

DETR 可以自然地扩展以执行全景分割（它统一了语义分割和实例分割）。DetrForSegmentation 在 DetrForObjectDetection 的顶部添加了一个分割掩码头。掩码头可以联合训练，也可以分两步训练：首先训练一个 DetrForObjectDetection 模型，以检测“事物”（实例）和“背景”（如树木、道路、天空等背景事物）的边界框，然后冻结所有权重，仅训练掩码头 25 个 epoch。实验表明，这两种方法给出了相似的结果。请注意，预测框是训练能够进行的必要条件，因为匈牙利匹配是使用框之间的距离计算的。

使用技巧

DETR 使用所谓的**对象查询**来检测图像中的对象。查询的数量决定了单张图像中可以检测到的最大对象数量，默认设置为 100（请参阅 DetrConfig 的参数 `num_queries`）。请注意，最好留有余量（在 COCO 中，作者使用了 100，而 COCO 图像中对象的最大数量约为 70）。
DETR 的解码器并行更新查询嵌入。这与 GPT-2 等语言模型不同，后者使用自回归解码而不是并行解码。因此，不使用因果注意力掩码。
DETR 在将图像特征投影到查询和键之前，会在每个自注意力层和交叉注意力层中添加位置嵌入。对于图像的位置嵌入，可以选择固定正弦或学习到的绝对位置嵌入。默认情况下，DetrConfig 的参数 `position_embedding_type` 设置为 `"sine"`。
在训练过程中，DETR 的作者发现使用解码器中的辅助损失很有帮助，特别是为了帮助模型输出每个类别的正确数量的对象。如果将 DetrConfig 的参数 `auxiliary_loss` 设置为 `True`，则在每个解码器层之后添加预测前馈神经网络和匈牙利损失（FFN 共享参数）。
如果您想在多个节点的分布式环境中训练模型，则应更新 *modeling_detr.py* 中 *DetrLoss* 类的 *num_boxes* 变量。在多节点训练时，这应设置为所有节点上目标框的平均数量，如原始实现此处所示。
DetrForObjectDetection 和 DetrForSegmentation 可以使用 timm 库中可用的任何卷积骨干网络进行初始化。例如，通过将 DetrConfig 的 `backbone` 属性设置为 `"tf_mobilenetv3_small_075"`，然后使用该配置初始化模型，即可使用 MobileNet 骨干网络进行初始化。
DETR 会调整输入图像的大小，使最短边至少达到一定像素量，同时最长边最多为 1333 像素。在训练时，使用尺度增强，使最短边随机设置为至少 480 像素，最多 800 像素。在推理时，最短边设置为 800。可以使用 DetrImageProcessor 为模型准备图像（以及 COCO 格式的可选注释）。由于这种尺寸调整，批次中的图像可能具有不同的尺寸。DETR 通过将图像填充到批次中的最大尺寸，并创建像素掩码来指示哪些像素是真实像素/哪些是填充像素来解决此问题。或者，也可以定义自定义的 `collate_fn` 以使用 `~transformers.DetrImageProcessor.pad_and_create_pixel_mask` 将图像批处理在一起。
图像尺寸将决定内存使用量，从而决定 `batch_size`。建议每 GPU 使用批处理大小为 2。更多信息请参阅此 Github 线程。

有三种实例化 DETR 模型的方法（取决于您的偏好）

选项 1：实例化带有整个模型预训练权重的 DETR

>>> from transformers import DetrForObjectDetection

>>> model = DetrForObjectDetection.from_pretrained("facebook/detr-resnet-50")

选项 2：实例化带有随机初始化 Transformer 权重但骨干网络预训练权重的 DETR

>>> from transformers import DetrConfig, DetrForObjectDetection

>>> config = DetrConfig()
>>> model = DetrForObjectDetection(config)

选项 3：实例化带有随机初始化骨干网络 + Transformer 权重的 DETR

>>> config = DetrConfig(use_pretrained_backbone=False)
>>> model = DetrForObjectDetection(config)

总结一下，请看下表

任务	目标检测	实例分割	全景分割
描述	预测图像中对象的边界框和类别标签	预测图像中对象（即实例）的掩码	预测图像中对象（即实例）以及“stuff”（即背景事物，如树木和道路）的掩码
模型	DetrForObjectDetection	DetrForSegmentation	DetrForSegmentation
示例数据集	COCO 检测	COCO 检测，COCO 全景	COCO 全景
提供给 DetrImageProcessor 的注释格式	{'image_id': `int`, 'annotations': `list[Dict]` } 每个 Dict 都是一个 COCO 对象注释	{'image_id': `int`, 'annotations': `list[Dict]`} (COCO 检测情况下) 或 {'file_name': `str`, 'image_id': `int`, 'segments_info': `list[Dict]`} (COCO 全景情况下)	{'file_name': `str`, 'image_id': `int`, 'segments_info': `list[Dict]`} 和 masks_path（包含掩码 PNG 文件的目录路径）
后处理（即将模型输出转换为 Pascal VOC 格式）	`post_process()`	`post_process_segmentation()`	`post_process_segmentation()`、`post_process_panoptic()`
评估器	`CocoEvaluator` with `iou_types="bbox"`	`CocoEvaluator` with `iou_types="bbox"` or `"segm"`	`CocoEvaluator` with `iou_tupes="bbox"` or `"segm"`, `PanopticEvaluator`

简而言之，应首先将数据准备为 COCO 检测或 COCO 全景格式，然后使用 DetrImageProcessor 创建 `pixel_values`、`pixel_mask` 和可选的 `labels`，然后可以使用这些数据训练（或微调）模型。对于评估，应首先使用 DetrImageProcessor 的后处理方法之一转换模型输出。这些输出可以提供给 `CocoEvaluator` 或 `PanopticEvaluator`，它们允许您计算平均精度 (mAP) 和全景质量 (PQ) 等指标。后者对象在原始存储库中实现。有关评估的更多信息，请参阅示例笔记本。

资源

Hugging Face 官方和社区（以 🌎 标示）资源列表，助您快速开始使用 DETR。

物体检测

所有演示在自定义数据集上微调 DetrForObjectDetection 和 DetrForSegmentation 的示例笔记本都可以在此处找到。
使用 Trainer 或 Accelerate 微调 DetrForObjectDetection 的脚本可以在此处找到。
另请参阅：目标检测任务指南。

如果您有兴趣在此处提交资源，请随时开启 Pull Request，我们将对其进行审查！该资源最好能展示一些新内容，而不是重复现有资源。

DetrConfig

类 transformers.DetrConfig

< 来源 >

( use_timm_backbone = True backbone_config = None num_channels = 3 num_queries = 100 encoder_layers = 6 encoder_ffn_dim = 2048 encoder_attention_heads = 8 decoder_layers = 6 decoder_ffn_dim = 2048 decoder_attention_heads = 8 encoder_layerdrop = 0.0 decoder_layerdrop = 0.0 is_encoder_decoder = True activation_function = 'relu' d_model = 256 dropout = 0.1 attention_dropout = 0.0 activation_dropout = 0.0 init_std = 0.02 init_xavier_std = 1.0 auxiliary_loss = False position_embedding_type = 'sine' backbone = 'resnet50' use_pretrained_backbone = True backbone_kwargs = None dilation = False class_cost = 1 bbox_cost = 5 giou_cost = 2 mask_loss_coefficient = 1 dice_loss_coefficient = 1 bbox_loss_coefficient = 5 giou_loss_coefficient = 2 eos_coefficient = 0.1 **kwargs )

参数

use_timm_backbone (bool, 可选, 默认为 True) — 是否使用 `timm` 库作为骨干网络。如果设置为 `False`，将使用 AutoBackbone API。
backbone_config (PretrainedConfig 或 dict, 可选) — 骨干模型的配置。仅在 `use_timm_backbone` 设置为 `False` 的情况下使用，此时它将默认为 `ResNetConfig()`。
num_channels (int, 可选, 默认为 3) — 输入通道的数量。
num_queries (int, 可选, 默认为 100) — 对象查询的数量，即检测槽的数量。这是 DetrModel 在单个图像中可以检测到的最大对象数量。对于 COCO，我们推荐 100 个查询。
d_model (int, 可选, 默认为 256) — 此参数是通用维度参数，定义了编码器层和解码器层中的投影参数等组件的维度。
encoder_layers (int, 可选, 默认为 6) — 编码器层的数量。
decoder_layers (int, 可选, 默认为 6) — 解码器层的数量。
encoder_attention_heads (int, 可选, 默认为 8) — Transformer 编码器中每个注意力层的注意力头数量。
decoder_attention_heads (int, 可选, 默认为 8) — Transformer 解码器中每个注意力层的注意力头数量。
decoder_ffn_dim (int, 可选, 默认为 2048) — 解码器中“中间”（通常称为前馈）层的维度。
encoder_ffn_dim (int, 可选, 默认为 2048) — 解码器中“中间”（通常称为前馈）层的维度。
activation_function (str 或 function, 可选, 默认为 "relu") — 编码器和池化器中的非线性激活函数（函数或字符串）。如果为字符串，则支持 `"gelu"`、`"relu"`、`"silu"` 和 `"gelu_new"`。
dropout (float, 可选, 默认为 0.1) — 嵌入、编码器和池化器中所有全连接层的 dropout 概率。
attention_dropout (float, 可选, 默认为 0.0) — 注意力概率的 dropout 比率。
activation_dropout (float, 可选, 默认为 0.0) — 全连接层内部激活的 dropout 比率。
init_std (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 `truncated_normal_initializer` 的标准差。
init_xavier_std (float, 可选, 默认为 1) — HM Attention 模块中 Xavier 初始化增益的缩放因子。
encoder_layerdrop (float, 可选, 默认为 0.0) — 编码器的 LayerDrop 概率。更多详情请参阅 [LayerDrop 论文](参见 https://huggingface.co/papers/1909.11556)。
decoder_layerdrop (float, 可选, 默认为 0.0) — 解码器的 LayerDrop 概率。更多详情请参阅 [LayerDrop 论文](参见 https://huggingface.co/papers/1909.11556)。
auxiliary_loss (bool, 可选, 默认为 False) — 是否使用辅助解码损失（每个解码器层的损失）。
position_embedding_type (str, 可选, 默认为 "sine") — 在图像特征顶部使用的位置嵌入类型。可选项为 `"sine"` 或 `"learned"`。
backbone (str, 可选, 默认为 "resnet50") — 当 `backbone_config` 为 `None` 时使用的骨干网络名称。如果 `use_pretrained_backbone` 为 `True`，这将从 timm 或 transformers 库加载相应的预训练权重。如果 `use_pretrained_backbone` 为 `False`，这将加载骨干网络的配置，并使用该配置以随机权重初始化骨干网络。
use_pretrained_backbone (bool, 可选, True) — 是否使用骨干网络的预训练权重。
backbone_kwargs (dict, 可选) — 加载检查点时要传递给 AutoBackbone 的关键字参数，例如 `{'out_indices': (0, 1, 2, 3)}`。如果设置了 `backbone_config`，则不能指定此参数。
dilation (bool, 可选, 默认为 False) — 是否在最后一个卷积块（DC5）中用空洞卷积代替步幅。仅在 `use_timm_backbone` = `True` 时支持。
class_cost (float, 可选, 默认为 1) — 匈牙利匹配成本中分类错误的相对权重。
bbox_cost (float, 可选, 默认为 5) — 匈牙利匹配成本中边界框坐标 L1 误差的相对权重。
giou_cost (float, 可选, 默认为 2) — 匈牙利匹配成本中边界框广义 IoU 损失的相对权重。
mask_loss_coefficient (float, 可选, 默认为 1) — 全景分割损失中 Focal loss 的相对权重。
dice_loss_coefficient (float, 可选, 默认为 1) — 全景分割损失中 DICE/F-1 损失的相对权重。
bbox_loss_coefficient (float, 可选, 默认为 5) — 目标检测损失中 L1 边界框损失的相对权重。
giou_loss_coefficient (float, 可选, 默认为 2) — 目标检测损失中广义 IoU 损失的相对权重。
eos_coefficient (float, 可选, 默认为 0.1) — 目标检测损失中“无目标”类别的相对分类权重。

这是配置类，用于存储 DetrModel 的配置。它用于根据指定的参数实例化 DETR 模型，定义模型架构。使用默认值实例化配置将产生与 DETR facebook/detr-resnet-50 架构类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请参阅 PretrainedConfig 的文档。

示例

>>> from transformers import DetrConfig, DetrModel

>>> # Initializing a DETR facebook/detr-resnet-50 style configuration
>>> configuration = DetrConfig()

>>> # Initializing a model (with random weights) from the facebook/detr-resnet-50 style configuration
>>> model = DetrModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

from_backbone_config

< 源 >

( backbone_config: PretrainedConfig **kwargs ) → DetrConfig

参数

backbone_config (PretrainedConfig) — 主干网络配置。

DetrConfig

一个配置对象的实例

从预训练的主干模型配置实例化 DetrConfig（或派生类）。

DetrImageProcessor

class transformers.DetrImageProcessor

< 源 >

( format: typing.Union[str, transformers.image_utils.AnnotationFormat] = <AnnotationFormat.COCO_DETECTION: 'coco_detection'> do_resize: bool = True size: typing.Optional[dict[str, int]] = None resample: Resampling = <Resampling.BILINEAR: 2> do_rescale: bool = True rescale_factor: typing.Union[int, float] = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_convert_annotations: typing.Optional[bool] = None do_pad: bool = True pad_size: typing.Optional[dict[str, int]] = None **kwargs )

参数

format (str, 可选, 默认为 "coco_detection") — 注解的数据格式。可以是 “coco_detection” 或 “coco_panoptic” 之一。
do_resize (bool, 可选, 默认为 True) — 控制是否将图像的 (height, width) 尺寸调整为指定的 size。可以通过 preprocess 方法中的 do_resize 参数覆盖。
size (dict[str, int] 可选, 默认为 {"shortest_edge" -- 800, "longest_edge": 1333})：调整大小后图像 (height, width) 尺寸的大小。可以通过 preprocess 方法中的 size 参数覆盖。可用选项包括：
- {"height": int, "width": int}：图像将被调整为精确大小 (height, width)。不保留宽高比。
- {"shortest_edge": int, "longest_edge": int}：图像将被调整为最大大小，同时保持宽高比，并保持最短边小于或等于 shortest_edge，最长边小于或等于 longest_edge。
- {"max_height": int, "max_width": int}：图像将被调整为最大大小，同时保持宽高比，并保持高度小于或等于 max_height，宽度小于或等于 max_width。
resample (PILImageResampling, 可选, 默认为 PILImageResampling.BILINEAR) — 如果调整图像大小，要使用的重采样滤镜。
do_rescale (bool, 可选, 默认为 True) — 控制是否按指定比例 rescale_factor 重新缩放图像。可以通过 preprocess 方法中的 do_rescale 参数覆盖。
rescale_factor (int 或 float, 可选, 默认为 1/255) — 重新缩放图像时要使用的比例因子。可以通过 preprocess 方法中的 rescale_factor 参数覆盖。
do_normalize (bool, 可选, 默认为 True) — 控制是否对图像进行归一化。可以通过 preprocess 方法中的 do_normalize 参数覆盖。
image_mean (float 或 list[float], 可选, 默认为 IMAGENET_DEFAULT_MEAN) — 归一化图像时使用的平均值。可以是单个值或值列表，每个通道一个值。可以通过 preprocess 方法中的 image_mean 参数覆盖。
image_std (float 或 list[float], 可选, 默认为 IMAGENET_DEFAULT_STD) — 归一化图像时使用的标准差值。可以是单个值或值列表，每个通道一个值。可以通过 preprocess 方法中的 image_std 参数覆盖。
do_convert_annotations (bool, 可选, 默认为 True) — 控制是否将注释转换为 DETR 模型期望的格式。将边界框转换为 (center_x, center_y, width, height) 格式并在 [0, 1] 范围内。可以通过 preprocess 方法中的 do_convert_annotations 参数覆盖。
do_pad (bool, 可选, 默认为 True) — 控制是否填充图像。可以通过 preprocess 方法中的 do_pad 参数覆盖。如果为 True，将对图像的底部和右侧用零进行填充。如果提供了 pad_size，图像将填充到指定尺寸。否则，图像将填充到批次的最大高度和宽度。
pad_size (dict[str, int], 可选) — 填充图像的尺寸 {"height": int, "width" int}。必须大于为预处理提供的任何图像尺寸。如果未提供 pad_size，图像将填充到批次中的最大高度和宽度。

构造一个 Detr 图像处理器。

preprocess

< 源 >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] annotations: typing.Union[dict[str, typing.Union[int, str, list[dict]]], list[dict[str, typing.Union[int, str, list[dict]]]], NoneType] = None return_segmentation_masks: typing.Optional[bool] = None masks_path: typing.Union[str, pathlib.Path, NoneType] = None do_resize: typing.Optional[bool] = None size: typing.Optional[dict[str, int]] = None resample = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Union[int, float, NoneType] = None do_normalize: typing.Optional[bool] = None do_convert_annotations: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_pad: typing.Optional[bool] = None format: typing.Union[str, transformers.image_utils.AnnotationFormat, NoneType] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None data_format: typing.Union[str, transformers.image_utils.ChannelDimension] = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None pad_size: typing.Optional[dict[str, int]] = None **kwargs )

参数

images (ImageInput) — 要预处理的图像或图像批次。期望单个或批次图像的像素值范围为 0 到 255。如果传入的图像像素值在 0 到 1 之间，请设置 do_rescale=False。
annotations (AnnotationType 或 list[AnnotationType], 可选) — 与图像或图像批次相关的注释列表。如果注释用于目标检测，则注释应为具有以下键的字典：
- “image_id” (int)：图像 ID。
- “annotations” (list[Dict])：图像的注释列表。每个注释都应为字典。图像可以没有注释，在这种情况下，列表应为空。如果注释用于分割，则注释应为具有以下键的字典：
- “image_id” (int)：图像 ID。
- “segments_info” (list[Dict])：图像的分割列表。每个分割都应为字典。图像可以没有分割，在这种情况下，列表应为空。
- “file_name” (str)：图像的文件名。
return_segmentation_masks (bool, 可选, 默认为 self.return_segmentation_masks) — 是否返回分割掩码。
masks_path (str 或 pathlib.Path, 可选) — 包含分割掩码的目录路径。
do_resize (bool, 可选, 默认为 self.do_resize) — 是否调整图像大小。
size (dict[str, int], 可选, 默认为 self.size) — 调整大小后图像 (height, width) 尺寸的大小。可用选项包括：
- {"height": int, "width": int}：图像将被调整为精确大小 (height, width)。不保留宽高比。
- {"shortest_edge": int, "longest_edge": int}：图像将被调整为最大大小，同时保持宽高比，并保持最短边小于或等于 shortest_edge，最长边小于或等于 longest_edge。
- {"max_height": int, "max_width": int}：图像将被调整为最大大小，同时保持宽高比，并保持高度小于或等于 max_height，宽度小于或等于 max_width。
resample (PILImageResampling, 可选, 默认为 self.resample) — 调整图像大小时使用的重采样滤镜。
do_rescale (bool, 可选, 默认为 self.do_rescale) — 是否重新缩放图像。
rescale_factor (float, 可选, 默认为 self.rescale_factor) — 重新缩放图像时要使用的比例因子。
do_normalize (bool, 可选, 默认为 self.do_normalize) — 是否对图像进行归一化。
do_convert_annotations (bool, 可选, 默认为 self.do_convert_annotations) — 是否将注释转换为模型期望的格式。将边界框从 (top_left_x, top_left_y, width, height) 格式转换为 (center_x, center_y, width, height) 并在相对坐标中。
image_mean (float 或 list[float], 可选, 默认为 self.image_mean) — 归一化图像时使用的平均值。
image_std (float 或 list[float], 可选, 默认为 self.image_std) — 归一化图像时使用的标准差。
do_pad (bool, 可选, 默认为 self.do_pad) — 是否填充图像。如果为 True，将对图像的底部和右侧用零进行填充。如果提供了 pad_size，图像将填充到指定尺寸。否则，图像将填充到批次的最大高度和宽度。
format (str 或 AnnotationFormat, 可选, 默认为 self.format) — 注释的格式。
return_tensors (str 或 TensorType, 可选, 默认为 self.return_tensors) — 要返回的张量类型。如果为 None，将返回图像列表。
data_format (ChannelDimension 或 str, 可选, 默认为 ChannelDimension.FIRST) — 输出图像的通道维度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：图像为 (num_channels, height, width) 格式。
- "channels_last" 或 ChannelDimension.LAST：图像为 (height, width, num_channels) 格式。
- 未设置：使用输入图像的通道维度格式。
input_data_format (ChannelDimension 或 str, 可选) — 输入图像的通道维度格式。如果未设置，将从输入图像推断通道维度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：图像为 (num_channels, height, width) 格式。
- "channels_last" 或 ChannelDimension.LAST：图像为 (height, width, num_channels) 格式。
- "none" 或 ChannelDimension.NONE：图像为 (height, width) 格式。
pad_size (dict[str, int], 可选) — 填充图像的尺寸 {"height": int, "width" int}。必须大于为预处理提供的任何图像尺寸。如果未提供 pad_size，图像将填充到批次中的最大高度和宽度。

预处理图像或图像批次，以便模型可以使用。

post_process_object_detection

< 源 >

( outputs threshold: float = 0.5 target_sizes: typing.Union[transformers.utils.generic.TensorType, list[tuple]] = None ) → list[Dict]

参数

outputs (DetrObjectDetectionOutput) — 模型的原始输出。
threshold (float, 可选) — 保持目标检测预测的分数阈值。
target_sizes (torch.Tensor 或 list[tuple[int, int]], 可选) — 形状为 (batch_size, 2) 的张量或元组列表 (tuple[int, int])，包含批处理中每张图像的目标大小 (height, width)。如果未设置，则不会调整预测的大小。

list[Dict]

一个字典列表，每个字典包含模型预测的批处理中每张图像的分数、标签和框。

将 DetrForObjectDetection 的原始输出转换为 (top_left_x, top_left_y, bottom_right_x, bottom_right_y) 格式的最终边界框。仅支持 PyTorch。

Transformers

DETR

概述

DETR 工作原理

使用技巧

资源

DetrConfig

类 transformers.DetrConfig

from_backbone_config

DetrImageProcessor

class transformers.DetrImageProcessor

preprocess

post_process_object_detection

post_process_semantic_segmentation

post_process_instance_segmentation

post_process_panoptic_segmentation

DetrImageProcessorFast

class transformers.DetrImageProcessorFast

preprocess

post_process_object_detection

post_process_semantic_segmentation

post_process_instance_segmentation

post_process_panoptic_segmentation

DetrFeatureExtractor

class transformers.DetrFeatureExtractor

__call__

post_process_object_detection

post_process_semantic_segmentation

post_process_instance_segmentation

post_process_panoptic_segmentation

DETR 特定的输出

class transformers.models.detr.modeling_detr.DetrModelOutput

class transformers.models.detr.modeling_detr.DetrObjectDetectionOutput

class transformers.models.detr.modeling_detr.DetrSegmentationOutput

DetrModel

class transformers.DetrModel

前向传播

DetrForObjectDetection

class transformers.DetrForObjectDetection

前向传播

DetrForSegmentation

class transformers.DetrForSegmentation

前向传播

call