Transformers文档

RT-DETR

Hugging Face's logo
加入Hugging Face社区

并获得增强文档体验的访问权限

开始使用

RT-DETR

概述

RT-DETR模型由Wenyu Lv、Yian Zhao、Shangliang Xu、Jinman Wei、Guanzhong Wang、Cheng Cui、Yuning Du、Qingqing Dang、Yi Liu在《DETRs Beat YOLOs on Real-time Object Detection》一文中提出,链接为https://arxiv.org/abs/2304.08069

RT-DETR是一种目标检测模型,代表“实时检测Transformer”。该模型旨在以高效处理图像,识别并定位图像中的多个对象,同时实现高精度的实时性能。

以下是论文的摘要:

近年来,基于端到端Transformer的检测器(DETRs)取得了显著的性能。然而,DETRs的高计算成本问题尚未得到有效解决,限制了其实际应用的推广,也无法充分利用无后处理(如非极大值抑制NMS)的优势。在本文中,我们首先分析了NMS对现代实时目标检测器推理速度的影响,并建立了一个端到端速度基准。为了避免NMS带来的推理延迟,我们提出了实时检测Transformer(RT-DETR),据悉,它是第一个实时端到端目标检测器。具体而言,我们设计了一个高效混合编码器,通过解耦内部尺度交互和跨尺度融合,以有效处理多尺度特征,并提出形状不变交并比(IoU)感知查询选择来优化对象查询的初始化。此外,所提出的检测器通过使用不同的解码器层来灵活调整推理速度,无需重新训练,从而促进了实时目标检测器的实际应用。我们的RT-DETR-L在COCO val2017上达到53.0%的AP,在T4 GPU上达到114 FPS,而RT-DETR-X达到54.8%的AP和74 FPS,在速度和精度上均优于同一规模的所有YOLO检测器。此外,我们的RT-DETR-R50实现53.1%的AP和108 FPS,在精度上优于DINO-Deformable-DETR-R50 2.2%,在FPS上大约快21倍。

drawing RT-DETR相对于YOLO模型的表现。图片来自原始论文

本模型由rafaelpadillasangbumchoi贡献。原始代码可在此处找到。

使用技巧

起初,图像通过一个预训练的卷积神经网络进行处理,具体是原始代码中引用的Resnet-D变体。该网络从架构的最后一层提取特征。随后,使用一个混合编码器将多尺度特征转换为图像特征的序列数组。然后,使用具有辅助预测头的解码器对对象查询进行细化。这个过程直接生成边界框,无需任何额外的后处理以获取边界框的logits和坐标。

>>> import torch
>>> import requests

>>> from PIL import Image
>>> from transformers import RTDetrForObjectDetection, RTDetrImageProcessor

>>> url = 'http://images.cocodataset.org/val2017/000000039769.jpg' 
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = RTDetrImageProcessor.from_pretrained("PekingU/rtdetr_r50vd")
>>> model = RTDetrForObjectDetection.from_pretrained("PekingU/rtdetr_r50vd")

>>> inputs = image_processor(images=image, return_tensors="pt")

>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> results = image_processor.post_process_object_detection(outputs, target_sizes=torch.tensor([image.size[::-1]]), threshold=0.3)

>>> for result in results:
...     for score, label_id, box in zip(result["scores"], result["labels"], result["boxes"]):
...         score, label = score.item(), label_id.item()
...         box = [round(i, 2) for i in box.tolist()]
...         print(f"{model.config.id2label[label]}: {score:.2f} {box}")
sofa: 0.97 [0.14, 0.38, 640.13, 476.21]
cat: 0.96 [343.38, 24.28, 640.14, 371.5]
cat: 0.96 [13.23, 54.18, 318.98, 472.22]
remote: 0.95 [40.11, 73.44, 175.96, 118.48]
remote: 0.92 [333.73, 76.58, 369.97, 186.99]

资源

一份官方 Hugging Face 和社区(通过 🌎 标识)资源列表,以帮助您开始使用 RT-DETR。

目标检测

RTDetrConfig

transformers.RTDetrConfig

< >

( initializer_range = 0.01 initializer_bias_prior_prob = None layer_norm_eps = 1e-05 batch_norm_eps = 1e-05 backbone_config = None backbone = None use_pretrained_backbone = False use_timm_backbone = False backbone_kwargs = None encoder_hidden_dim = 256 encoder_in_channels = [512, 1024, 2048] feat_strides = [8, 16, 32] encoder_layers = 1 encoder_ffn_dim = 1024 encoder_attention_heads = 8 dropout = 0.0 activation_dropout = 0.0 encode_proj_layers = [2] positional_encoding_temperature = 10000 encoder_activation_function = 'gelu' activation_function = 'silu' eval_size = None normalize_before = False hidden_expansion = 1.0 d_model = 256 num_queries = 300 decoder_in_channels = [256, 256, 256] decoder_ffn_dim = 1024 num_feature_levels = 3 decoder_n_points = 4 decoder_layers = 6 decoder_attention_heads = 8 decoder_activation_function = 'relu' attention_dropout = 0.0 num_denoising = 100 label_noise_ratio = 0.5 box_noise_scale = 1.0 learn_initial_query = False anchor_image_size = None disable_custom_kernels = True with_box_refine = True is_encoder_decoder = True matcher_alpha = 0.25 matcher_gamma = 2.0 matcher_class_cost = 2.0 matcher_bbox_cost = 5.0 matcher_giou_cost = 2.0 use_focal_loss = True auxiliary_loss = True focal_loss_alpha = 0.75 focal_loss_gamma = 2.0 weight_loss_vfl = 1.0 weight_loss_bbox = 5.0 weight_loss_giou = 2.0 eos_coefficient = 0.0001 **kwargs )

参数

  • initializer_range (float, 可选, 默认为0.01) — 初始化所有权重矩阵使用的截断正态初始化器的标准差。
  • enc_score_head和class_embed偏差的偏差初始化器的先验概率。如果为None,则在使用模型权重初始化时计算为prior_prob = 1 / (num_labels + 1)-piecewise-convolutional-neural-network.
  • batch_norm_eps (float, 可选, 默认为 1e-05) — 批标准化层使用的 epsilon。
  • backbone_config (Dict, 可选, 默认为 RTDetrResNetConfig()) — 架构模型的配置。
  • backbone (str, 可选) —当 backbone_configNone 时使用的架构名称。如果 use_pretrained_backboneTrue,则从 timm 或 transformers 库加载相应预训练权重。如果 use_pretrained_backboneFalse,则加载架构的配置并使用随机权重初始化架构。
  • use_pretrained_backbone (bool, 可选, 默认为 False) — 是否使用预训练的骨干网络权重。
  • use_timm_backbone (bool, 可选, 默认为 False) — 是否从 timm 库加载 backbone。如果为 False,则从 transformers 库加载骨干网络。
  • backbone_kwargs (字典, 可选) — 在从检查点加载时传递给 AutoBackbone 的关键字参数,例如 {'out_indices': (0, 1, 2, 3)}。如果设置了 backbone_config,则不能指定。
  • encoder_ffn_dimint可选,默认为1024)— 解码器中“中间”(通常称为前馈)层的维度。
  • encoder_attention_headsint可选,默认为8)— 每个Transformer编码器注意力层的注意力头数量。
  • dropoutfloat可选,默认为0.0)— 所有dropout层的比率。
  • activation_dropout (float, 可选,默认为 0.0) — 完全连接层内激活函数的dropout比率。
  • encode_proj_layers (List[int], 可选,默认为 [2]) — 用于编码器的投影层的索引。
  • positional_encoding_temperature (int, 可选,默认为 10000) — 用于生成位置编码的温度参数。
  • encoder_activation_function (str, 可选, 默认值为 "gelu") — 编码器中的非线性激活函数(函数或字符串)。如果为字符串,则支持 "gelu""relu""silu""gelu_new"
  • activation_function (str, 可选, 默认值为 "silu") — 普通层中的非线性激活函数(函数或字符串)。如果为字符串,则支持 "gelu""relu""silu""gelu_new"
  • eval_size (Tuple[int, int], 可选) — 在考虑步长后计算位置嵌入的有效高度和宽度的宽度和高度。
  • normalize_before (bool, 可选, 默认为 False) — 确定是否在 Transformer 编码器层的自注意力模块和前馈模块之前应用层归一化。
  • hidden_expansion (float, 可选, 默认为 1.0) — RepVGGBlock 和 CSPRepLayer 层维度大小的扩展比率。
  • d_model (int, 可选, 默认为 256) — 除了混合编码器之外的层次维数。
  • num_queries (int, 可选, 默认为 300) — 目标查询数。
  • decoder_in_channels(《码表输入通道数》,可选,默认值 [256, 256, 256])—— 解码器多级功能的维度。
  • decoder_ffn_dim(《FFN维度》,int可选,默认值 1024)—— 解码器中“中间”层(通常称为前馈网络)的维度。
  • num_feature_levels(《特征级别数》,int可选,默认值 3)—— 输入特征级别的数量。
  • decoder_n_points(《解码器采样点数》,int可选,默认值 4)—— 解码器中每个注意力头在每个特征级别所采样的键的数量。
  • decoder_layers (int, 可选, 默认为6) — 解码器层的数量。
  • decoder_attention_heads (int, 可选, 默认为8) — Transformer解码器中每个注意力层的注意力头的数量。
  • decoder_activation_function (str, 可选, 默认为"relu") — 解码器中的非线性激活函数(函数或字符串)。如果为字符串,则支持"gelu""relu""silu""gelu_new"
  • attention_dropout (float, 可选, 默认为0.0) — 注意力概率的dropout比例。
  • num_denoising (int, 可选, 默认为100) — 使用于对比去噪的总去噪任务或查询数。
  • label_noise_ratio (float, 可选, 默认为0.5) — 应添加随机噪声的去噪标签的分数。
  • box_noise_scale (float, 可选, 默认为1.0) — 添加到边界框的噪声的缩放或大小。
  • learn_initial_query (bool, 可选, 默认值为 False) — 指示在训练过程中是否应学习解码器的初始查询嵌入
  • anchor_image_size (元组[int, int], 可选) — 用于在评估过程中生成边界框锚的输入图像的高度和宽度。如果为None,适用自动生成锚
  • disable_custom_kernels (bool, 可选, 默认值为 True) — 是否禁用自定义核
  • with_box_refine (bool, 可选, 默认值为 True) — 是否应用迭代的边界框细化,其中每个解码器层基于上一层的预测细化边界框
  • is_encoder_decoder (bool, 可选, 默认为 True) — 判断架构是否有编码器-解码器结构。
  • matcher_alpha (float, 可选, 默认为 0.25) — 匈牙利匹配器使用的参数alpha。
  • matcher_gamma (float, 可选, 默认为 2.0) — 匈牙利匹配器使用的参数gamma。
  • matcher_class_cost (float, 可选, 默认为 2.0) — 匈牙利匹配器使用的类别损失的相对权重。
  • matcher_bbox_cost (float, 可选, 默认为 5.0) — 使用匈牙利匹配器的边界框损失的相对权重。
  • matcher_giou_cost (float, 可选, 默认为 2.0) — 使用匈牙利匹配器的giou损失的相对权重。
  • use_focal_loss (bool, 可选, 默认为 True) — 通知是否应使用焦点损失的参数。
  • 辅助损失 (bool, 可选, 默认为 True) — 是否使用辅助解码损失(每个解码器层的损失)。
  • 聚焦损失_alpha (float, 可选, 默认为 0.75) — 用于计算聚焦损失的参数 alpha。
  • 聚焦损失_gamma (float, 可选, 默认为 2.0) — 用于计算聚焦损失的参数 gamma。
  • weight_loss_vfl (float, 可选, 默认为1.0) — 在目标检测损失中对可变焦损失相对于权重的相对权重。
  • weight_loss_bbox (float, 可选, 默认为5.0) — 在目标检测损失中对L1边界框损失的相对权重。
  • weight_loss_giou (float, 可选, 默认为2.0) — 在目标检测损失中对广义IoU损失的相对权重。
  • eos_coefficient (float, optional, defaults to 0.0001) — 物体检测损失中‘无物体’类别的相对分类权重。

这是存储 RTDetrModel 配置的配置类。它用于根据指定的参数实例化 RT-DETR 模型,定义模型架构。使用默认值实例化配置将生成与 RT-DETR checkpoion/todo 架构相似的配置。

配置对象继承自 PretrainedConfig 并可用于控制模型输出。有关更多信息,请参阅 PretrainedConfig 的文档。

示例

>>> from transformers import RTDetrConfig, RTDetrModel

>>> # Initializing a RT-DETR configuration
>>> configuration = RTDetrConfig()

>>> # Initializing a model (with random weights) from the configuration
>>> model = RTDetrModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

from_backbone_configs

< >

( backbone_config: PretrainedConfig **kwargs ) RTDetrConfig

参数

返回

RTDetrConfig

一个配置对象实例

使用预训练的骨干模型配置和DETR模型配置实例化一个 RTDetrConfig(或其派生类)。

RTDetrResNetConfig

transformers.RTDetrResNetConfig

< >

( num_channels = 3 embedding_size = 64 hidden_sizes = [256, 512, 1024, 2048] depths = [3, 4, 6, 3] layer_type = 'bottleneck' hidden_act = 'relu' downsample_in_first_stage = False downsample_in_bottleneck = False out_features = None out_indices = None **kwargs )

参数

  • num_channels (int, 可选,默认为 3) — 输入通道数。
  • embedding_size (int, 可选,默认为 64) — 嵌入层维度(隐藏大小)。
  • hidden_sizes (整型列表, 可选, 默认为 [256, 512, 1024, 2048]) — 每个阶段的空间维度(隐含大小)。
  • depths (整型列表, 可选, 默认为 [3, 4, 6, 3]) — 每个阶段的深度(层数)。
  • layer_type (字符串, 可选, 默认为 "bottleneck") — 使用的层可以是 "basic"(用于较小的模型,如 resnet-18 或 resnet-34)或 "bottleneck"(用于较大模型,如 resnet-50 及以上)。
  • hidden_act (字符串, 可选, 默认为 "relu") — 每个块中的非线性激活函数。如果为字符串,支持 "gelu", "relu", "selu""gelu_new"
  • downsample_in_first_stage (bool, 可选, 默认为 False) — 如果设置为 True,第一阶段将使用 2 的 stride 下采样输入。
  • downsample_in_bottleneck (bool, 可选, 默认为 False) — 如果设置为 True,ResNetBottleNeckLayer 中的第一个卷积 1x1 将使用 2 的 stride 下采样输入。
  • out_features (str 列表, 可选) — 如果用作主干网络,输出的特征列表。可以是 "stem""stage1""stage2" 等(取决于模型有多少阶段)。如果没有设置且 out_indices 已设置,则默认为相应的阶段。如果没有设置且 out_indices 未设置,则默认为最后一个阶段。必须与 stage_names 属性中定义的顺序相同。
  • out_indices (整数列表, 可选) — 如果用作骨干网络,则列出要输出的特征索引。可以是0,1,2等(取决于模型的阶段数)。如果没有设置并设置了out_features,则默认为相应阶段。如果没有设置且没有设置out_features,则默认为最后一个阶段。必须与stage_names属性中定义的顺序相同。

这是一个用于存储一个RTDetrResNetBackbone配置的配置类。它用于根据指定的参数实例化一个ResNet模型,定义模型架构。使用默认值实例化配置将得到类似于ResNet microsoft/resnet-50架构的配置。

配置对象继承自 PretrainedConfig 并可用于控制模型输出。有关更多信息,请参阅 PretrainedConfig 的文档。

示例

>>> from transformers import RTDetrResNetConfig, RTDetrResnetBackbone

>>> # Initializing a ResNet resnet-50 style configuration
>>> configuration = RTDetrResNetConfig()

>>> # Initializing a model (with random weights) from the resnet-50 style configuration
>>> model = RTDetrResnetBackbone(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

RTDetrImageProcessor

transformers.RTDetrImageProcessor

< >

( 格式: 联合类型 = <AnnotationFormat.COCO_DETECTION: 'coco_detection'> 是否调整大小: 布尔类型 = True 大小: 字典类型 = None 重采样: 重采样类型 = <Resampling.BILINEAR: 2> 是否缩放: 布尔类型 = True 缩放因子: 联合类型 = 0.00392156862745098 是否归一化: 布尔类型 = False 图像均值: 联合类型 = None 图像标准差: 联合类型 = None 是否转换标注: 布尔类型 = True 是否填充: 布尔类型 = False 填充大小: 可选类型 = None **kwargs )

参数

  • 格式 (str, 可选, 默认值为 AnnotationFormat.COCO_DETECTION) — 标注的数据格式。可以是“coco_detection”或“coco_panoptic”。
  • do_resize (bool, 可选,默认为 True) — 控制是否将图像的高度(height)和宽度(width)尺寸调整为指定的 size。可以在 preprocess 方法的 do_resize 参数中重写。
  • size (Dict[str, int] 可选,默认为 {"height" -- 640, "width": 640}): 调整图像经过调整后的 (height, width) 尺寸。可以在 preprocess 方法的 size 参数中重写。支持的选项有:
    • {"height": int, "width": int}: 图像将被调整至确切尺寸 (height, width)。不保留比例。
    • {"shortest_edge": int, "longest_edge": int}: 图像将被调整至一个最大尺寸,同时保持比例不变,并将最短边设置为小于或等于 shortest_edge,最长边设置为小于或等于 longest_edge
    • {"max_height": int, "max_width": int}: 图像将被调整至一个最大尺寸,同时保持比例不变,并将高度设置为小于或等于 max_height,宽度设置为小于或等于 max_width
  • resample (PILImageResampling, 可选,默认为 PILImageResampling.BILINEAR) — 在调整图像大小时使用的重采样过滤器。
  • do_rescale (bool, 可选,默认为 True) — 控制是否按指定比例 rescale_factor 缩放图像。可以由 preprocess 方法中的 do_rescale 参数覆盖。
  • rescale_factor (intfloat可选,默认为 1/255) — 缩放图像时使用的缩放因子。可以由 preprocess 方法中的 rescale_factor 参数覆盖。控制是否归一化图像。可以由 preprocess 方法中的 do_normalize 参数覆盖。
  • do_normalize (bool可选,默认为 False) — 是否归一化图像。<-- HTML_TAG_END -->
  • image_mean (floatList[float],可选,默认为 IMAGENET_DEFAULT_MEAN) — 在对图像进行归一化时使用的均值。可以是单个值或值的列表,每个通道一个值。可以由 preprocess 方法中的 image_mean 参数覆盖。
  • image_std (floatList[float],可选,默认为 IMAGENET_DEFAULT_STD) — 在对图像进行归一化时使用的标准差。可以是单个值或值的列表,每个通道一个值。可以由 preprocess 方法中的 image_std 参数覆盖。
  • do_convert_annotationsbool,可选,默认为 True)— 控制是否将注释转换为DETR模型期望的格式。将边界框转换为格式 (中心_x, 中心_y, 宽度, 高度) 并在范围 [0, 1] 内。可以由 preprocess 方法中的 do_convert_annotations 参数覆盖。
  • do_pad (bool, optional, defaults to False) — 控制是否填充图像。可以通过 preprocess 方法中的 do_pad 参数重写。如果为 True,则会在图像底部和右侧应用零值填充。如果提供 pad_size,则图像将被填充到指定的尺寸。否则,图像将被填充到批次的最大高度和宽度。
  • pad_size (Dict[str, int], optional) — 填充图像到的大小 {"height": int, "width" int}。必须大于预处理提供的任何图像大小。没有提供 pad_size 时,图像将被填充到批次中的最大高度和宽度。

构建 RT-DETR 图像处理器。

preprocess

< >

( (background-color:aktion.png)images: 并集 annotations: 并集 = None return_segmentation_masks: bool = None masks_path: 并集 = None do_resize: Optional = None size: Optional = None resample = None do_rescale: Optional = None rescale_factor: 并集 = None do_normalize: Optional = None do_convert_annotations: Optional = None image_mean: 并集 = None image_std: 并集 = None do_pad: Optional = None format: 并集 = None return_tensors: 并集 = None data_format: 并集 = <ChannelDimension.FIRST: 'channels_first'> input_data_format: 并集 = None pad_size: Optional = None )

参数

  • images (ImageInput) — 预处理图像或图像批次。期望传入单张图像或图像批次,像素值范围为0到255。如果传入像素值在0到1之间的图像,请将do_rescale=False设置为True。
  • annotations (AnnotationTypeList[AnnotationType],可选) — 与图像或图像批次关联的注释列表。如果注释是用于对象检测的,则注释应是一个包含以下键的字典:
    • “image_id” (int):图像 ID。
    • “annotations” (List[Dict]):图像的注释列表。每个注释应是一个字典。图像可能没有注释,在这种情况下,列表应为空。如果注释是用于分割的,则注释应是一个包含以下键的字典:
      • “image_id” (int):图像 ID。
      • “segments_info” (List[Dict]):图像的段列表。每个段应是一个字典。图像可能没有段,在这种情况下,列表应为空。
      • “file_name” (str):图像的文件名。
    • return_segmentation_masks (bool,可选,默认为 self.return_segmentation_masks) — 是否返回分割掩码。
    • masks_path (strpathlib.Path,可选) — 包含分割掩码的目录的路径。
    • do_resize (bool, 可选, 默认为 self.do_resize) — 是否调整图像大小。
    • size (Dict[str, int], 可选, 默认为 self.size) — 调整大小后的图像的 (高度, 宽度) 尺寸。可用选项有:
      • {"height": int, "width": int}: 图像将调整到确切的 (高度, 宽度) 尺寸。不要保持长宽比。
      • {"shortest_edge": int, "longest_edge": int}: 图像将调整到最大尺寸,同时保持长宽比,并将最短边限制为 shortest_edge 或更小,最长边限制为 longest_edge 或更小。
      • {"max_height": int, "max_width": int}: 图像将调整到最大尺寸,同时保持长宽比,并将高度限制为 max_height 或更小,宽度限制为 max_width 或更小。
    • resample (PILImageResampling, 可选, 默认为 self.resample) — 调整图像大小时使用的重采样过滤器。
    • do_rescale (bool, 可选, 默认为self.do_rescale) — 是否对图像进行缩放。
    • rescale_factor (float, 可选, 默认为self.rescale_factor) — 缩放图像时使用的缩放因子。
    • do_normalize (bool, 可选, 默认为self.do_normalize) — 是否对图像进行归一化。
    • do_convert_annotations (bool, 可选,默认为 self.do_convert_annotations) —— 是否将标注转换为模型预期格式的选择。将边界框从格式(top_left_x, top_left_y, width, height)转换为(center_x, center_y, width, height)并在相对坐标中。
    • image_mean (floatList[float]可选,默认为 self.image_mean) —— 用于图像归一化的均值。
    • image_std (floatList[float]可选,默认为 self.image_std) —— 用于图像归一化的标准差。
    • do_pad (bool, 可选,默认为 self.do_pad) — 是否填充图像。如果 True,将在图像底部和右侧应用填充(使用零)。如果提供了 pad_size,则图像将被填充到指定的维度。否则,图像将被填充到批次的最大高度和宽度。
    • format (strAnnotationFormat, 可选,默认为 self.format) — 注释的格式。
    • return_tensors (strTensorType, 可选,默认为 self.return_tensors) — 返回的张量类型。如果 None,将返回图像列表。
    • data_formatChannelDimensionstr,可选,默认为 ChannelDimension.FIRST) — 输出图像的通道维度格式。可以是以下之一:
      • "channels_first"ChannelDimension.FIRST:图像格式为 (num_channels, height, width)。
      • "channels_last"ChannelDimension.LAST:图像格式为 (height, width, num_channels)。
      • 未设置:使用输入图像的通道维度格式。
    • input_data_formatChannelDimensionstr,可选) — 输入图像的通道维度格式。如果未设置,将推断输入图像的通道维度格式。可以是以下之一:
      • "channels_first"ChannelDimension.FIRST:图像格式为 (num_channels, height, width)。
      • "channels_last"ChannelDimension.LAST:图像格式为 (height, width, num_channels)。
      • "none"ChannelDimension.NONE:图像格式为 (height, width)。
    • pad_sizeDict[str, int],可选) — 填充图像的大小,格式为 {"height": int, "width" int}。该大小必须大于预处理所提供的任何图像大小。如果没有提供 pad_size,则将图像填充到批次中的最大高和宽。

处理图像或图像批次,以便用于模型。

post_process_object_detection

< >

( outputs threshold: float = 0.5 target_sizes: Union = None use_focal_loss: bool = True ) List[Dict]

参数

  • outputs (DetrObjectDetectionOutput) — 模型的原始输出。
  • threshold (float, 可选, 默认值为 0.5) — 保留目标检测预测的成绩阈值。
  • target_sizes (torch.TensorList[Tuple[int, int]]可选) — 形状为 (batch_size, 2) 的 Tensor 或包含每个图像的目标大小 (高度, 宽度) 的元组列表。如果不设置,则不会调整预测大小。
  • use_focal_loss (bool 默认为 True) — 表示是否使用了焦点损失来预测输出的变量。如果为 True,则对每个检测评分应用 sigmoid 进行计算,否则使用 softmax 函数。— HTML_TAG_END —

返回

Dict 列表

一个字典列表,每个字典包含由模型预测的每次图像批次的分数、标签和框。

DetrForObjectDetection 的原始输出转换为 (top_left_x, top_left_y, bottom_right_x, bottom_right_y) 格式的最终边界框。仅支持 PyTorch。

RTDetrModel

transformers.RTDetrModel

< >

( config: RTDetrConfig )

参数

  • config (RTDetrConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不加载模型关联的权重,只加载配置。查看 from_pretrained() 方法以加载模型权重。

RT-DETR 模型(由骨干网络和编码器-解码器组成),输出原始隐藏状态,顶部不带任何头。

此模型继承自 PreTrainedModel。检查超类文档以获取库对其所有模型(如下载或保存、调整输入嵌入大小、修剪头部等)实现的通用方法。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用,并参考 PyTorch 文档以获取与一般使用和行为相关的所有事项。

forward

< >

( pixel_values: FloatTensor pixel_mask: 可选 = None encoder_outputs: 可选 = None inputs_embeds: 可选 = None decoder_inputs_embeds: 可选 = None labels: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None ) transformers.models.rt_detr.modeling_rt_detr.RTDetrModelOutputtuple(torch.FloatTensor)

参数

  • pixel_values (torch.FloatTensor 尺寸为 (batch_size, num_channels, height, width)) — 像素值。如果没有提供,则会忽略填充。使用 AutoImageProcessor 可以获取像素值。有关详细信息,请参阅 RTDetrImageProcessor.call()
  • pixel_mask (torch.LongTensor of shape (batch_size, height, width), optional) — 用于避免在填充像素值上执行注意力机制的掩码。掩码值在 [0, 1] 之间的选择:

    • 1 表示真实像素(即 非掩码),
    • 0 表示填充像素(即 掩码)。

    什么是注意力掩码?

  • encoder_outputs (tuple(tuple(torch.FloatTensor), optional) — Tuple consists of (last_hidden_state, optional: hidden_states, optional: attentions) last_hidden_state of shape (batch_size, sequence_length, hidden_size), optional) is a sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention of the decoder.
  • inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地,您可以直接传递图像的扁平化表示(即骨干网络 + 投影层的输出)而不是传递扁平化特征图。
  • 输出隐藏状态 (布尔型, 可选) — 是否返回所有层的隐藏状态。更多细节请参阅返回张量下的 隐藏状态
  • 返回字典 (布尔型, 可选) — 是否返回 ModelOutput 而不是简单的元组。

返回

transformers.models.rd_detr.modeling_rd_detr.RTDetrModelOutputtorch.FloatTensor 的元组

A transformers.models.rd_detr.modeling_rd_detr.RTDetrModelOutput 或一个由 torch.FloatTensor 组成的元组(如果传递了 return_dict=Falseconfig.return_dict=False 时)包含各种元素,这些元素取决于配置(RDDetrConfig)和输入。

  • 最后一个隐藏状态 (torch.FloatTensor 形状为 (batch_size, num_queries, hidden_size)) — 模型解码器最后层输出的隐藏状态序列。
  • 中间隐藏状态 (torch.FloatTensor 形状为 (batch_size, config.decoder_layers, num_queries, hidden_size)) — 逐层的中间隐藏状态(解码器每层的输出)。
  • 中间对数似然 (torch.FloatTensor 形状为 (batch_size, config.decoder_layers, sequence_length, config.num_labels)) — 逐层的中间对数似然(解码器每层的对数似然)。
  • 中间参考点 (torch.FloatTensor 形状为 (batch_size, config.decoder_layers, num_queries, 4)) — 逐层的中间参考点(解码器每层的参考点)。
  • 解码器隐藏状态 (torch.FloatTensor 的元组,可选,当传递 output_hidden_states=True 或时 config.output_hidden_states=True 返回) — 包含 torch.FloatTensor 的元组(一个用于嵌入的输出,一个用于每层的输出)的形状为 (batch_size, num_queries, hidden_size)。解码器在每层输出中的隐藏状态以及初始嵌入输出。
  • 解码器注意力 (torch.FloatTensor 的元组,可选,当传递 output_attentions=True 或时 config.output_attentions=True 返回) — 每个层的 torch.FloatTensor 的元组(形状为 (batch_size, num_heads, num_queries, num_queries))。解码器的注意力权重,在注意力softmax之后使用,用于计算自注意力头中的加权平均。
  • cross_attentions (torch.FloatTensor 元组,可选项,当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — 包含每个层的 torch.FloatTensor 元组(每个层一个),形状为 (batch_size, num_queries, num_heads, 4, 4)。在注意力softmax之后的编码器跨注意力层的注意力权重,用于在跨注意力头中计算加权平均。
  • encoder_last_hidden_state (形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor,可选项) — 模型编码器最后层的隐藏状态序列。
  • encoder_hidden_states (torch.FloatTensor 元组,可选项,当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — 包含嵌入输出和每个层输出的 torch.FloatTensor 元组(每个层一个),形状为 (batch_size, sequence_length, hidden_size)。在每个层输出以及初始嵌入输出后的编码器隐藏状态。
  • encoder_attentions (torch.FloatTensor 元组,可选项,当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — 包含每个层的 torch.FloatTensor 元组(每个层一个),形状为 (batch_size, num_queries, num_heads, 4, 4)。在注意力softmax之后的编码器注意力权重,用于在自注意力头中计算加权平均。
  • init_reference_points (形状为 (batch_size, num_queries, 4)torch.FloatTensor) —— 通过Transformer解码器传递的初始参考点。
  • enc_topk_logits (形状为 (batch_size, sequence_length, config.num_labels)torch.FloatTensor) —— 预测的边界框分数,其中选择前 config.two_stage_num_proposals 个得分的边界框作为编码阶段中的区域提议。边界框二分类(即前景和背景)的输出。
  • enc_topk_bboxes (形状为 (batch_size, sequence_length, 4)torch.FloatTensor) —— 编码阶段预测的边界框坐标的logits。
  • enc_outputs_class (形状为 (batch_size, sequence_length, config.num_labels)torch.FloatTensor,可选项,当 config.with_box_refine=Trueconfig.two_stage=True 时返回) —— 第一个阶段中,选择前 config.two_stage_num_proposals 个得分的边界框作为区域提议的预测边界框分数。边界框二分类(即前景和背景)的输出。
  • enc_outputs_coord_logits (形状为 (batch_size, sequence_length, 4)torch.FloatTensor,可选项,当 config.with_box_refine=Trueconfig.two_stage=True 时返回) —— 第一个阶段预测的边界框坐标的logits。
  • denoising_meta_values (dict) —— 与去噪相关的额外值的字典。

RTDetrModel 的向前方法,覆盖了 __call__ 特殊方法。

虽然需要在这个函数中定义向前传递的配方,但是应该调用 Module 实例而不是它,因为前者处理预处理和后处理步骤,而后者静默地忽略它们。

示例

>>> from transformers import AutoImageProcessor, RTDetrModel
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("PekingU/rtdetr_r50vd")
>>> model = RTDetrModel.from_pretrained("PekingU/rtdetr_r50vd")

>>> inputs = image_processor(images=image, return_tensors="pt")

>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 300, 256]

RTDetrForObjectDetection

class transformers.RTDetrForObjectDetection

< >

( config: RTDetrConfig )

参数

  • 配置 (RTDetrConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,仅加载配置。查看 from_pretrained() 方法以加载模型权重。

RT-DETR 模型(由骨干网络和编码器-解码器组成),输出边界框和logits,以便进一步解码为得分和类别。

此模型继承自 PreTrainedModel。检查超类文档以获取库对其所有模型(如下载或保存、调整输入嵌入大小、修剪头部等)实现的通用方法。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用,并参考 PyTorch 文档以获取与一般使用和行为相关的所有事项。

forward

< >

( pixel_values: FloatTensor pixel_mask: Optional = None encoder_outputs: Optional = None inputs_embeds: Optional = None decoder_inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) transformers.models.rt_detr.modeling_rt_detr.RTDetrObjectDetectionOutput or tuple(torch.FloatTensor)

参数

  • pixel_values (torch.FloatTensor 形状为 (batch_size, num_channels, height, width)) — 像素值。如果您提供,默认情况下将忽略填充。可以使用 AutoImageProcessor 获取像素值。有关详细信息,请参阅 RTDetrImageProcessor.call()
  • pixel_mask (torch.LongTensor 形状为 (batch_size, height, width)可选) — 用来避免在对填充像素值上执行注意力的掩码。掩码值在 [0, 1] 之间:

    • 1 代表真实像素(即 未掩码),
    • 0 代表填充像素(即 掩码)。
    什么是注意力掩码?
  • encoder_outputs (tuple(tuple(torch.FloatTensor), 可选) — Tuple 包含 (last_hidden_state, 可选: hidden_states, 可选: attentions) last_hidden_state 的形状为 (batch_size, sequence_length, hidden_size)可选),是编码器最后一个层的隐藏状态序列。用于解码器的交叉注意力。
  • inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), 可选) — 可选地,而不是传递扁平化特征图(backbone 加投影层的输出),您可以选择直接传递图像的扁平表示。
  • decoder_inputs_embeds (torch.FloatTensor of shape (batch_size, num_queries, hidden_size), 可选) — 可选地,而不是使用零填充的张量初始化查询,您可以选择直接传递嵌入表示。
  • labels (List[Dict] of len (batch_size,), 可选) — 用于计算双射匹配损失的标签。字典列表,每个字典至少包含以下2个键:‘class_labels’和‘boxes’(图像批次中每个图像的类别标签和边界框分别)。类别标签本身应是一个长度为 (图像中边界框数量,)torch.LongTensor,边界框是一个形状为 (图像中边界框数量, 4)torch.FloatTensor
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关返回张量中 attentions 的更多信息,请参见。
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关返回张量中 hidden_states 的更多信息,请参见。
  • return_dict (bool, 可选) — 是否返回 ModelOutput 而不是一个普通的元组。
  • labels (List[Dict] of len (batch_size,), 可选) — 用于计算双射匹配损失的标签。字典列表,每个字典至少包含以下2个键:‘class_labels’和‘boxes’(图像批次中每个图像的类别标签和边界框分别)。类别标签本身应是一个长度为 (图像中边界框数量,)torch.LongTensor,边界框是一个形状为 (图像中边界框数量, 4)torch.FloatTensor

返回

transformers.models.rt_detr.modeling_rt_detr.RTDetrObjectDetectionOutputtuple(torch.FloatTensor)

一个 transformers.models.rt_detr.modeling_rt_detr.RTDetrObjectDetectionOutput 或一个由 torch.FloatTensor 组成的元组(如果传递了 return_dict=False 或当 config.return_dict=False)包含根据配置(RTDetrConfig)和输入的不同元素。

  • loss (torch.FloatTensor 的形状为 (1,)可选,当提供 labels 时返回) — 经过负对数似然度(交叉熵)和边界框损失的线性组合的总损失。后者定义为 L1 损失和广义尺度不变 IoU 损失的组合。
  • loss_dict (Dict可选) — 包含单独损失的字典。用于记录日志。
  • logits (torch.FloatTensor 的形状为 (batch_size, num_queries, num_classes + 1)) — 所有查询的分类特征(包括没有物体)。
  • pred_boxes (torch.FloatTensor 的形状为 (batch_size, num_queries, 4)) — 所有查询的标准化边界框坐标,表示为 (center_x, center_y, width, height)。这些值在 [0, 1] 内归一化,相对于批次中每个单独图像的大小(不考虑可能的填充)。您可以使用 post_process_object_detection() 检索非归一化(绝对)边界框。
  • auxiliary_outputs (list[Dict]可选) — 可选,只有当激活辅助损失(即 config.auxiliary_loss 设置为 True)且提供了标签时才返回。它是一个包含两个上述键(logitspred_boxes)的字典列表,每个字典对应每个解码器层。
  • 最后一个隐藏状态 (torch.FloatTensor 形状为 (batch_size, num_queries, hidden_size)) — 模型解码器最后层输出的隐藏状态序列。
  • 中间隐藏状态 (torch.FloatTensor 形状为 (batch_size, config.decoder_layers, num_queries, hidden_size)) — 逐层的中间隐藏状态(解码器每层的输出)。
  • intermediate_logits (torch.FloatTensor 的形状为 (batch_size, config.decoder_layers, num_queries, config.num_labels)) — 堆叠的中间特征(解码器的每层的特征)。
  • 中间参考点 (torch.FloatTensor 形状为 (batch_size, config.decoder_layers, num_queries, 4)) — 逐层的中间参考点(解码器每层的参考点)。
  • 解码器隐藏状态 (torch.FloatTensor 的元组,可选,当传递 output_hidden_states=True 或时 config.output_hidden_states=True 返回) — 包含 torch.FloatTensor 的元组(一个用于嵌入的输出,一个用于每层的输出)的形状为 (batch_size, num_queries, hidden_size)。解码器在每层输出中的隐藏状态以及初始嵌入输出。
  • 解码器注意力 (torch.FloatTensor 的元组,可选,当传递 output_attentions=True 或时 config.output_attentions=True 返回) — 每个层的 torch.FloatTensor 的元组(形状为 (batch_size, num_heads, num_queries, num_queries))。解码器的注意力权重,在注意力softmax之后使用,用于计算自注意力头中的加权平均。
  • cross_attentions (torch.FloatTensor 元组,可选项,当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — 包含每个层的 torch.FloatTensor 元组(每个层一个),形状为 (batch_size, num_queries, num_heads, 4, 4)。在注意力softmax之后的编码器跨注意力层的注意力权重,用于在跨注意力头中计算加权平均。
  • encoder_last_hidden_state (形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor,可选项) — 模型编码器最后层的隐藏状态序列。
  • encoder_hidden_states (torch.FloatTensor 元组,可选项,当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — 包含嵌入输出和每个层输出的 torch.FloatTensor 元组(每个层一个),形状为 (batch_size, sequence_length, hidden_size)。在每个层输出以及初始嵌入输出后的编码器隐藏状态。
  • encoder_attentions (torch.FloatTensor 元组,可选项,当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — 包含每个层的 torch.FloatTensor 元组(每个层一个),形状为 (batch_size, num_queries, num_heads, 4, 4)。在注意力softmax之后的编码器注意力权重,用于在自注意力头中计算加权平均。
  • init_reference_points (形状为 (batch_size, num_queries, 4)torch.FloatTensor) —— 通过Transformer解码器传递的初始参考点。
  • enc_topk_logits (torch.FloatTensor 的形状为 (batch_size, sequence_length, config.num_labels)可选,返回当 config.with_box_refine=Trueconfig.two_stage=True 时) — 预测的编码器中边界框坐标的标志。
  • enc_topk_bboxes (torch.FloatTensor 的形状为 (batch_size, sequence_length, 4)可选,返回当 config.with_box_refine=Trueconfig.two_stage=True 时) — 预测的编码器中边界框坐标的标志。
  • enc_outputs_class (形状为 (batch_size, sequence_length, config.num_labels)torch.FloatTensor,可选项,当 config.with_box_refine=Trueconfig.two_stage=True 时返回) —— 第一个阶段中,选择前 config.two_stage_num_proposals 个得分的边界框作为区域提议的预测边界框分数。边界框二分类(即前景和背景)的输出。
  • enc_outputs_coord_logits (形状为 (batch_size, sequence_length, 4)torch.FloatTensor,可选项,当 config.with_box_refine=Trueconfig.two_stage=True 时返回) —— 第一个阶段预测的边界框坐标的logits。
  • denoising_meta_values (dict) —— 与去噪相关的额外值的字典。

RTDetrForObjectDetection 的向前方法覆盖了 __call__ 特殊方法。

虽然需要在这个函数中定义向前传递的配方,但是应该调用 Module 实例而不是它,因为前者处理预处理和后处理步骤,而后者静默地忽略它们。

示例

>>> from transformers import RTDetrImageProcessor, RTDetrForObjectDetection
>>> from PIL import Image
>>> import requests
>>> import torch

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = RTDetrImageProcessor.from_pretrained("PekingU/rtdetr_r50vd")
>>> model = RTDetrForObjectDetection.from_pretrained("PekingU/rtdetr_r50vd")

>>> # prepare image for the model
>>> inputs = image_processor(images=image, return_tensors="pt")

>>> # forward pass
>>> outputs = model(**inputs)

>>> logits = outputs.logits
>>> list(logits.shape)
[1, 300, 80]

>>> boxes = outputs.pred_boxes
>>> list(boxes.shape)
[1, 300, 4]

>>> # convert outputs (bounding boxes and class logits) to Pascal VOC format (xmin, ymin, xmax, ymax)
>>> target_sizes = torch.tensor([image.size[::-1]])
>>> results = image_processor.post_process_object_detection(outputs, threshold=0.9, target_sizes=target_sizes)[
...     0
... ]

>>> for score, label, box in zip(results["scores"], results["labels"], results["boxes"]):
...     box = [round(i, 2) for i in box.tolist()]
...     print(
...         f"Detected {model.config.id2label[label.item()]} with confidence "
...         f"{round(score.item(), 3)} at location {box}"
...     )
Detected sofa with confidence 0.97 at location [0.14, 0.38, 640.13, 476.21]
Detected cat with confidence 0.96 at location [343.38, 24.28, 640.14, 371.5]
Detected cat with confidence 0.958 at location [13.23, 54.18, 318.98, 472.22]
Detected remote with confidence 0.951 at location [40.11, 73.44, 175.96, 118.48]
Detected remote with confidence 0.924 at location [333.73, 76.58, 369.97, 186.99]

RTDetrResNetBackbone

transformers.RTDetrResNetBackbone

< >

( config )

参数

  • config (RTDetrResNetConfig) — Model configuration class with all the parameters of the model. Initializing with a config file does not load the weights associated with the model, only the configuration. Check out the from_pretrained() method to load the model weights.

ResNet骨干网络,与RTDETR等框架一起使用。

该模型是PyTorch torch.nn.Module的子类。请将其作为常规PyTorch模块使用,并参阅PyTorch文档中有关通用使用和行为的所有相关内容。

forward

< >

( pixel_values: Tensor output_hidden_states: Optional = None return_dict: Optional = None ) transformers.modeling_outputs.BackboneOutput or tuple(torch.FloatTensor)

参数

  • pixel_values (torch.FloatTensor of shape (batch_size, num_channels, height, width)) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参阅 RTDetrImageProcessor.call()
  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回ModelOutput而不是普通元组。

返回

transformers.modeling_outputs.BackboneOutputtuple(torch.FloatTensor)

一个transformers.modeling_outputs.BackboneOutput或包含多个元素的元组(具体取决于配置和数据输入,例如RTDetrResNetConfig),这些元素包括大小为(batch_size, num_channels, height, width)的特征图(如果return_dict=False传递或当前config.return_dict=False时)。

  • feature_maps (tuple(torch.FloatTensor)形状为(batch_size, num_channels, height, width)) — 阶段的特征图。

  • hidden_states (tuple(torch.FloatTensor)可选,当传递output_hidden_states=True或当config.output_hidden_states=True时返回) — 一个形状为(batch_size, sequence_length, hidden_size)(batch_size, num_channels, height, width)torch.FloatTensor的元组(一个用于嵌入输出的输出,一个用于每一层的输出),取决于主体。

    每个阶段输出的模型隐藏状态加上初始嵌入输出。

  • attentions (tuple(torch.FloatTensor)可选,当传递output_attentions=True或当config.output_attentions=True时返回) — 一个形状为(batch_size, num_heads, sequence_length, sequence_length)torch ponad,适用于使用注意力的主体。

    注意力softmax后的注意力权重,用于在自我注意力头部计算加权平均值。

RTDetrResNetBackbone前向方法覆盖了__call__特殊方法。

虽然需要在这个函数中定义向前传递的配方,但是应该调用 Module 实例而不是它,因为前者处理预处理和后处理步骤,而后者静默地忽略它们。

示例

>>> from transformers import RTDetrResNetConfig, RTDetrResNetBackbone
>>> import torch

>>> config = RTDetrResNetConfig()
>>> model = RTDetrResNetBackbone(config)

>>> pixel_values = torch.randn(1, 3, 224, 224)

>>> with torch.no_grad():
...     outputs = model(pixel_values)

>>> feature_maps = outputs.feature_maps
>>> list(feature_maps[-1].shape)
[1, 2048, 7, 7]
< > 更新GitHub