RT-DETR
概述
RT-DETR模型由Wenyu Lv、Yian Zhao、Shangliang Xu、Jinman Wei、Guanzhong Wang、Cheng Cui、Yuning Du、Qingqing Dang、Yi Liu在《DETRs Beat YOLOs on Real-time Object Detection》一文中提出,链接为https://arxiv.org/abs/2304.08069。
RT-DETR是一种目标检测模型,代表“实时检测Transformer”。该模型旨在以高效处理图像,识别并定位图像中的多个对象,同时实现高精度的实时性能。
以下是论文的摘要:
近年来,基于端到端Transformer的检测器(DETRs)取得了显著的性能。然而,DETRs的高计算成本问题尚未得到有效解决,限制了其实际应用的推广,也无法充分利用无后处理(如非极大值抑制NMS)的优势。在本文中,我们首先分析了NMS对现代实时目标检测器推理速度的影响,并建立了一个端到端速度基准。为了避免NMS带来的推理延迟,我们提出了实时检测Transformer(RT-DETR),据悉,它是第一个实时端到端目标检测器。具体而言,我们设计了一个高效混合编码器,通过解耦内部尺度交互和跨尺度融合,以有效处理多尺度特征,并提出形状不变交并比(IoU)感知查询选择来优化对象查询的初始化。此外,所提出的检测器通过使用不同的解码器层来灵活调整推理速度,无需重新训练,从而促进了实时目标检测器的实际应用。我们的RT-DETR-L在COCO val2017上达到53.0%的AP,在T4 GPU上达到114 FPS,而RT-DETR-X达到54.8%的AP和74 FPS,在速度和精度上均优于同一规模的所有YOLO检测器。此外,我们的RT-DETR-R50实现53.1%的AP和108 FPS,在精度上优于DINO-Deformable-DETR-R50 2.2%,在FPS上大约快21倍。
RT-DETR相对于YOLO模型的表现。图片来自原始论文。本模型由rafaelpadilla和sangbumchoi贡献。原始代码可在此处找到。
使用技巧
起初,图像通过一个预训练的卷积神经网络进行处理,具体是原始代码中引用的Resnet-D变体。该网络从架构的最后一层提取特征。随后,使用一个混合编码器将多尺度特征转换为图像特征的序列数组。然后,使用具有辅助预测头的解码器对对象查询进行细化。这个过程直接生成边界框,无需任何额外的后处理以获取边界框的logits和坐标。
>>> import torch
>>> import requests
>>> from PIL import Image
>>> from transformers import RTDetrForObjectDetection, RTDetrImageProcessor
>>> url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = RTDetrImageProcessor.from_pretrained("PekingU/rtdetr_r50vd")
>>> model = RTDetrForObjectDetection.from_pretrained("PekingU/rtdetr_r50vd")
>>> inputs = image_processor(images=image, return_tensors="pt")
>>> with torch.no_grad():
... outputs = model(**inputs)
>>> results = image_processor.post_process_object_detection(outputs, target_sizes=torch.tensor([image.size[::-1]]), threshold=0.3)
>>> for result in results:
... for score, label_id, box in zip(result["scores"], result["labels"], result["boxes"]):
... score, label = score.item(), label_id.item()
... box = [round(i, 2) for i in box.tolist()]
... print(f"{model.config.id2label[label]}: {score:.2f} {box}")
sofa: 0.97 [0.14, 0.38, 640.13, 476.21]
cat: 0.96 [343.38, 24.28, 640.14, 371.5]
cat: 0.96 [13.23, 54.18, 318.98, 472.22]
remote: 0.95 [40.11, 73.44, 175.96, 118.48]
remote: 0.92 [333.73, 76.58, 369.97, 186.99]
资源
一份官方 Hugging Face 和社区(通过 🌎 标识)资源列表,以帮助您开始使用 RT-DETR。
- 使用 RTDetrForObjectDetection 与 Trainer 或 Accelerate 进行微调的脚本可以在这里找到:这里。
- 另请参阅:目标检测任务指南。
- 有关在自定义数据集上推理和微调 RT-DETR 的笔记可以在这里找到:这里。 🌎
RTDetrConfig
类 transformers.RTDetrConfig
< source >( initializer_range = 0.01 initializer_bias_prior_prob = None layer_norm_eps = 1e-05 batch_norm_eps = 1e-05 backbone_config = None backbone = None use_pretrained_backbone = False use_timm_backbone = False backbone_kwargs = None encoder_hidden_dim = 256 encoder_in_channels = [512, 1024, 2048] feat_strides = [8, 16, 32] encoder_layers = 1 encoder_ffn_dim = 1024 encoder_attention_heads = 8 dropout = 0.0 activation_dropout = 0.0 encode_proj_layers = [2] positional_encoding_temperature = 10000 encoder_activation_function = 'gelu' activation_function = 'silu' eval_size = None normalize_before = False hidden_expansion = 1.0 d_model = 256 num_queries = 300 decoder_in_channels = [256, 256, 256] decoder_ffn_dim = 1024 num_feature_levels = 3 decoder_n_points = 4 decoder_layers = 6 decoder_attention_heads = 8 decoder_activation_function = 'relu' attention_dropout = 0.0 num_denoising = 100 label_noise_ratio = 0.5 box_noise_scale = 1.0 learn_initial_query = False anchor_image_size = None disable_custom_kernels = True with_box_refine = True is_encoder_decoder = True matcher_alpha = 0.25 matcher_gamma = 2.0 matcher_class_cost = 2.0 matcher_bbox_cost = 5.0 matcher_giou_cost = 2.0 use_focal_loss = True auxiliary_loss = True focal_loss_alpha = 0.75 focal_loss_gamma = 2.0 weight_loss_vfl = 1.0 weight_loss_bbox = 5.0 weight_loss_giou = 2.0 eos_coefficient = 0.0001 **kwargs )
参数
- initializer_range (
float
, 可选, 默认为0.01) — 初始化所有权重矩阵使用的截断正态初始化器的标准差。 -
enc_score_head和 class_embed
偏差的偏差初始化器的先验概率。如果为None
,则在使用模型权重初始化时计算为prior_prob = 1 / (num_labels + 1)
-piecewise-convolutional-neural-network. -
- batch_norm_eps (
float
, 可选, 默认为 1e-05) — 批标准化层使用的 epsilon。 - backbone_config (
Dict
, 可选, 默认为RTDetrResNetConfig()
) — 架构模型的配置。 - backbone (
str
, 可选) —当backbone_config
为None
时使用的架构名称。如果use_pretrained_backbone
为True
,则从 timm 或 transformers 库加载相应预训练权重。如果use_pretrained_backbone
为False
,则加载架构的配置并使用随机权重初始化架构。 - use_pretrained_backbone (
bool
, 可选, 默认为False
) — 是否使用预训练的骨干网络权重。 - use_timm_backbone (
bool
, 可选, 默认为False
) — 是否从 timm 库加载backbone
。如果为False
,则从 transformers 库加载骨干网络。 - backbone_kwargs (
字典
, 可选) — 在从检查点加载时传递给 AutoBackbone 的关键字参数,例如{'out_indices': (0, 1, 2, 3)}
。如果设置了backbone_config
,则不能指定。 - encoder_ffn_dim (
int
,可选,默认为1024)— 解码器中“中间”(通常称为前馈)层的维度。 - encoder_attention_heads (
int
,可选,默认为8)— 每个Transformer编码器注意力层的注意力头数量。 - dropout (
float
,可选,默认为0.0)— 所有dropout层的比率。 - activation_dropout (
float
, 可选,默认为 0.0) — 完全连接层内激活函数的dropout比率。 - encode_proj_layers (
List[int]
, 可选,默认为[2]
) — 用于编码器的投影层的索引。 - positional_encoding_temperature (
int
, 可选,默认为 10000) — 用于生成位置编码的温度参数。 - encoder_activation_function (
str
, 可选, 默认值为"gelu"
) — 编码器中的非线性激活函数(函数或字符串)。如果为字符串,则支持"gelu"
、"relu"
、"silu"
和"gelu_new"
。 - activation_function (
str
, 可选, 默认值为"silu"
) — 普通层中的非线性激活函数(函数或字符串)。如果为字符串,则支持"gelu"
、"relu"
、"silu"
和"gelu_new"
。 - eval_size (
Tuple[int, int]
, 可选) — 在考虑步长后计算位置嵌入的有效高度和宽度的宽度和高度。 - normalize_before (
bool
, 可选, 默认为False
) — 确定是否在 Transformer 编码器层的自注意力模块和前馈模块之前应用层归一化。 - hidden_expansion (
float
, 可选, 默认为 1.0) — RepVGGBlock 和 CSPRepLayer 层维度大小的扩展比率。 - d_model (
int
, 可选, 默认为 256) — 除了混合编码器之外的层次维数。 num_queries ( int
, 可选, 默认为 300) — 目标查询数。- decoder_in_channels(《码表输入通道数》,可选,默认值
[256, 256, 256]
)—— 解码器多级功能的维度。 - decoder_ffn_dim(《FFN维度》,
int
,可选,默认值 1024)—— 解码器中“中间”层(通常称为前馈网络)的维度。 - num_feature_levels(《特征级别数》,
int
,可选,默认值 3)—— 输入特征级别的数量。 - decoder_n_points(《解码器采样点数》,
int
,可选,默认值 4)—— 解码器中每个注意力头在每个特征级别所采样的键的数量。 - decoder_layers (
int
, 可选, 默认为6) — 解码器层的数量。 - decoder_attention_heads (
int
, 可选, 默认为8) — Transformer解码器中每个注意力层的注意力头的数量。 - decoder_activation_function (
str
, 可选, 默认为"relu"
) — 解码器中的非线性激活函数(函数或字符串)。如果为字符串,则支持"gelu"
、"relu"
、"silu"
和"gelu_new"
。 - attention_dropout (
float
, 可选, 默认为0.0) — 注意力概率的dropout比例。 - num_denoising (
int
, 可选, 默认为100) — 使用于对比去噪的总去噪任务或查询数。 - label_noise_ratio (
float
, 可选, 默认为0.5) — 应添加随机噪声的去噪标签的分数。 - box_noise_scale (
float
, 可选, 默认为1.0) — 添加到边界框的噪声的缩放或大小。 - learn_initial_query (
bool
, 可选, 默认值为False
) — 指示在训练过程中是否应学习解码器的初始查询嵌入 - anchor_image_size (
元组[int, int]
, 可选) — 用于在评估过程中生成边界框锚的输入图像的高度和宽度。如果为None,适用自动生成锚 - disable_custom_kernels (
bool
, 可选, 默认值为True
) — 是否禁用自定义核 - with_box_refine (
bool
, 可选, 默认值为True
) — 是否应用迭代的边界框细化,其中每个解码器层基于上一层的预测细化边界框 - is_encoder_decoder (
bool
, 可选, 默认为True
) — 判断架构是否有编码器-解码器结构。 - matcher_alpha (
float
, 可选, 默认为 0.25) — 匈牙利匹配器使用的参数alpha。 - matcher_gamma (
float
, 可选, 默认为 2.0) — 匈牙利匹配器使用的参数gamma。 - matcher_class_cost (
float
, 可选, 默认为 2.0) — 匈牙利匹配器使用的类别损失的相对权重。 - matcher_bbox_cost (
float
, 可选, 默认为 5.0) — 使用匈牙利匹配器的边界框损失的相对权重。 - matcher_giou_cost (
float
, 可选, 默认为 2.0) — 使用匈牙利匹配器的giou损失的相对权重。 - use_focal_loss (
bool
, 可选, 默认为True
) — 通知是否应使用焦点损失的参数。 - 辅助损失 (
bool
, 可选, 默认为True
) — 是否使用辅助解码损失(每个解码器层的损失)。 - 聚焦损失_alpha (
float
, 可选, 默认为 0.75) — 用于计算聚焦损失的参数 alpha。 - 聚焦损失_gamma (
float
, 可选, 默认为 2.0) — 用于计算聚焦损失的参数 gamma。 - weight_loss_vfl (
float
, 可选, 默认为1.0) — 在目标检测损失中对可变焦损失相对于权重的相对权重。 - weight_loss_bbox (
float
, 可选, 默认为5.0) — 在目标检测损失中对L1边界框损失的相对权重。 - weight_loss_giou (
float
, 可选, 默认为2.0) — 在目标检测损失中对广义IoU损失的相对权重。 - eos_coefficient (
float
, optional, defaults to 0.0001) — 物体检测损失中‘无物体’类别的相对分类权重。
这是存储 RTDetrModel 配置的配置类。它用于根据指定的参数实例化 RT-DETR 模型,定义模型架构。使用默认值实例化配置将生成与 RT-DETR checkpoion/todo 架构相似的配置。
配置对象继承自 PretrainedConfig 并可用于控制模型输出。有关更多信息,请参阅 PretrainedConfig 的文档。
示例
>>> from transformers import RTDetrConfig, RTDetrModel
>>> # Initializing a RT-DETR configuration
>>> configuration = RTDetrConfig()
>>> # Initializing a model (with random weights) from the configuration
>>> model = RTDetrModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
from_backbone_configs
< source >( backbone_config: PretrainedConfig **kwargs ) → RTDetrConfig
使用预训练的骨干模型配置和DETR模型配置实例化一个 RTDetrConfig(或其派生类)。
RTDetrResNetConfig
类 transformers.RTDetrResNetConfig
< 源代码 >( num_channels = 3 embedding_size = 64 hidden_sizes = [256, 512, 1024, 2048] depths = [3, 4, 6, 3] layer_type = 'bottleneck' hidden_act = 'relu' downsample_in_first_stage = False downsample_in_bottleneck = False out_features = None out_indices = None **kwargs )
参数
- num_channels (
int
, 可选,默认为 3) — 输入通道数。 - embedding_size (
int
, 可选,默认为 64) — 嵌入层维度(隐藏大小)。 - hidden_sizes (
整型列表
, 可选, 默认为[256, 512, 1024, 2048]
) — 每个阶段的空间维度(隐含大小)。 - depths (
整型列表
, 可选, 默认为[3, 4, 6, 3]
) — 每个阶段的深度(层数)。 - layer_type (
字符串
, 可选, 默认为"bottleneck"
) — 使用的层可以是"basic"
(用于较小的模型,如 resnet-18 或 resnet-34)或"bottleneck"
(用于较大模型,如 resnet-50 及以上)。 - hidden_act (
字符串
, 可选, 默认为"relu"
) — 每个块中的非线性激活函数。如果为字符串,支持"gelu"
,"relu"
,"selu"
和"gelu_new"
。 - downsample_in_first_stage (
bool
, 可选, 默认为False
) — 如果设置为True
,第一阶段将使用 2 的stride
下采样输入。 - downsample_in_bottleneck (
bool
, 可选, 默认为False
) — 如果设置为True
,ResNetBottleNeckLayer 中的第一个卷积 1x1 将使用 2 的stride
下采样输入。 - out_features (
str 列表
, 可选) — 如果用作主干网络,输出的特征列表。可以是"stem"
、"stage1"
、"stage2"
等(取决于模型有多少阶段)。如果没有设置且out_indices
已设置,则默认为相应的阶段。如果没有设置且out_indices
未设置,则默认为最后一个阶段。必须与stage_names
属性中定义的顺序相同。 - out_indices (
整数列表
, 可选) — 如果用作骨干网络,则列出要输出的特征索引。可以是0,1,2等(取决于模型的阶段数)。如果没有设置并设置了out_features
,则默认为相应阶段。如果没有设置且没有设置out_features
,则默认为最后一个阶段。必须与stage_names
属性中定义的顺序相同。
这是一个用于存储一个RTDetrResNetBackbone
配置的配置类。它用于根据指定的参数实例化一个ResNet模型,定义模型架构。使用默认值实例化配置将得到类似于ResNet microsoft/resnet-50架构的配置。
配置对象继承自 PretrainedConfig 并可用于控制模型输出。有关更多信息,请参阅 PretrainedConfig 的文档。
示例
>>> from transformers import RTDetrResNetConfig, RTDetrResnetBackbone
>>> # Initializing a ResNet resnet-50 style configuration
>>> configuration = RTDetrResNetConfig()
>>> # Initializing a model (with random weights) from the resnet-50 style configuration
>>> model = RTDetrResnetBackbone(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
RTDetrImageProcessor
类 transformers.RTDetrImageProcessor
< source >( 格式: 联合类型 = <AnnotationFormat.COCO_DETECTION: 'coco_detection'> 是否调整大小: 布尔类型 = True 大小: 字典类型 = None 重采样: 重采样类型 = <Resampling.BILINEAR: 2> 是否缩放: 布尔类型 = True 缩放因子: 联合类型 = 0.00392156862745098 是否归一化: 布尔类型 = False 图像均值: 联合类型 = None 图像标准差: 联合类型 = None 是否转换标注: 布尔类型 = True 是否填充: 布尔类型 = False 填充大小: 可选类型 = None **kwargs )
参数
- 格式 (
str
, 可选, 默认值为AnnotationFormat.COCO_DETECTION
) — 标注的数据格式。可以是“coco_detection”或“coco_panoptic”。 - do_resize (
bool
, 可选,默认为True
) — 控制是否将图像的高度(height)和宽度(width)尺寸调整为指定的size
。可以在preprocess
方法的do_resize
参数中重写。 - size (
Dict[str, int]
可选,默认为{"height" -- 640, "width": 640}
): 调整图像经过调整后的(height, width)
尺寸。可以在preprocess
方法的size
参数中重写。支持的选项有:{"height": int, "width": int}
: 图像将被调整至确切尺寸(height, width)
。不保留比例。{"shortest_edge": int, "longest_edge": int}
: 图像将被调整至一个最大尺寸,同时保持比例不变,并将最短边设置为小于或等于shortest_edge
,最长边设置为小于或等于longest_edge
。{"max_height": int, "max_width": int}
: 图像将被调整至一个最大尺寸,同时保持比例不变,并将高度设置为小于或等于max_height
,宽度设置为小于或等于max_width
。
- resample (
PILImageResampling
, 可选,默认为PILImageResampling.BILINEAR
) — 在调整图像大小时使用的重采样过滤器。 - do_rescale (
bool
, 可选,默认为True
) — 控制是否按指定比例rescale_factor
缩放图像。可以由preprocess
方法中的do_rescale
参数覆盖。 - rescale_factor (
int
或float
,可选,默认为1/255
) — 缩放图像时使用的缩放因子。可以由preprocess
方法中的rescale_factor
参数覆盖。控制是否归一化图像。可以由preprocess
方法中的do_normalize
参数覆盖。 - do_normalize (
bool
,可选,默认为False
) — 是否归一化图像。<-- HTML_TAG_END --> - image_mean (
float
或List[float]
,可选,默认为IMAGENET_DEFAULT_MEAN
) — 在对图像进行归一化时使用的均值。可以是单个值或值的列表,每个通道一个值。可以由preprocess
方法中的image_mean
参数覆盖。 - image_std (
float
或List[float]
,可选,默认为IMAGENET_DEFAULT_STD
) — 在对图像进行归一化时使用的标准差。可以是单个值或值的列表,每个通道一个值。可以由preprocess
方法中的image_std
参数覆盖。 - do_convert_annotations (
bool
,可选,默认为True
)— 控制是否将注释转换为DETR模型期望的格式。将边界框转换为格式(中心_x, 中心_y, 宽度, 高度)
并在范围[0, 1]
内。可以由preprocess
方法中的do_convert_annotations
参数覆盖。 - do_pad (
bool
, optional, defaults toFalse
) — 控制是否填充图像。可以通过preprocess
方法中的do_pad
参数重写。如果为True
,则会在图像底部和右侧应用零值填充。如果提供pad_size
,则图像将被填充到指定的尺寸。否则,图像将被填充到批次的最大高度和宽度。 - pad_size (
Dict[str, int]
, optional) — 填充图像到的大小{"height": int, "width" int}
。必须大于预处理提供的任何图像大小。没有提供pad_size
时,图像将被填充到批次中的最大高度和宽度。
构建 RT-DETR 图像处理器。
preprocess
< source >( (background-color:aktion.png)images: 并集 annotations: 并集 = None return_segmentation_masks: bool = None masks_path: 并集 = None do_resize: Optional = None size: Optional = None resample = None do_rescale: Optional = None rescale_factor: 并集 = None do_normalize: Optional = None do_convert_annotations: Optional = None image_mean: 并集 = None image_std: 并集 = None do_pad: Optional = None format: 并集 = None return_tensors: 并集 = None data_format: 并集 = <ChannelDimension.FIRST: 'channels_first'> input_data_format: 并集 = None pad_size: Optional = None )
参数
- images (
ImageInput
) — 预处理图像或图像批次。期望传入单张图像或图像批次,像素值范围为0到255。如果传入像素值在0到1之间的图像,请将do_rescale=False
设置为True。 - annotations (
AnnotationType
或List[AnnotationType]
,可选) — 与图像或图像批次关联的注释列表。如果注释是用于对象检测的,则注释应是一个包含以下键的字典: - “image_id” (
int
):图像 ID。 - “annotations” (
List[Dict]
):图像的注释列表。每个注释应是一个字典。图像可能没有注释,在这种情况下,列表应为空。如果注释是用于分割的,则注释应是一个包含以下键的字典: - “image_id” (
int
):图像 ID。 - “segments_info” (
List[Dict]
):图像的段列表。每个段应是一个字典。图像可能没有段,在这种情况下,列表应为空。 - “file_name” (
str
):图像的文件名。 - return_segmentation_masks (
bool
,可选,默认为 self.return_segmentation_masks) — 是否返回分割掩码。 - masks_path (
str
或pathlib.Path
,可选) — 包含分割掩码的目录的路径。 - do_resize (
bool
, 可选, 默认为 self.do_resize) — 是否调整图像大小。 - size (
Dict[str, int]
, 可选, 默认为 self.size) — 调整大小后的图像的(高度, 宽度)
尺寸。可用选项有:{"height": int, "width": int}
: 图像将调整到确切的(高度, 宽度)
尺寸。不要保持长宽比。{"shortest_edge": int, "longest_edge": int}
: 图像将调整到最大尺寸,同时保持长宽比,并将最短边限制为shortest_edge
或更小,最长边限制为longest_edge
或更小。{"max_height": int, "max_width": int}
: 图像将调整到最大尺寸,同时保持长宽比,并将高度限制为max_height
或更小,宽度限制为max_width
或更小。
- resample (
PILImageResampling
, 可选, 默认为 self.resample) — 调整图像大小时使用的重采样过滤器。 - do_rescale (
bool
, 可选, 默认为self.do_rescale) — 是否对图像进行缩放。 - rescale_factor (
float
, 可选, 默认为self.rescale_factor) — 缩放图像时使用的缩放因子。 - do_normalize (
bool
, 可选, 默认为self.do_normalize) — 是否对图像进行归一化。 - do_convert_annotations (
bool
, 可选,默认为 self.do_convert_annotations) —— 是否将标注转换为模型预期格式的选择。将边界框从格式(top_left_x, top_left_y, width, height)
转换为(center_x, center_y, width, height)
并在相对坐标中。 - image_mean (
float
或List[float]
,可选,默认为 self.image_mean) —— 用于图像归一化的均值。 - image_std (
float
或List[float]
,可选,默认为 self.image_std) —— 用于图像归一化的标准差。 - do_pad (
bool
, 可选,默认为 self.do_pad) — 是否填充图像。如果True
,将在图像底部和右侧应用填充(使用零)。如果提供了pad_size
,则图像将被填充到指定的维度。否则,图像将被填充到批次的最大高度和宽度。 - format (
str
或AnnotationFormat
, 可选,默认为 self.format) — 注释的格式。 - return_tensors (
str
或TensorType
, 可选,默认为 self.return_tensors) — 返回的张量类型。如果None
,将返回图像列表。 - data_format (
ChannelDimension
或str
,可选,默认为ChannelDimension.FIRST
) — 输出图像的通道维度格式。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
:图像格式为 (num_channels, height, width)。"channels_last"
或ChannelDimension.LAST
:图像格式为 (height, width, num_channels)。- 未设置:使用输入图像的通道维度格式。
- input_data_format (
ChannelDimension
或str
,可选) — 输入图像的通道维度格式。如果未设置,将推断输入图像的通道维度格式。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
:图像格式为 (num_channels, height, width)。"channels_last"
或ChannelDimension.LAST
:图像格式为 (height, width, num_channels)。"none"
或ChannelDimension.NONE
:图像格式为 (height, width)。
- pad_size (
Dict[str, int]
,可选) — 填充图像的大小,格式为{"height": int, "width" int}
。该大小必须大于预处理所提供的任何图像大小。如果没有提供pad_size
,则将图像填充到批次中的最大高和宽。
处理图像或图像批次,以便用于模型。
post_process_object_detection
< source >( outputs threshold: float = 0.5 target_sizes: Union = None use_focal_loss: bool = True ) → List[Dict]
参数
- outputs (
DetrObjectDetectionOutput
) — 模型的原始输出。 - threshold (
float
, 可选, 默认值为 0.5) — 保留目标检测预测的成绩阈值。 - target_sizes (
torch.Tensor
或List[Tuple[int, int]]
,可选) — 形状为(batch_size, 2)
的 Tensor 或包含每个图像的目标大小(高度, 宽度)
的元组列表。如果不设置,则不会调整预测大小。 - use_focal_loss (
bool
默认为True
) — 表示是否使用了焦点损失来预测输出的变量。如果为True
,则对每个检测评分应用 sigmoid 进行计算,否则使用 softmax 函数。— HTML_TAG_END —
返回
Dict 列表
一个字典列表,每个字典包含由模型预测的每次图像批次的分数、标签和框。
将 DetrForObjectDetection 的原始输出转换为 (top_left_x, top_left_y, bottom_right_x, bottom_right_y) 格式的最终边界框。仅支持 PyTorch。
RTDetrModel
类 transformers.RTDetrModel
< 源代码 >( config: RTDetrConfig )
参数
- config (RTDetrConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不加载模型关联的权重,只加载配置。查看 from_pretrained() 方法以加载模型权重。
RT-DETR 模型(由骨干网络和编码器-解码器组成),输出原始隐藏状态,顶部不带任何头。
此模型继承自 PreTrainedModel。检查超类文档以获取库对其所有模型(如下载或保存、调整输入嵌入大小、修剪头部等)实现的通用方法。
此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用,并参考 PyTorch 文档以获取与一般使用和行为相关的所有事项。
forward
< 源代码 >( pixel_values: FloatTensor pixel_mask: 可选 = None encoder_outputs: 可选 = None inputs_embeds: 可选 = None decoder_inputs_embeds: 可选 = None labels: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None ) → transformers.models.rt_detr.modeling_rt_detr.RTDetrModelOutput
或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor
尺寸为(batch_size, num_channels, height, width)
) — 像素值。如果没有提供,则会忽略填充。使用 AutoImageProcessor 可以获取像素值。有关详细信息,请参阅 RTDetrImageProcessor.call()。 - pixel_mask (
torch.LongTensor
of shape(batch_size, height, width)
, optional) — 用于避免在填充像素值上执行注意力机制的掩码。掩码值在[0, 1]
之间的选择:- 1 表示真实像素(即 非掩码),
- 0 表示填充像素(即 掩码)。
- encoder_outputs (
tuple(tuple(torch.FloatTensor)
, optional) — Tuple consists of (last_hidden_state
, optional:hidden_states
, optional:attentions
)last_hidden_state
of shape(batch_size, sequence_length, hidden_size)
, optional) is a sequence of hidden-states at the output of the last layer of the encoder. Used in the cross-attention of the decoder. - inputs_embeds (
torch.FloatTensor
of shape(batch_size, sequence_length, hidden_size)
, optional) — 可选地,您可以直接传递图像的扁平化表示(即骨干网络 + 投影层的输出)而不是传递扁平化特征图。 -
-
-
输出隐藏状态 ( 布尔型
, 可选) — 是否返回所有层的隐藏状态。更多细节请参阅返回张量下的隐藏状态
。-
返回字典 ( 布尔型
, 可选) — 是否返回 ModelOutput 而不是简单的元组。
返回
transformers.models.rd_detr.modeling_rd_detr.RTDetrModelOutput
或 torch.FloatTensor
的元组
A transformers.models.rd_detr.modeling_rd_detr.RTDetrModelOutput
或一个由 torch.FloatTensor
组成的元组(如果传递了 return_dict=False
或 config.return_dict=False
时)包含各种元素,这些元素取决于配置(RDDetrConfig)和输入。
- 最后一个隐藏状态 (
torch.FloatTensor
形状为(batch_size, num_queries, hidden_size)
) — 模型解码器最后层输出的隐藏状态序列。 - 中间隐藏状态 (
torch.FloatTensor
形状为(batch_size, config.decoder_layers, num_queries, hidden_size)
) — 逐层的中间隐藏状态(解码器每层的输出)。 - 中间对数似然 (
torch.FloatTensor
形状为(batch_size, config.decoder_layers, sequence_length, config.num_labels)
) — 逐层的中间对数似然(解码器每层的对数似然)。 - 中间参考点 (
torch.FloatTensor
形状为(batch_size, config.decoder_layers, num_queries, 4)
) — 逐层的中间参考点(解码器每层的参考点)。 - 解码器隐藏状态 (
torch.FloatTensor
的元组,可选,当传递output_hidden_states=True
或时config.output_hidden_states=True
返回) — 包含torch.FloatTensor
的元组(一个用于嵌入的输出,一个用于每层的输出)的形状为(batch_size, num_queries, hidden_size)
。解码器在每层输出中的隐藏状态以及初始嵌入输出。 - 解码器注意力 (
torch.FloatTensor
的元组,可选,当传递output_attentions=True
或时config.output_attentions=True
返回) — 每个层的torch.FloatTensor
的元组(形状为(batch_size, num_heads, num_queries, num_queries)
)。解码器的注意力权重,在注意力softmax之后使用,用于计算自注意力头中的加权平均。 - cross_attentions (
torch.FloatTensor
元组,可选项,当传递output_attentions=True
或config.output_attentions=True
时返回) — 包含每个层的torch.FloatTensor
元组(每个层一个),形状为(batch_size, num_queries, num_heads, 4, 4)
。在注意力softmax之后的编码器跨注意力层的注意力权重,用于在跨注意力头中计算加权平均。 - encoder_last_hidden_state (
形状为 (batch_size, sequence_length, hidden_size)
的torch.FloatTensor
,可选项) — 模型编码器最后层的隐藏状态序列。 - encoder_hidden_states (
torch.FloatTensor
元组,可选项,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 包含嵌入输出和每个层输出的torch.FloatTensor
元组(每个层一个),形状为(batch_size, sequence_length, hidden_size)
。在每个层输出以及初始嵌入输出后的编码器隐藏状态。 - encoder_attentions (
torch.FloatTensor
元组,可选项,当传递output_attentions=True
或config.output_attentions=True
时返回) — 包含每个层的torch.FloatTensor
元组(每个层一个),形状为(batch_size, num_queries, num_heads, 4, 4)
。在注意力softmax之后的编码器注意力权重,用于在自注意力头中计算加权平均。 - init_reference_points (
形状为 (batch_size, num_queries, 4)
的torch.FloatTensor
) —— 通过Transformer解码器传递的初始参考点。 - enc_topk_logits (
形状为 (batch_size, sequence_length, config.num_labels)
的torch.FloatTensor
) —— 预测的边界框分数,其中选择前config.two_stage_num_proposals
个得分的边界框作为编码阶段中的区域提议。边界框二分类(即前景和背景)的输出。 - enc_topk_bboxes (
形状为 (batch_size, sequence_length, 4)
的torch.FloatTensor
) —— 编码阶段预测的边界框坐标的logits。 - enc_outputs_class (
形状为 (batch_size, sequence_length, config.num_labels)
的torch.FloatTensor
,可选项,当config.with_box_refine=True
和config.two_stage=True
时返回) —— 第一个阶段中,选择前config.two_stage_num_proposals
个得分的边界框作为区域提议的预测边界框分数。边界框二分类(即前景和背景)的输出。 - enc_outputs_coord_logits (
形状为 (batch_size, sequence_length, 4)
的torch.FloatTensor
,可选项,当config.with_box_refine=True
和config.two_stage=True
时返回) —— 第一个阶段预测的边界框坐标的logits。 - denoising_meta_values (
dict
) —— 与去噪相关的额外值的字典。
RTDetrModel 的向前方法,覆盖了 __call__
特殊方法。
虽然需要在这个函数中定义向前传递的配方,但是应该调用 Module
实例而不是它,因为前者处理预处理和后处理步骤,而后者静默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, RTDetrModel
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = AutoImageProcessor.from_pretrained("PekingU/rtdetr_r50vd")
>>> model = RTDetrModel.from_pretrained("PekingU/rtdetr_r50vd")
>>> inputs = image_processor(images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 300, 256]
RTDetrForObjectDetection
class transformers.RTDetrForObjectDetection
< source >( config: RTDetrConfig )
参数
- 配置 (RTDetrConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,仅加载配置。查看 from_pretrained() 方法以加载模型权重。
RT-DETR 模型(由骨干网络和编码器-解码器组成),输出边界框和logits,以便进一步解码为得分和类别。
此模型继承自 PreTrainedModel。检查超类文档以获取库对其所有模型(如下载或保存、调整输入嵌入大小、修剪头部等)实现的通用方法。
此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用,并参考 PyTorch 文档以获取与一般使用和行为相关的所有事项。
forward
< source >( pixel_values: FloatTensor pixel_mask: Optional = None encoder_outputs: Optional = None inputs_embeds: Optional = None decoder_inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → transformers.models.rt_detr.modeling_rt_detr.RTDetrObjectDetectionOutput
or tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor
形状为(batch_size, num_channels, height, width)
) — 像素值。如果您提供,默认情况下将忽略填充。可以使用 AutoImageProcessor 获取像素值。有关详细信息,请参阅 RTDetrImageProcessor.call()。 - pixel_mask (
torch.LongTensor
形状为(batch_size, height, width)
,可选) — 用来避免在对填充像素值上执行注意力的掩码。掩码值在[0, 1]
之间:- 1 代表真实像素(即 未掩码),
- 0 代表填充像素(即 掩码)。
- encoder_outputs (
tuple(tuple(torch.FloatTensor)
, 可选) — Tuple 包含 (last_hidden_state
, 可选:hidden_states
, 可选:attentions
)last_hidden_state
的形状为(batch_size, sequence_length, hidden_size)
,可选),是编码器最后一个层的隐藏状态序列。用于解码器的交叉注意力。 - inputs_embeds (
torch.FloatTensor
of shape(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,而不是传递扁平化特征图(backbone 加投影层的输出),您可以选择直接传递图像的扁平表示。 - decoder_inputs_embeds (
torch.FloatTensor
of shape(batch_size, num_queries, hidden_size)
, 可选) — 可选地,而不是使用零填充的张量初始化查询,您可以选择直接传递嵌入表示。 - labels (
List[Dict]
of len(batch_size,)
, 可选) — 用于计算双射匹配损失的标签。字典列表,每个字典至少包含以下2个键:‘class_labels’和‘boxes’(图像批次中每个图像的类别标签和边界框分别)。类别标签本身应是一个长度为(图像中边界框数量,)
的torch.LongTensor
,边界框是一个形状为(图像中边界框数量, 4)
的torch.FloatTensor
。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关返回张量中attentions
的更多信息,请参见。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关返回张量中hidden_states
的更多信息,请参见。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是一个普通的元组。 - labels (
List[Dict]
of len(batch_size,)
, 可选) — 用于计算双射匹配损失的标签。字典列表,每个字典至少包含以下2个键:‘class_labels’和‘boxes’(图像批次中每个图像的类别标签和边界框分别)。类别标签本身应是一个长度为(图像中边界框数量,)
的torch.LongTensor
,边界框是一个形状为(图像中边界框数量, 4)
的torch.FloatTensor
。
返回
transformers.models.rt_detr.modeling_rt_detr.RTDetrObjectDetectionOutput
或 tuple(torch.FloatTensor)
一个 transformers.models.rt_detr.modeling_rt_detr.RTDetrObjectDetectionOutput
或一个由 torch.FloatTensor
组成的元组(如果传递了 return_dict=False
或当 config.return_dict=False
)包含根据配置(RTDetrConfig)和输入的不同元素。
- loss (
torch.FloatTensor
的形状为(1,)
,可选,当提供labels
时返回) — 经过负对数似然度(交叉熵)和边界框损失的线性组合的总损失。后者定义为 L1 损失和广义尺度不变 IoU 损失的组合。 - loss_dict (
Dict
,可选) — 包含单独损失的字典。用于记录日志。 - logits (
torch.FloatTensor
的形状为(batch_size, num_queries, num_classes + 1)
) — 所有查询的分类特征(包括没有物体)。 - pred_boxes (
torch.FloatTensor
的形状为(batch_size, num_queries, 4)
) — 所有查询的标准化边界框坐标,表示为 (center_x, center_y, width, height)。这些值在 [0, 1] 内归一化,相对于批次中每个单独图像的大小(不考虑可能的填充)。您可以使用 post_process_object_detection() 检索非归一化(绝对)边界框。 - auxiliary_outputs (
list[Dict]
,可选) — 可选,只有当激活辅助损失(即config.auxiliary_loss
设置为True
)且提供了标签时才返回。它是一个包含两个上述键(logits
和pred_boxes
)的字典列表,每个字典对应每个解码器层。 - 最后一个隐藏状态 (
torch.FloatTensor
形状为(batch_size, num_queries, hidden_size)
) — 模型解码器最后层输出的隐藏状态序列。 - 中间隐藏状态 (
torch.FloatTensor
形状为(batch_size, config.decoder_layers, num_queries, hidden_size)
) — 逐层的中间隐藏状态(解码器每层的输出)。 - intermediate_logits (
torch.FloatTensor
的形状为(batch_size, config.decoder_layers, num_queries, config.num_labels)
) — 堆叠的中间特征(解码器的每层的特征)。 - 中间参考点 (
torch.FloatTensor
形状为(batch_size, config.decoder_layers, num_queries, 4)
) — 逐层的中间参考点(解码器每层的参考点)。 - 解码器隐藏状态 (
torch.FloatTensor
的元组,可选,当传递output_hidden_states=True
或时config.output_hidden_states=True
返回) — 包含torch.FloatTensor
的元组(一个用于嵌入的输出,一个用于每层的输出)的形状为(batch_size, num_queries, hidden_size)
。解码器在每层输出中的隐藏状态以及初始嵌入输出。 - 解码器注意力 (
torch.FloatTensor
的元组,可选,当传递output_attentions=True
或时config.output_attentions=True
返回) — 每个层的torch.FloatTensor
的元组(形状为(batch_size, num_heads, num_queries, num_queries)
)。解码器的注意力权重,在注意力softmax之后使用,用于计算自注意力头中的加权平均。 - cross_attentions (
torch.FloatTensor
元组,可选项,当传递output_attentions=True
或config.output_attentions=True
时返回) — 包含每个层的torch.FloatTensor
元组(每个层一个),形状为(batch_size, num_queries, num_heads, 4, 4)
。在注意力softmax之后的编码器跨注意力层的注意力权重,用于在跨注意力头中计算加权平均。 - encoder_last_hidden_state (
形状为 (batch_size, sequence_length, hidden_size)
的torch.FloatTensor
,可选项) — 模型编码器最后层的隐藏状态序列。 - encoder_hidden_states (
torch.FloatTensor
元组,可选项,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 包含嵌入输出和每个层输出的torch.FloatTensor
元组(每个层一个),形状为(batch_size, sequence_length, hidden_size)
。在每个层输出以及初始嵌入输出后的编码器隐藏状态。 - encoder_attentions (
torch.FloatTensor
元组,可选项,当传递output_attentions=True
或config.output_attentions=True
时返回) — 包含每个层的torch.FloatTensor
元组(每个层一个),形状为(batch_size, num_queries, num_heads, 4, 4)
。在注意力softmax之后的编码器注意力权重,用于在自注意力头中计算加权平均。 - init_reference_points (
形状为 (batch_size, num_queries, 4)
的torch.FloatTensor
) —— 通过Transformer解码器传递的初始参考点。 - enc_topk_logits (
torch.FloatTensor
的形状为(batch_size, sequence_length, config.num_labels)
,可选,返回当config.with_box_refine=True
且config.two_stage=True
时) — 预测的编码器中边界框坐标的标志。 - enc_topk_bboxes (
torch.FloatTensor
的形状为(batch_size, sequence_length, 4)
,可选,返回当config.with_box_refine=True
且config.two_stage=True
时) — 预测的编码器中边界框坐标的标志。 - enc_outputs_class (
形状为 (batch_size, sequence_length, config.num_labels)
的torch.FloatTensor
,可选项,当config.with_box_refine=True
和config.two_stage=True
时返回) —— 第一个阶段中,选择前config.two_stage_num_proposals
个得分的边界框作为区域提议的预测边界框分数。边界框二分类(即前景和背景)的输出。 - enc_outputs_coord_logits (
形状为 (batch_size, sequence_length, 4)
的torch.FloatTensor
,可选项,当config.with_box_refine=True
和config.two_stage=True
时返回) —— 第一个阶段预测的边界框坐标的logits。 - denoising_meta_values (
dict
) —— 与去噪相关的额外值的字典。
RTDetrForObjectDetection 的向前方法覆盖了 __call__
特殊方法。
虽然需要在这个函数中定义向前传递的配方,但是应该调用 Module
实例而不是它,因为前者处理预处理和后处理步骤,而后者静默地忽略它们。
示例
>>> from transformers import RTDetrImageProcessor, RTDetrForObjectDetection
>>> from PIL import Image
>>> import requests
>>> import torch
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = RTDetrImageProcessor.from_pretrained("PekingU/rtdetr_r50vd")
>>> model = RTDetrForObjectDetection.from_pretrained("PekingU/rtdetr_r50vd")
>>> # prepare image for the model
>>> inputs = image_processor(images=image, return_tensors="pt")
>>> # forward pass
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> list(logits.shape)
[1, 300, 80]
>>> boxes = outputs.pred_boxes
>>> list(boxes.shape)
[1, 300, 4]
>>> # convert outputs (bounding boxes and class logits) to Pascal VOC format (xmin, ymin, xmax, ymax)
>>> target_sizes = torch.tensor([image.size[::-1]])
>>> results = image_processor.post_process_object_detection(outputs, threshold=0.9, target_sizes=target_sizes)[
... 0
... ]
>>> for score, label, box in zip(results["scores"], results["labels"], results["boxes"]):
... box = [round(i, 2) for i in box.tolist()]
... print(
... f"Detected {model.config.id2label[label.item()]} with confidence "
... f"{round(score.item(), 3)} at location {box}"
... )
Detected sofa with confidence 0.97 at location [0.14, 0.38, 640.13, 476.21]
Detected cat with confidence 0.96 at location [343.38, 24.28, 640.14, 371.5]
Detected cat with confidence 0.958 at location [13.23, 54.18, 318.98, 472.22]
Detected remote with confidence 0.951 at location [40.11, 73.44, 175.96, 118.48]
Detected remote with confidence 0.924 at location [333.73, 76.58, 369.97, 186.99]
RTDetrResNetBackbone
类 transformers.RTDetrResNetBackbone
< source >( config )
参数
- config (RTDetrResNetConfig) — Model configuration class with all the parameters of the model. Initializing with a config file does not load the weights associated with the model, only the configuration. Check out the from_pretrained() method to load the model weights.
ResNet骨干网络,与RTDETR等框架一起使用。
该模型是PyTorch torch.nn.Module的子类。请将其作为常规PyTorch模块使用,并参阅PyTorch文档中有关通用使用和行为的所有相关内容。
forward
< source >( pixel_values: Tensor output_hidden_states: Optional = None return_dict: Optional = None ) → transformers.modeling_outputs.BackboneOutput
or tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor
of shape(batch_size, num_channels, height, width)
) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参阅 RTDetrImageProcessor.call()。 - output_hidden_states (
bool
, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回ModelOutput而不是普通元组。
返回
transformers.modeling_outputs.BackboneOutput
或tuple(torch.FloatTensor)
一个transformers.modeling_outputs.BackboneOutput
或包含多个元素的元组(具体取决于配置和数据输入,例如RTDetrResNetConfig),这些元素包括大小为(batch_size, num_channels, height, width)
的特征图(如果return_dict=False
传递或当前config.return_dict=False
时)。
-
feature_maps (
tuple(torch.FloatTensor)
形状为(batch_size, num_channels, height, width)
) — 阶段的特征图。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) — 一个形状为(batch_size, sequence_length, hidden_size)
或(batch_size, num_channels, height, width)
的torch.FloatTensor
的元组(一个用于嵌入输出的输出,一个用于每一层的输出),取决于主体。每个阶段输出的模型隐藏状态加上初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) — 一个形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch ponad
,适用于使用注意力的主体。注意力softmax后的注意力权重,用于在自我注意力头部计算加权平均值。
RTDetrResNetBackbone前向方法覆盖了__call__
特殊方法。
虽然需要在这个函数中定义向前传递的配方,但是应该调用 Module
实例而不是它,因为前者处理预处理和后处理步骤,而后者静默地忽略它们。
示例
>>> from transformers import RTDetrResNetConfig, RTDetrResNetBackbone
>>> import torch
>>> config = RTDetrResNetConfig()
>>> model = RTDetrResNetBackbone(config)
>>> pixel_values = torch.randn(1, 3, 224, 224)
>>> with torch.no_grad():
... outputs = model(pixel_values)
>>> feature_maps = outputs.feature_maps
>>> list(feature_maps[-1].shape)
[1, 2048, 7, 7]