OneFormer

概述

OneFormer 模型由 Jitesh Jain、Jiachen Li、MangTik Chiu、Ali Hassani、Nikita Orlov 和 Humphrey Shi 在 OneFormer: One Transformer to Rule Universal Image Segmentation 中提出。OneFormer 是一个通用图像分割框架，可以在单个全景数据集上训练，以执行语义分割、实例分割和全景分割任务。OneFormer 使用任务标记来根据焦点任务对模型进行条件化，使架构在训练时以任务为导向，在推理时以任务为动态。

论文摘要如下：

通用图像分割并非新概念。过去几十年中统一图像分割的尝试包括场景解析、全景分割，以及最近的新的全景架构。然而，这些全景架构并不能真正统一图像分割，因为它们需要分别在语义分割、实例分割或全景分割上进行单独训练才能达到最佳性能。理想情况下，一个真正通用的框架应该只训练一次，并在所有三个图像分割任务上都达到 SOTA 性能。为此，我们提出了 OneFormer，一个通过多任务一次训练设计来统一分割的通用图像分割框架。我们首先提出了一种任务条件下的联合训练策略，该策略允许在单个多任务训练过程中，针对每个领域（语义分割、实例分割和全景分割）的真实标签进行训练。其次，我们引入了一个任务标记来根据当前任务对模型进行条件化，使我们的模型具有任务动态性，以支持多任务训练和推理。第三，我们建议在训练期间使用查询-文本对比损失来建立更好的任务间和类别间区分。值得注意的是，尽管 Mask2Former 模型在 ADE20k、CityScapes 和 COCO 上对每个任务都单独训练，并使用了三倍的资源，但我们的单个 OneFormer 模型在所有三个分割任务上的性能都优于专门的 Mask2Former 模型。通过新的 ConvNeXt 和 DiNAT 主干网络，我们观察到更显著的性能提升。我们相信 OneFormer 是使图像分割更加通用和易于访问的重要一步。

下图展示了 OneFormer 的架构。摘自原文。

该模型由 Jitesh Jain 贡献。原始代码可在此处找到。

使用技巧

OneFormer 在推理时需要两个输入：_图像_和_任务标记_。
在训练期间，OneFormer 只使用全景标注。
如果要在多个节点组成的分布式环境中训练模型，则应更新 modeling_oneformer.py 中 OneFormerLoss 类内的 get_num_masks 函数。在多节点训练时，此值应设置为所有节点上目标掩码的平均数量，如原始实现此处所示。
可以使用OneFormerProcessor为模型准备输入图像和任务输入，以及可选的模型目标。OneFormerProcessor将OneFormerImageProcessor和CLIPTokenizer封装在一个实例中，以便同时准备图像和编码任务输入。
要获得最终分割，根据任务的不同，可以调用post_process_semantic_segmentation()、post_process_instance_segmentation()或post_process_panoptic_segmentation()。所有三个任务都可以使用OneFormerForUniversalSegmentation的输出来解决，全景分割接受一个可选的label_ids_to_fuse参数来融合目标对象（例如天空）的实例。

资源

官方 Hugging Face 和社区（🌎 表示）资源列表，帮助您开始使用 OneFormer。

有关自定义数据推理 + 微调的演示笔记本可在此处找到。

如果您有兴趣提交资源以供此处收录，请随时发起拉取请求，我们将对其进行审查。理想情况下，资源应展示新内容，而非重复现有资源。

Transformers

OneFormer

概述

使用技巧

资源

OneFormer 特有输出

类 transformers.models.oneformer.modeling_oneformer.OneFormerModelOutput

类 transformers.models.oneformer.modeling_oneformer.OneFormerForUniversalSegmentationOutput

OneFormerConfig

class transformers.OneFormerConfig

OneFormerImageProcessor

class transformers.OneFormerImageProcessor

预处理

编码输入

后处理语义分割

后处理实例分割

后处理全景分割

OneFormerProcessor

class transformers.OneFormerProcessor

编码输入

后处理实例分割

后处理全景分割

后处理语义分割

OneFormerModel

class transformers.OneFormerModel

正向传播

OneFormerForUniversalSegmentation

class transformers.OneFormerForUniversalSegmentation

正向传播