MaskFormer

这是一个最近引入的模型，因此 API 尚未经过广泛测试。未来可能会有一些错误或轻微的破坏性更改来修复它。如果您发现任何异常，请提交 Github Issue。

概述

MaskFormer 模型在 Per-Pixel Classification is Not All You Need for Semantic Segmentation (作者：Bowen Cheng、Alexander G. Schwing、Alexander Kirillov) 中提出。MaskFormer 通过掩码分类范式来解决语义分割问题，而不是执行经典的像素级分类。

以下是论文的摘要

现代方法通常将语义分割表述为像素级分类任务，而实例级分割则通过另一种掩码分类来处理。我们的关键见解是：掩码分类足够通用，可以使用完全相同的模型、损失和训练程序，以统一的方式解决语义和实例级分割任务。基于这一观察，我们提出了 MaskFormer，这是一个简单的掩码分类模型，它预测一组二元掩码，每个掩码都与单个全局类别标签预测相关联。总的来说，所提出的基于掩码分类的方法简化了语义和全景分割任务的有效方法格局，并显示出出色的实证结果。特别是，我们观察到，当类别数量很大时，MaskFormer 的性能优于像素级分类基线。我们基于掩码分类的方法优于当前最先进的语义分割 (ADE20K 上为 55.6 mIoU) 和全景分割 (COCO 上为 52.7 PQ) 模型。

下图说明了 MaskFormer 的架构。取自原始论文。

此模型由 francesco 贡献。原始代码可以在这里找到。

使用技巧

MaskFormer 的 Transformer 解码器与 DETR 的解码器相同。在训练期间，DETR 的作者发现使用解码器中的辅助损失很有帮助，尤其是在帮助模型输出每个类别的正确对象数量方面。如果您将 MaskFormerConfig 的参数 use_auxiliary_loss 设置为 True，那么预测前馈神经网络和 Hungarian 损失将在每个解码器层之后添加（FFN 共享参数）。
如果您想在跨多个节点的分布式环境中训练模型，则应更新 modeling_maskformer.py 的 MaskFormerLoss 类中的 get_num_masks 函数。在多个节点上训练时，应将其设置为所有节点的目标掩码的平均数量，这可以在原始实现此处中看到。
可以使用 MaskFormerImageProcessor 为模型准备图像以及模型的可选目标。
为了获得最终的分割结果，根据任务的不同，您可以调用 post_process_semantic_segmentation() 或 post_process_panoptic_segmentation()。这两个任务都可以使用 MaskFormerForInstanceSegmentation 输出解决，全景分割接受一个可选的 label_ids_to_fuse 参数，用于融合目标对象（例如天空）的实例。

资源

图像分割

所有说明 MaskFormer 推理以及在自定义数据上进行微调的 notebook 都可以在这里找到。
使用 Trainer 或 Accelerate 微调 MaskFormer 的脚本可以在这里找到。

Transformers

MaskFormer

概述

使用技巧

资源

MaskFormer 特定输出

class transformers.models.maskformer.modeling_maskformer.MaskFormerModelOutput

class transformers.models.maskformer.modeling_maskformer.MaskFormerForInstanceSegmentationOutput

MaskFormerConfig

class transformers.MaskFormerConfig

from_backbone_and_decoder_configs

MaskFormerImageProcessor

class transformers.MaskFormerImageProcessor

preprocess

encode_inputs

post_process_semantic_segmentation

post_process_instance_segmentation

post_process_panoptic_segmentation

MaskFormerFeatureExtractor

class transformers.MaskFormerFeatureExtractor

__call__

encode_inputs

post_process_semantic_segmentation

post_process_instance_segmentation

post_process_panoptic_segmentation

MaskFormerModel

class transformers.MaskFormerModel

forward

MaskFormerForInstanceSegmentation

class transformers.MaskFormerForInstanceSegmentation

forward

call