SegFormer

概览

SegFormer 模型在 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers 中被提出，作者为 Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo。该模型由分层 Transformer 编码器和轻量级全 MLP 解码头组成，在 ADE20K 和 Cityscapes 等图像分割基准测试中取得了出色的效果。

该论文的摘要如下：

我们提出了 SegFormer，一个简单、高效且功能强大的语义分割框架，它将 Transformers 与轻量级多层感知器 (MLP) 解码器统一起来。SegFormer 具有两个吸引人的特点：1) SegFormer 包含一种新颖的分层结构 Transformer 编码器，可输出多尺度特征。它不需要位置编码，从而避免了位置代码的插值，而当测试分辨率与训练分辨率不同时，插值会导致性能下降。2) SegFormer 避免了复杂的解码器。所提出的 MLP 解码器聚合来自不同层的信息，从而结合局部注意力和全局注意力来呈现强大的表示。我们表明，这种简单而轻量化的设计是 Transformer 上高效分割的关键。我们将我们的方法扩展以获得从 SegFormer-B0 到 SegFormer-B5 的一系列模型，与之前的同类模型相比，达到了明显更好的性能和效率。例如，SegFormer-B4 在 ADE20K 上以 64M 参数实现了 50.3% 的 mIoU，比之前最好的方法小 5 倍，好 2.2%。我们最好的模型 SegFormer-B5 在 Cityscapes 验证集上实现了 84.0% 的 mIoU，并在 Cityscapes-C 上显示出出色的零样本鲁棒性。

下图说明了 SegFormer 的架构。取自原始论文。

此模型由 nielsr 贡献。该模型的 TensorFlow 版本由 sayakpaul 贡献。原始代码可以在这里找到。

使用技巧

SegFormer 由分层 Transformer 编码器和轻量级全 MLP 解码头组成。SegformerModel 是分层 Transformer 编码器（在论文中也称为 Mix Transformer 或 MiT）。SegformerForSemanticSegmentation 在顶部添加了全 MLP 解码头，以执行图像的语义分割。此外，还有 SegformerForImageClassification，它可用于 - 你猜对了 - 对图像进行分类。SegFormer 的作者首先在 ImageNet-1k 上预训练 Transformer 编码器以对图像进行分类。接下来，他们丢弃分类头，并将其替换为全 MLP 解码头。然后，他们对 ADE20K、Cityscapes 和 COCO-stuff 进行了模型的微调，这些都是语义分割的重要基准。所有检查点都可以在 hub 上找到。
开始使用 SegFormer 的最快方法是查看示例笔记本（其中展示了在自定义数据上的推理和微调）。也可以查看博客文章，该文章介绍了 SegFormer 并说明了如何在自定义数据上对其进行微调。
TensorFlow 用户应参考此仓库，其中展示了现成的推理和微调。
您还可以查看 Hugging Face Spaces 上的此交互式演示，以在自定义图像上试用 SegFormer 模型。
SegFormer 适用于任何输入大小，因为它会将输入填充为可被 config.patch_sizes 整除的大小。
可以使用 SegformerImageProcessor 来准备图像和相应的分割图以供模型使用。请注意，此图像处理器相当基础，不包括原始论文中使用的所有数据增强。原始预处理管道（例如，对于 ADE20k 数据集）可以在此处找到。最重要的预处理步骤是图像和分割图被随机裁剪和填充到相同大小，例如 512x512 或 640x640，之后进行归一化。
另一个需要记住的事情是，可以使用设置为 True 或 False 的 do_reduce_labels 初始化 SegformerImageProcessor。在某些数据集（如 ADE20k）中，注释分割图中的索引 0 用于背景。但是，ADE20k 的 150 个标签中不包含“背景”类。因此，do_reduce_labels 用于将所有标签减少 1，并确保不为背景类计算损失（即，它将注释图中的 0 替换为 255，这是 SegformerForSemanticSegmentation 使用的损失函数的ignore_index）。但是，其他数据集使用索引 0 作为背景类，并将此类包含在所有标签中。在这种情况下，应将 do_reduce_labels 设置为 False，因为也应为背景类计算损失。
与大多数模型一样，SegFormer 有不同的尺寸，其详细信息可以在下表中找到（取自原始论文的表 7）。

模型变体	深度	隐藏层大小	解码器隐藏层大小	参数量 (M)	ImageNet-1k Top 1
MiT-b0	[2, 2, 2, 2]	[32, 64, 160, 256]	256	3.7	70.5
MiT-b1	[2, 2, 2, 2]	[64, 128, 320, 512]	256	14.0	78.7
MiT-b2	[3, 4, 6, 3]	[64, 128, 320, 512]	768	25.4	81.6
MiT-b3	[3, 4, 18, 3]	[64, 128, 320, 512]	768	45.2	83.1
MiT-b4	[3, 8, 27, 3]	[64, 128, 320, 512]	768	62.6	83.6
MiT-b5	[3, 6, 40, 3]	[64, 128, 320, 512]	768	82.0	83.8

请注意，上表中的 MiT 指的是 SegFormer 中引入的 Mix Transformer 编码器骨干网络。有关 SegFormer 在 ADE20k 等分割数据集上的结果，请参阅论文。

资源

官方 Hugging Face 和社区（🌎 表示）资源列表，可帮助您开始使用 SegFormer。

图像分类

SegformerForImageClassification 由此示例脚本和笔记本支持。
图像分类任务指南

语义分割

SegformerForSemanticSegmentation 由此示例脚本支持。
有关在自定义数据集上微调 SegFormer 的博客可以在此处找到。
有关 SegFormer 的更多演示笔记本（自定义数据集上的推理 + 微调）可以在此处找到。
TFSegformerForSemanticSegmentation 由此示例笔记本支持。
语义分割任务指南

如果您有兴趣提交资源以包含在此处，请随时打开 Pull Request，我们将进行审核！资源应理想地演示一些新的内容，而不是重复现有资源。

Transformers

SegFormer

概览

使用技巧

资源

SegformerConfig

类 transformers.SegformerConfig

SegformerFeatureExtractor

class transformers.SegformerFeatureExtractor

__call__

post_process_semantic_segmentation

SegformerImageProcessor

class transformers.SegformerImageProcessor

preprocess

post_process_semantic_segmentation

SegformerModel

class transformers.SegformerModel

forward

SegformerDecodeHead

class transformers.SegformerDecodeHead

forward

SegformerForImageClassification

class transformers.SegformerForImageClassification

forward

SegformerForSemanticSegmentation

class transformers.SegformerForSemanticSegmentation

forward

TFSegformerDecodeHead

class transformers.TFSegformerDecodeHead

调用

TFSegformerModel

class transformers.TFSegformerModel

调用

TFSegformerForImageClassification

class transformers.TFSegformerForImageClassification

调用

TFSegformerForSemanticSegmentation

class transformers.TFSegformerForSemanticSegmentation

调用

call