DeiT

概述

DeiT 模型由 Hugo Touvron、Matthieu Cord、Matthijs Douze、Francisco Massa、Alexandre Sablayrolles、Hervé Jégou 在 Training data-efficient image transformers & distillation through attention 中提出。Vision Transformer (ViT) 在 Dosovitskiy 等人，2020 年中被引入，它表明可以使用 Transformer 编码器（类似 BERT）来匹配甚至超越现有的卷积神经网络。然而，该论文中介绍的 ViT 模型需要昂贵的基础设施进行数周的训练，并使用外部数据。DeiT（数据高效图像 Transformer）是更高效训练的图像分类 Transformer，与原始 ViT 模型相比，需要更少的数据和更少的计算资源。

该论文的摘要如下：

最近，纯粹基于注意力的神经网络被证明可以解决图像理解任务，例如图像分类。然而，这些视觉 Transformer 使用昂贵的基础设施预训练数亿张图像，从而限制了它们的采用。在这项工作中，我们仅通过在 Imagenet 上训练来生成具有竞争力的无卷积 Transformer。我们在不到 3 天的时间内在单台计算机上训练它们。我们的参考视觉 Transformer（86M 参数）在 ImageNet 上实现了 83.1% 的 top-1 准确率（单裁剪评估），且没有外部数据。更重要的是，我们引入了一种特定于 Transformer 的师生策略。它依赖于一个蒸馏令牌，确保学生通过注意力从老师那里学习。我们展示了这种基于令牌的蒸馏的优势，尤其是在使用卷积网络作为教师时。这使我们能够报告在 Imagenet（我们获得了高达 85.2% 的准确率）以及转移到其他任务时与卷积网络相比具有竞争力的结果。我们分享我们的代码和模型。

此模型由 nielsr 贡献。此模型的 TensorFlow 版本由 amyeroberts 添加。

使用技巧

与 ViT 相比，DeiT 模型使用所谓的蒸馏令牌，以便有效地从教师（在 DeiT 论文中，这是一个类似 ResNet 的模型）那里学习。蒸馏令牌通过反向传播学习，通过自注意力层与类 ([CLS]) 和补丁令牌交互。
微调蒸馏模型有两种方法，要么 (1) 以经典方式，仅将预测头放在类令牌的最终隐藏状态之上，而不使用蒸馏信号，要么 (2) 通过将预测头同时放在类令牌和蒸馏令牌之上。在后一种情况下，[CLS] 预测头使用头部预测和 ground-truth 标签之间的常规交叉熵进行训练，而蒸馏预测头使用硬蒸馏（蒸馏头部预测与教师预测的标签之间的交叉熵）进行训练。在推理时，将两个头部之间的平均预测作为最终预测。(2) 也称为“使用蒸馏进行微调”，因为依赖于已在下游数据集上微调过的教师。在模型方面，(1) 对应于 DeiTForImageClassification，(2) 对应于 DeiTForImageClassificationWithTeacher。
请注意，作者也尝试了 (2) 的软蒸馏（在这种情况下，蒸馏预测头使用 KL 散度进行训练，以匹配教师的 softmax 输出），但硬蒸馏给出了最佳结果。
所有发布的检查点都仅在 ImageNet-1k 上进行了预训练和微调。未使用外部数据。这与原始 ViT 模型形成对比，后者使用了 JFT-300M 数据集/Imagenet-21k 等外部数据进行预训练。
DeiT 的作者还发布了更高效训练的 ViT 模型，您可以直接将其插入 ViTModel 或 ViTForImageClassification。使用了数据增强、优化和正则化等技术，以便模拟在更大的数据集上进行训练（同时仅使用 ImageNet-1k 进行预训练）。有 4 种变体可用（3 种不同尺寸）：facebook/deit-tiny-patch16-224、facebook/deit-small-patch16-224、facebook/deit-base-patch16-224 和 facebook/deit-base-patch16-384。请注意，应使用 DeiTImageProcessor 以准备模型的图像。

使用缩放点积注意力 (SDPA)

PyTorch 包括一个原生的缩放点积注意力 (SDPA) 运算符，作为 torch.nn.functional 的一部分。此函数包含多个实现，可以根据输入和使用的硬件应用。有关更多信息，请参阅官方文档或 GPU 推理页面。

当实现可用时，默认情况下 torch>=2.1.1 使用 SDPA，但您也可以在 from_pretrained() 中设置 attn_implementation="sdpa" 以显式请求使用 SDPA。

from transformers import DeiTForImageClassification
model = DeiTForImageClassification.from_pretrained("facebook/deit-base-distilled-patch16-224", attn_implementation="sdpa", torch_dtype=torch.float16)
...

为了获得最佳加速，我们建议以半精度（例如 torch.float16 或 torch.bfloat16）加载模型。

在一个本地基准测试 (A100-40GB, PyTorch 2.3.0, OS Ubuntu 22.04) 中，使用 float32 和 facebook/deit-base-distilled-patch16-224 模型，我们看到了以下推理期间的加速。

批次大小	平均推理时间 (ms)，eager 模式	平均推理时间 (ms)，sdpa 模型	加速，Sdpa / Eager (x)
1	8	6	1.33
2	9	6	1.5
4	9	6	1.5
8	8	6	1.33

资源

以下是官方 Hugging Face 和社区（🌎 表示）资源列表，可帮助您开始使用 DeiT。

图像分类

DeiTForImageClassification 由此示例脚本和 notebook 支持。
另请参阅：图像分类任务指南

除此之外

DeiTForMaskedImageModeling 由此示例脚本支持。

如果您有兴趣提交资源以包含在此处，请随时打开 Pull Request，我们将对其进行审核！理想情况下，资源应展示一些新内容，而不是重复现有资源。

Transformers

DeiT

概述

使用技巧

使用缩放点积注意力 (SDPA)

资源

DeiTConfig

class transformers.DeiTConfig

DeiTFeatureExtractor

class transformers.DeiTFeatureExtractor

__call__

DeiTImageProcessor

class transformers.DeiTImageProcessor

preprocess

DeiTImageProcessorFast

class transformers.DeiTImageProcessorFast

preprocess

DeiTModel

class transformers.DeiTModel

forward

DeiTForMaskedImageModeling

class transformers.DeiTForMaskedImageModeling

forward

DeiTForImageClassification

class transformers.DeiTForImageClassification

forward

DeiTForImageClassificationWithTeacher

class transformers.DeiTForImageClassificationWithTeacher

forward

TFDeiTModel

class transformers.TFDeiTModel

call

TFDeiTForMaskedImageModeling

class transformers.TFDeiTForMaskedImageModeling

call

TFDeiTForImageClassification

class transformers.TFDeiTForImageClassification

call

TFDeiTForImageClassificationWithTeacher

class transformers.TFDeiTForImageClassificationWithTeacher

call

call