图像分类的迁移学习和微调 Vision Transformer

简介

随着 Transformer 架构在自然语言处理领域的良好扩展，相同的架构也被应用于图像，通过创建图像的小块并将它们视为 tokens。结果就是 Vision Transformer (ViT)。在我们开始迁移学习/微调概念之前，让我们比较一下卷积神经网络 (CNN) 和 Vision Transformer。

Vision Transformer (VT) 概述

总而言之，在 Vision Transformer 中，图像被重组为 2D 网格的 patches。模型在这些 patches 上进行训练。

主要思想可以在下图找到： Vision Transformer

但是有一个问题！卷积神经网络 (CNN) 的设计带有一个 Vision Transformer 中缺失的假设。这个假设是基于我们人类如何感知图像中的对象。这将在以下部分中描述。

CNN 和 Vision Transformer 之间有什么区别？

归纳偏置

归纳偏置是机器学习中用于描述学习算法用于进行预测的一组假设的术语。简单来说，归纳偏置就像一个捷径，可以帮助机器学习模型根据它目前看到的信息做出有根据的猜测。

以下是我们在 CNN 中观察到的一些归纳偏置

平移等变性：对象可以出现在图像中的任何位置，CNN 可以检测到它的特征。
局部性：图像中的像素主要与其周围的像素交互以形成特征。

CNN 模型非常擅长这两种偏置。ViT 没有这种假设。这就是为什么对于数据集大小达到一定阈值之前，实际上 CNN 比 ViT 更好。但是 ViT 有另一种力量！Transformer 架构（主要是）不同类型的线性函数允许 ViT 变得高度可扩展。反过来，这使得 ViT 能够通过大量数据克服没有上述两种归纳偏置的问题！

但是，每个人如何才能访问海量数据集？

对于每个人来说，在数百万张图像上训练 Vision Transformer 以获得良好的性能是不可行的。相反，可以使用来自 Hugging Face Hub 等地方的公开模型权重。

如何处理预训练模型？您可以应用迁移学习并对其进行微调！