基于图像的联合嵌入预测架构 (I-JEPA)
概述
基于图像的联合嵌入预测架构 (I-JEPA) 是一种突破性的自监督学习模型,由 Meta AI 于 2023 年推出。它解决了在不依赖传统标签或手工制作的数据增强的情况下理解图像的挑战。为了更好地了解 I-JEPA,让我们首先讨论几个概念。
基于不变性的预训练方法与生成式预训练方法
我们可以说,从图像中进行自监督学习主要有两种方法:基于不变性的方法和生成式方法。这两种方法各有优缺点。
基于不变性的方法:在这些方法中,模型试图为同一图像的不同视图生成相似的嵌入。当然,这些不同的视图是手工制作的,是我们都熟悉的图像增强。例如,旋转、缩放和裁剪。这些方法擅长生成高语义级别的表示,但问题是它们引入了可能对某些下游任务有害的强烈偏差。例如,图像分类和实例分割不需要数据增强。
生成式方法:模型尝试使用这些方法重建输入图像。这就是为什么这些方法有时被称为基于重建的自监督学习。掩码隐藏输入图像的补丁,模型尝试在像素或标记级别重建这些损坏的补丁(记住这一点)。这种掩码方法可以轻松推广到图像模态之外,但不会生成与基于不变性的方法相同质量级别的表示。此外,这些方法在计算上代价高昂,并且需要大型数据集才能进行稳健的训练。
现在让我们谈谈联合嵌入架构。
联合嵌入架构
这是一种最近流行的从图像中进行自监督学习的方法,其中两个网络被训练以对同一图像的不同视图生成相似的嵌入。基本上,它们训练两个网络来“用相同的语言”描述同一图片的不同视图。一个常见的选择是孪生网络架构,其中两个网络共享相同的权重。但就像其他所有事物一样,它也有自己的问题
表示崩溃:模型无论输入是什么都生成相同表示的情况。
输入兼容性标准:有时找到良好且合适的兼容性度量可能具有挑战性。
联合嵌入架构的一个示例是 VICReg
可以使用不同的训练方法来训练联合嵌入架构,例如
- 对比方法
- 非对比方法
- 聚类方法
到目前为止都很好,现在到 I-JEPA。首先,下图来自 I-JEPA 论文,显示了联合嵌入方法、生成方法和 I-JEPA 之间的区别。
基于图像的联合嵌入预测架构 (I-JEPA)
I-JEPA 试图改进生成方法和联合嵌入方法。从概念上讲,它类似于生成方法,但具有以下关键区别
抽象预测:在我看来,这是 I-JEPA 最令人着迷的方面。还记得我们提到过生成方法以及它们如何尝试在像素级别重建损坏的输入吗?现在,与生成方法不同,I-JEPA 尝试使用其引入的预测器在表示空间中预测它,这就是为什么他们将其称为抽象预测。这导致模型学习更强大的语义特征。
多块掩码:另一个改进 I-JEPA 生成的语义特征的设计选择是对输入图像的足够大的块进行掩码。
I-JEPA 组件
前面的图表显示并比较了 I-JEPA 架构,下面是对其主要组件的简要说明
目标编码器 (y-encoder):对目标图像进行编码,并通过掩码其输出生成目标块。
上下文编码器 (x-encoder):对图像中随机采样的上下文块进行编码,以获得相应的补丁级表示。
预测器:将上下文编码器的输出和我们希望预测的每个补丁的掩码标记作为输入,并尝试预测掩码的目标块。
目标编码器、上下文编码器和预测器都使用视觉转换器 (ViT) 架构。在本课程的单元 3 中,您可以复习它们。
下图来自论文,说明了 I-JEPA 的工作原理。
重要性
那么,为什么选择 I-JEPA?I-JEPA 引入了许多新的设计特性,同时仍然是一种简单高效的方法,用于学习语义图像表示,而不依赖于手工制作的数据增强。简而言之,
在 ImageNet-1K 线性探测、ImageNet-1K 半监督 1% 和语义迁移任务上,I-JEPA 的性能优于像素重建方法(如掩码自动编码器 (MAE))。
在语义任务上,I-JEPA 与视图不变预训练方法具有竞争力,并在对象计数和深度预测等低级视觉任务上实现了更好的性能。
通过使用更简单的模型和更少的严格归纳偏置,I-JEPA 可应用于更广泛的任务。
I-JEPA 也是可扩展且高效的。在 ImageNet 上进行预训练**所需时间少于 1200 个 GPU 小时**。