社区计算机视觉课程文档
基于图像的联合嵌入预测架构 (I-JEPA)
并获得增强的文档体验
开始使用
基于图像的联合嵌入预测架构 (I-JEPA)
概览
基于图像的联合嵌入预测架构 (I-JEPA) 是 Meta AI 在 2023 年推出的 一项突破性的自监督学习模型。它旨在解决在不依赖传统标签或手工制作的数据增强的情况下理解图像的挑战。为了更好地了解 I-JEPA,让我们首先讨论几个概念。
基于不变性的预训练方法 vs. 生成式预训练方法
我们可以说,从图像进行自监督学习的方法大致分为两种主要方法:基于不变性的方法和生成式方法。两种方法都有其优点和缺点。
基于不变性的方法:在这些方法中,模型尝试为同一图像的不同视图生成相似的嵌入。当然,这些不同的视图是手工制作的,即我们都熟悉的图像增强技术。例如,旋转、缩放和裁剪。这些方法擅长生成高语义级别的表示,但问题是它们引入了强烈的偏差,这可能不利于某些下游任务。例如,图像分类和实例分割不需要数据增强。
生成式方法:模型尝试使用这些方法重建输入图像。这就是为什么这些方法有时被称为基于重建的自监督学习。掩码隐藏了输入图像的 patches,模型尝试在像素或 token 级别重建这些损坏的 patches(请记住这一点)。这种掩码方法可以轻松地推广到图像模态之外,但无法生成与基于不变性的方法质量水平相当的表示。此外,这些方法计算成本高昂,并且需要大型数据集才能进行鲁棒的训练。
现在让我们来谈谈联合嵌入架构。
联合嵌入架构
这是最近流行的一种从图像进行自监督学习的方法,其中训练两个网络,为同一图像的不同视图生成相似的嵌入。基本上,他们训练两个网络,让它们就同一张图片的不同视图“说同一种语言”。一个常见的选择是 Siamese 网络架构,其中两个网络共享相同的权重。但像其他一切事物一样,它也有自身的问题
表示坍塌:模型产生相同的表示,而与输入无关的情况。
输入兼容性标准:有时找到良好且适当的兼容性度量可能具有挑战性。
联合嵌入架构的一个例子是 VICReg
可以使用不同的训练方法来训练联合嵌入架构,例如
- 对比方法
- 非对比方法
- 聚类方法
到目前为止一切顺利,现在开始介绍 I-JEPA。首先,下图来自 I-JEPA 论文,显示了联合嵌入方法、生成式方法和 I-JEPA 之间的差异。
基于图像的联合嵌入预测架构 (I-JEPA)
I-JEPA 试图改进生成式方法和联合嵌入方法。从概念上讲,它与生成式方法相似,但具有以下关键差异
抽象预测:在我看来,这是 I-JEPA 最令人着迷的方面。还记得我们提到生成式方法以及它们如何尝试在像素级别重建损坏的输入吗?现在,与生成式方法不同,I-JEPA 尝试使用其引入的预测器在表示空间中预测它,这就是他们称之为抽象预测的原因。这使得模型学习更强大的语义特征。
多块掩码:另一种改进 I-JEPA 生成的语义特征的设计选择是掩盖足够大的输入图像块。
I-JEPA 组件
之前的图表显示并比较了 I-JEPA 架构,下面是其主要组件的简要描述
目标编码器 (y-encoder):编码目标图像,目标块通过掩盖其输出而生成。
上下文编码器 (x-encoder):编码图像中随机采样的上下文块,以获得相应的 patch 级别表示。
预测器:将上下文编码器的输出和每个我们希望预测的 patch 的掩码 token 作为输入,并尝试预测掩码的目标块。
目标编码器、上下文编码器和预测器都使用 Vision Transformer (ViT) 架构。您可以在本课程的单元 3 中回顾有关它们的内容。
下图来自论文,说明了 I-JEPA 的工作原理。
为何重要
那么,为何选择 I-JEPA?I-JEPA 引入了许多新的设计特性,同时仍然是一种简单有效的方法,用于学习语义图像表示,而无需依赖手工制作的数据增强。简而言之,
在 ImageNet-1K 线性探测、半监督 1% ImageNet-1K 和语义迁移任务中,I-JEPA 的性能优于像素重建方法,例如掩码自动编码器 (MAE)。
在语义任务上,I-JEPA 与视图不变预训练方法相比具有竞争力,并且在对象计数和深度预测等低级视觉任务上实现了更好的性能。
通过使用具有更简单模型和更少刚性归纳偏置的模型,I-JEPA 适用于更广泛的任务集。
I-JEPA 也具有可扩展性和效率。在 ImageNet 上进行预训练需要不到 1200 个 GPU 小时。