社区计算机视觉课程文档

基于图像的联合嵌入预测架构 (I-JEPA)

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

基于图像的联合嵌入预测架构 (I-JEPA)

概述

基于图像的联合嵌入预测架构(I-JEPA)是 Meta AI 于 2023 年推出的一种开创性的自监督学习模型。它解决了在不依赖传统标签或手工数据增强的情况下理解图像的挑战。为了更好地了解 I-JEPA,我们首先讨论几个概念。

基于不变性与生成式预训练方法

我们可以说,从图像中进行自监督学习主要有两种方法:基于不变性的方法和生成式方法。这两种方法各有优缺点。

  • 基于不变性的方法:在这些方法中,模型试图为同一图像的不同视图生成相似的嵌入。当然,这些不同的视图是手工制作的,是我们都熟悉的数据增强。例如,旋转、缩放和裁剪。这些方法擅长在较高的语义级别生成表示,但问题是它们引入了强烈的偏差,这可能对某些下游任务有害。例如,图像分类和实例分割不需要数据增强。

  • 生成式方法:模型尝试使用这些方法重建输入图像。这就是为什么这些方法有时被称为基于重建的自监督学习。掩码隐藏了输入图像的补丁,模型尝试在像素或令牌级别重建这些损坏的补丁(请记住这一点)。这种掩码方法可以很容易地推广到图像模态之外,但不能生成与基于不变性的方法相同质量的表示。此外,这些方法计算成本高,需要大型数据集才能进行稳健训练。

现在让我们谈谈联合嵌入架构。

联合嵌入架构

这是一种新近且流行的自监督图像学习方法,其中训练两个网络以针对同一图像的不同视图生成相似的嵌入。基本上,它们训练两个网络对同一张图片的不同视图“说相同的语言”。常见的选择是暹罗网络架构,其中两个网络共享相同的权重。但与其他一切一样,它也有自己的问题

  • 表示崩溃:模型无论输入如何都生成相同表示的情况。

  • 输入兼容性标准:有时找到良好且适当的兼容性度量可能具有挑战性。

联合嵌入架构的一个例子是 VICReg

可以采用不同的训练方法来训练联合嵌入架构,例如

  • 对比方法
  • 非对比方法
  • 聚类方法

到目前为止一切顺利,现在是 I-JEPA。首先,I-JEPA 论文中的下图展示了联合嵌入方法、生成方法和 I-JEPA 之间的区别。

I-JEPA Comparisons

基于图像的联合嵌入预测架构 (I-JEPA)

I-JEPA 试图改进生成式和联合嵌入方法。概念上,它与生成式方法相似,但有以下主要区别

  1. 抽象预测:在我看来,这是 I-JEPA 最令人着迷的方面。还记得我们提到生成式方法以及它们如何尝试在像素级别重建损坏的输入吗?现在,与生成式方法不同,I-JEPA 尝试使用其引入的预测器在表示空间中预测它,这就是他们称之为抽象预测的原因。这使得模型能够学习更强大的语义特征。

  2. 多块掩码:提高 I-JEPA 生成的语义特征的另一个设计选择是掩码输入图像的足够大的块。

I-JEPA 组件

前面的图表显示并比较了 I-JEPA 架构,下面是其主要组件的简要说明

  1. 目标编码器 (y-encoder):编码目标图像,通过掩码其输出生成目标块。

  2. 上下文编码器 (x-encoder):编码图像中随机采样的上下文块以获得相应的补丁级表示。

  3. 预测器:将上下文编码器的输出和每个要预测的补丁的掩码令牌作为输入,并尝试预测被掩码的目标块。

目标编码器、上下文编码器和预测器都使用 Vision Transformer (ViT) 架构。您可以在本课程的第三单元中复习它们。

论文中的下图说明了 I-JEPA 的工作原理。

I-JEPA method

为什么它很重要

那么,为什么选择 I-JEPA?I-JEPA 引入了许多新的设计特性,同时仍然是一种简单有效的方法,无需依赖手工数据增强即可学习语义图像表示。简而言之,

  1. I-JEPA 在 ImageNet-1K 线性探测、半监督 1% ImageNet-1K 和语义迁移任务上优于 Masked Autoencoders (MAE) 等像素重建方法。

  2. I-JEPA 在语义任务上与视图不变预训练方法具有竞争力,并在物体计数和深度预测等低级视觉任务上取得了更好的性能。

  3. 通过使用具有较少刚性归纳偏差的更简单模型,I-JEPA 适用于更广泛的任务集。

  4. I-JEPA 也具有可扩展性和效率。在 ImageNet 上进行预训练需要不到 1200 个 GPU 小时

参考文献

< > 在 GitHub 上更新