Transformers 文档
I-JEPA
并获得增强的文档体验
开始使用
I-JEPA
概述
I-JEPA 模型由 Mahmoud Assran、Quentin Duval、Ishan Misra、Piotr Bojanowski、Pascal Vincent、Michael Rabbat、Yann LeCun 和 Nicolas Ballas 在论文 《基于图像的联合嵌入预测架构》中提出。I-JEPA 是一种自监督学习方法,它根据同一图像的其他部分来预测图像一部分的表示。这种方法侧重于学习语义特征,而不依赖于手工制作的数据变换所产生的预定义不变性(这可能偏向于特定任务),也不依赖于填充像素级细节(这通常导致表示的意义不大)。
论文摘要如下:
本文展示了一种无需依赖手工制作的数据增强即可学习高度语义化图像表示的方法。我们引入了基于图像的联合嵌入预测架构(I-JEPA),这是一种用于图像自监督学习的非生成方法。I-JEPA 背后的思想很简单:从单个上下文块预测同一图像中各个目标块的表示。引导 I-JEPA 产生语义表示的一个核心设计选择是掩蔽策略;具体来说,至关重要的是 (a) 采样具有足够大尺度(语义化)的目标块,以及 (b) 使用足够信息丰富(空间分布)的上下文块。经验上,当与视觉 Transformer 结合时,我们发现 I-JEPA 具有高度可扩展性。例如,我们在 16 个 A100 GPU 上,在 72 小时内训练了一个 ViT-Huge/14 模型在 ImageNet 上,从而在从线性分类到对象计数和深度预测等广泛的下游任务中取得了强大的性能。

如何使用
以下是如何使用此模型进行图像特征提取的方法:
import requests
import torch
from PIL import Image
from torch.nn.functional import cosine_similarity
from transformers import AutoModel, AutoProcessor
url_1 = "http://images.cocodataset.org/val2017/000000039769.jpg"
url_2 = "http://images.cocodataset.org/val2017/000000219578.jpg"
image_1 = Image.open(requests.get(url_1, stream=True).raw)
image_2 = Image.open(requests.get(url_2, stream=True).raw)
model_id = "facebook/ijepa_vith14_1k"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModel.from_pretrained(model_id)
@torch.no_grad()
def infer(image):
inputs = processor(image, return_tensors="pt")
outputs = model(**inputs)
return outputs.last_hidden_state.mean(dim=1)
embed_1 = infer(image_1)
embed_2 = infer(image_2)
similarity = cosine_similarity(embed_1, embed_2)
print(similarity)
资源
Hugging Face 官方和社区(以 🌎 标志)资源列表,帮助您开始使用 I-JEPA。
- IJepaForImageClassification 受此示例脚本和笔记本支持。
- 另请参阅:图像分类任务指南
IJepaConfig
class transformers.IJepaConfig
< 源 >( hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 initializer_range = 0.02 layer_norm_eps = 1e-12 image_size = 224 patch_size = 16 num_channels = 3 qkv_bias = True pooler_output_size = None pooler_act = 'tanh' **kwargs )
参数
- hidden_size (
int
, 可选, 默认为 768) — 编码器层和池化层的维度。 - num_hidden_layers (
int
, 可选, 默认为 12) — Transformer 编码器中的隐藏层数量。 - num_attention_heads (
int
, 可选, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数量。 - intermediate_size (
int
, 可选, 默认为 3072) — Transformer 编码器中“中间”(即前馈)层的维度。 - hidden_act (
str
或function
, 可选, 默认为"gelu"
) — 编码器和池化层中的非线性激活函数(函数或字符串)。如果为字符串,则支持"gelu"
、"relu"
、"selu"
和"gelu_new"
。 - hidden_dropout_prob (
float
, 可选, 默认为 0.0) — 嵌入层、编码器和池化层中所有全连接层的丢弃概率。 - attention_probs_dropout_prob (
float
, 可选, 默认为 0.0) — 注意力概率的丢弃率。 - initializer_range (
float
, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。 - layer_norm_eps (
float
, 可选, 默认为 1e-12) — 层归一化层使用的 epsilon 值。 - image_size (
int
, 可选, 默认为 224) — 每张图像的大小(分辨率)。 - patch_size (
int
, 可选, 默认为 16) — 每个补丁的大小(分辨率)。 - num_channels (
int
, 可选, 默认为 3) — 输入通道的数量。 - qkv_bias (
bool
, 可选, 默认为True
) — 是否为查询、键和值添加偏置。 - pooler_output_size (
int
, 可选) — 池化层的维度。如果为 None,则默认为 `hidden_size`。 - pooler_act (
str
, 可选, 默认为"tanh"
) — 池化层使用的激活函数。Flax 和 Pytorch 支持 ACT2FN 的键值,Tensorflow 支持 https://tensorflowcn.cn/api_docs/python/tf/keras/activations 中的元素。
这是用于存储 IJepaModel 配置的配置类。它用于根据指定的参数实例化 IJEPA 模型,定义模型架构。使用默认值实例化配置将产生与 I-JEPA facebook/ijepa_vith14_1k 架构类似的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。有关更多信息,请阅读 PretrainedConfig 的文档。
示例
>>> from transformers import IJepaConfig, IJepaModel
>>> # Initializing a IJEPA ijepa-base-patch16-224 style configuration
>>> configuration = IJepaConfig()
>>> # Initializing a model (with random weights) from the ijepa-base-patch16-224 style configuration
>>> model = IJepaModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
IJepaModel
class transformers.IJepaModel
< 源 >( config: IJepaConfig add_pooling_layer: bool = False use_mask_token: bool = False )
参数
- config (IJepaConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
- add_pooling_layer (
bool
, 可选, 默认为True
) — 是否添加池化层。 - use_mask_token (
bool
, 可选, 默认为False
) — 是否在掩蔽图像建模中使用掩码标记。
原始的 Ijepa 模型,输出未经任何特定头部处理的原始隐藏状态。
此模型继承自 PreTrainedModel。请查看超类的文档,了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 PyTorch 的 torch.nn.Module 子类。可以像常规的 PyTorch 模块一样使用它,并参考 PyTorch 文档了解与通用用法和行为相关的所有事项。
forward
< 源 >( pixel_values: typing.Optional[torch.Tensor] = None bool_masked_pos: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.Tensor
,形状为(batch_size, num_channels, image_size, image_size)
,可选) — 对应于输入图像的张量。像素值可以使用{image_processor_class}
获取。有关详细信息,请参阅{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
处理图像)。 - bool_masked_pos (
torch.BoolTensor
,形状为(batch_size, num_patches)
,可选) — 布尔掩码位置。指示哪些补丁被掩码(1),哪些没有(0)。 - head_mask (
torch.Tensor
,形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于将自注意力模块的选定头部置零的掩码。掩码值在[0, 1]
之间选择:- 1 表示头部未被掩码,
- 0 表示头部被掩码。
- output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 `attentions`。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 `hidden_states`。 - interpolate_pos_encoding (
bool
, 可选) — 是否对预训练的位置编码进行插值。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通的元组。
返回
transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.BaseModelOutputWithPooling 或一个 `torch.FloatTensor` 的元组(如果传递 `return_dict=False` 或 `config.return_dict=False`),包含各种元素,具体取决于配置(IJepaConfig)和输入。
-
last_hidden_state (
torch.FloatTensor
, 形状为(batch_size, sequence_length, hidden_size)
) — 模型最后一层输出的隐藏状态序列。 -
pooler_output (
torch.FloatTensor
,形状为(batch_size, hidden_size)
) — 序列第一个标记(分类标记)的最后一层隐藏状态,经过用于辅助预训练任务的层进一步处理。例如,对于 BERT 系列模型,这将返回经过线性层和 tanh 激活函数处理后的分类标记。线性层权重是在预训练期间从下一句预测(分类)目标中训练的。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选, 在传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(一个用于嵌入层的输出,如果模型有嵌入层,+ 一个用于每层的输出),形状为 `(batch_size, sequence_length, hidden_size)`。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选, 在传递 `output_attentions=True` 或 `config.output_attentions=True` 时返回) — `torch.FloatTensor` 的元组(每层一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
IJepaModel 的 forward 方法,覆盖了 `__call__` 特殊方法。
尽管前向传播的配方需要在此函数内定义,但之后应调用 `Module` 实例而不是此函数,因为前者会处理预处理和后处理步骤,而后者会默默地忽略它们。
IJepaForImageClassification
class transformers.IJepaForImageClassification
< 源 >( config: IJepaConfig )
参数
- config (IJepaConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
IJepa 模型 transformer,顶部带有一个图像分类头(在最终隐藏状态之上加一个线性层),例如用于 ImageNet。
请注意,通过在模型的前向传播中将 `interpolate_pos_encoding` 设置为 `True`,可以在比训练时分辨率更高的图像上微调 IJepa。这会将预训练的位置嵌入插值到更高的分辨率。
此模型继承自 PreTrainedModel。请查看超类的文档,了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 PyTorch 的 torch.nn.Module 子类。可以像常规的 PyTorch 模块一样使用它,并参考 PyTorch 文档了解与通用用法和行为相关的所有事项。
forward
< 源 >( pixel_values: typing.Optional[torch.Tensor] = None head_mask: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.ImageClassifierOutput 或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.Tensor
,形状为(batch_size, num_channels, image_size, image_size)
,可选) — 对应于输入图像的张量。像素值可以使用{image_processor_class}
获取。有关详细信息,请参阅{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
处理图像)。 - head_mask (
torch.Tensor
,形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于将自注意力模块的选定头部置零的掩码。掩码值在[0, 1]
之间选择:- 1 表示头部未被掩码,
- 0 表示头部被掩码。
- labels (
torch.LongTensor
,形状为(batch_size,)
,可选) — 用于计算图像分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
范围内。如果config.num_labels == 1
,则计算回归损失(均方损失);如果config.num_labels > 1
,则计算分类损失(交叉熵)。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。更多详情请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。更多详情请参阅返回张量下的hidden_states
。 - interpolate_pos_encoding (
bool
, 可选) — 是否对预训练的位置编码进行插值。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
返回
transformers.modeling_outputs.ImageClassifierOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.ImageClassifierOutput 或一个 torch.FloatTensor
元组(如果传递了 return_dict=False
或 config.return_dict=False
),包含根据配置(IJepaConfig)和输入而变化的不同元素。
-
loss (形状为
(1,)
的torch.FloatTensor
,可选,当提供labels
时返回) — 分类损失(如果 config.num_labels==1,则为回归损失)。 -
logits (形状为
(batch_size, config.num_labels)
的torch.FloatTensor
) — 分类(如果 config.num_labels==1,则为回归)分数(SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(如果模型有嵌入层,则一个用于嵌入层的输出,外加每个阶段的一个输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每个阶段输出的隐藏状态(也称为特征图)。 -
attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, patch_size, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
IJepaForImageClassification 的 forward 方法覆盖了 __call__
特殊方法。
尽管前向传播的配方需要在此函数内定义,但之后应调用 `Module` 实例而不是此函数,因为前者会处理预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, IJepaForImageClassification
>>> import torch
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("facebook/ijepa_vith14_1k")
>>> model = IJepaForImageClassification.from_pretrained("facebook/ijepa_vith14_1k")
>>> inputs = image_processor(image, return_tensors="pt")
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...