Swin Transformer V2模型由李泽、胡汉、林宇彤、姚铸良、谢振达、魏一漩、宁嘉、曹越、张正、董力、魏复瑞、郭白宁在《Swin Transformer V2: Scaling Up Capacity and Resolution》一文中提出,该文发表于arXiv。
论文的摘要如下
大规模NLP模型在语言任务上已证明可以显著提高性能,且没有出现饱和的迹象。它们还展示了惊人的少样本学习能力,类似于人类。本文旨在探讨计算机视觉中的大规模模型。我们解决了三个主要问题:训练不稳定性、预训练 fine-tuning 之间的分辨率差距和对标记数据的渴望。我们提出了三种主要技术:1) 结合余弦注意力的残差后归一化方法以提高训练稳定性;2) 一种对数间隔连续位置偏差方法,有效地将使用低分辨率图像预训练的模型转移到具有高分辨率输入的下游任务中;3) 一种自监督预训练方法,SimMIM,以减少对大量标记图像的需求。通过这些技术,本文成功训练了一个参数量为300亿的Swin Transformer V2模型,这是迄今为止最大的稠密视觉模型,能够以高达1,536×1,536的分辨率进行图像训练。它在4个代表性的视觉任务上创造了新纪录,包括ImageNet-V2图像分类、COCO目标检测、ADE20K语义分割和Kinetics-400视频动作分类。此外,请注意我们的训练比谷歌的10亿级视觉模型更为高效,它消耗了40倍的标记数据以及40倍的训练时间。
此模型由nandwalritik提供来源。原始代码可在此处找到。
资源
以下是一份官方Hugging Face和社区(以🌎表示)的资源列表,以帮助您开始使用Swin Transformer v2。
- Swinv2ForImageClassification支持此示例脚本和笔记本。
- 另请参阅:图像分类任务指南
除此之外
如果您有兴趣提交资源以在此处包括,请随时发起Pull Request,我们将对其进行审查!资源应理想地展示一些新内容,而不是重复现有的资源。
Swinv2Config
类 transformers.Swinv2Config
< 源代码 >( image_size = 224 patch_size = 4 num_channels = 3 embed_dim = 96 depths = [2, 2, 6, 2] num_heads = [3, 6, 12, 24] window_size = 7 pretrained_window_sizes = [0, 0, 0, 0] mlp_ratio = 4.0 qkv_bias = True hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 drop_path_rate = 0.1 hidden_act = 'gelu' use_absolute_embeddings = False initializer_range = 0.02 layer_norm_eps = 1e-05 encoder_stride = 32 out_features = None out_indices = None **kwargs )
参数
- image_size (
int
, 可选, 默认 224) — 每张图像的大小(分辨率)。 - patch_size (
int
, 可选, 默认为4) — 每个补丁的大小(分辨率)。 - num_channels (
int
, 可选, 默认为3) — 输入通道数。 - embed_dim (
int
, 可选, 默认为96) — 补丁嵌入的维度。 - depths (
list(int)
, 可选, 默认为[2, 2, 6, 2]
) — Transformer编码器中每层的深度。 - num_heads (
list(int)
, 可选, 默认为[3, 6, 12, 24]
) — Transformer编码器每层的注意力头数。 - window_size (
int
, 可选, 默认为 7) — 窗口大小。 - pretrained_window_sizes (
list(int)
, 可选, 默认为[0, 0, 0, 0]
) — 预训练期间窗口大小。 - mlp_ratio (
float
, 可选, 默认为 4.0) — MLP隐藏维度与嵌入维度之比。 - qkv_bias (
bool
,可选,默认为True
)— 是否向查询、键和值中添加可学习的偏差。 - hidden_dropout_prob (
float
,可选,默认为 0.0)— 在嵌入和编码器中所有全连接层中的dropout概率。 - attention_probs_dropout_prob (
float
,可选,默认为 0.0)— 注意力概率的dropout比例。 - drop_path_rate (
float
, 可选,默认为0.1) — 随机深度率。 - hidden_act (
str
或function
,可选,默认为"gelu"
) — 编码器中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"
、"relu"
、"selu"
和"gelu_new"
。 - use_absolute_embeddings (
bool
,可选,默认为False
) — 是否将绝对位置嵌入到补丁嵌入中。 - initializer_range (
float
,可选,默认为0.02) — 所有权重矩阵初始化的截断正态初始化器的标准差。 - out_indices (
List[int]
, 可选)——如果作为骨干使用,则输出特征的索引列表。可以是0、1、2等(取决于模型有多少阶段)。如果没有设置且已设置out_features
,将默认为对应的阶段。如果没有设置且未设置out_features
,将默认为最后一个阶段。
这是存储Swinv2Model配置的配置类。它用于根据指定参数实例化Swin Transformer v2模型,定义模型架构。使用默认值实例化配置将产生与Swin Transformer v2 microsoft/swinv2-tiny-patch4-window8-256架构相似的配置。
配置对象继承自PretrainedConfig,可以用来控制模型输出。有关更多信息,请参阅PretrainedConfig文档。
示例
>>> from transformers import Swinv2Config, Swinv2Model
>>> # Initializing a Swinv2 microsoft/swinv2-tiny-patch4-window8-256 style configuration
>>> configuration = Swinv2Config()
>>> # Initializing a model (with random weights) from the microsoft/swinv2-tiny-patch4-window8-256 style configuration
>>> model = Swinv2Model(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
Swinv2Model
class transformers.Swinv2Model
< 来源 >( config add_pooling_layer = True use_mask_token = False )
参数
- config (Swinv2Config) — 包含模型所有参数的模型配置类。使用配置文件初始化时不会加载模型相关的权重,只有配置。查看 from_pretrained() 方法以加载模型权重。
裸Swinv2模型transformer,输出原始隐藏状态,顶部没有特定的头部。这是一个PyTorch torch.nn.Module 子类。将其用作常规PyTorch模块,并参阅PyTorch文档以了解所有关于通用使用和行为的内容。
正向传播
< source >( pixel_values: 可选 = None bool_masked_pos: 可选 = None head_mask: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None interpolate_pos_encoding: bool = False return_dict: 可选 = None ) → transformers.models.swinv2.modeling_swinv2.Swinv2ModelOutput
or tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor
of shape(batch_size, num_channels, height, width)
) — 像素值。像素值可以通过 AutoImageProcessor 获取。详情见 ViTImageProcessor.call()。 - head_mask (
torch.FloatTensor
of shape(num_heads,)
or(num_layers, num_heads)
, 可选) — 用于消除注意力模块中选定头部的掩码。掩码值选择在[0, 1]
中:- 1 表示头部 未掩码,
- 0 表示头部 已掩码。
- output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。详见返回张量下的attentions
部分以获取更多详情。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。详见返回张量下的hidden_states
部分以获取更多详情。 - interpolate_pos_encoding (
bool
, 可选, 默认False
) — 是否线性插值预训练的位置编码。 - return_dict (
bool
, 可选) — 是否返回ModelOutput而不是一个普通的元组。 - bool_masked_pos (
torch.BoolTensor
,形状为(batch_size, num_patches)
,可选) — 布尔掩码位置。指示哪个块被掩码(1)以及哪个没有被掩码(0)。
返回值
transformers.models.swinv2.modeling_swinv2.Swinv2ModelOutput
或tuple(torch.FloatTensor)
一个transformers.models.swinv2.modeling_swinv2.Swinv2ModelOutput
或一个包含各种元素的torch.FloatTensor
的元组(如果传递了`return_dict=False`或当`config.return_dict=False`时),具体取决于配置(Swinv2Config)和输入。
-
last_hidden_state (
torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
) — 模型的最后一层输出处的隐藏状态序列。 -
pooler_output (
torch.FloatTensor
,形状为(batch_size, hidden_size)
,可选,当传递`add_pooling_layer=True`时返回) — 最后一层隐藏状态的平均池化。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,当传递`output_hidden_states=True`时返回或当`config.output_hidden_states=True`时) — 包含形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
的元组(一个用于嵌入输出的输出,一个用于每个阶段的输出)。模型的每个层输出处的隐藏状态以及初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,当传递`output_attentions=True`时返回或当`config.output_attentions=True`时) — 一个形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
的元组(每个阶段一个)。注意softmax后的注意力权重,用于计算自注意力头中的加权平均值。
-
reshaped_hidden_states (
tuple(torch.FloatTensor)
,可选,当传递`output_hidden_states=True`时返回或当`config.output_hidden_states=True`时) — 包含形状为(batch_size, hidden_size, height, width)
的torch.FloatTensor
的元组(一个用于嵌入输出的输出,一个用于每个阶段的输出)。包括空间维度的每个层输出处的隐藏状态以及初始嵌入输出。
Swinv2Model 的 forward 方法,覆盖了 __call__
特殊方法。
尽管前向传递的配方需要在这个函数内部定义,但是应该调用 Module
实例,而不是这个,因为前者负责运行预处理步骤和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, Swinv2Model
>>> import torch
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image", trust_remote_code=True)
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-tiny-patch4-window8-256")
>>> model = Swinv2Model.from_pretrained("microsoft/swinv2-tiny-patch4-window8-256")
>>> inputs = image_processor(image, return_tensors="pt")
>>> with torch.no_grad():
... outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 64, 768]
Swinv2ForMaskedImageModeling
class transformers.Swinv2ForMaskedImageModeling
< source >( config )
参数
- config (Swinv2Config) — 模型配置类,包含所有模型的参数。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请参阅 from_pretrained() 方法以加载模型权重。
在 SimMIM[https://arxiv.org/abs/2111.09886] 中提出的 Swinv2 模型,其顶部带解码器用于掩码图像建模。
请注意,我们在示例目录中提供了一个脚本,可以在自定义数据上预训练此模型。
此模型是PyTorch torch.nn.Module的子类。将其用作常规PyTorch模块,并参考PyTorch文档以了解所有与通用用法和行为相关的事项。
正向传播
< 源代码 >( pixel_values: Optional = None bool_masked_pos: Optional = None head_mask: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None interpolate_pos_encoding: bool = False return_dict: Optional = None ) → transformers.models.swinv2.modeling_swinv2.Swinv2MaskedImageModelingOutput
or tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor
of shape(batch_size, num_channels, height, width)
) — 像素值。像素值可以通过AutoImageProcessor获取。有关详细信息,请参阅ViTImageProcessor.call()。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于取消self-attention模块中选定头的掩码。掩码值选择在[0, 1]
内:- 1 表示头未被 掩码,
- 0 表示头被 掩码。
- output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。更多信息请参阅返回张量下的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。更多信息请参阅返回张量下的hidden_states
。 - interpolate_pos_encoding (
bool
, 可选, 默认False
) — 是否插值预训练的位置编码。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是普通元组。 - bool_masked_pos (
torch.BoolTensor
的形状为(batch_size, num_patches)
) — 布尔掩码位置。指明哪些补丁是掩码的(1)以及哪些不是(0)。
返回值
transformers.models.swinv2.modeling_swinv2.Swinv2MaskedImageModelingOutput
或 tuple(torch.FloatTensor)
A transformers.models.swinv2.modeling_swinv2.Swinv2MaskedImageModelingOutput
或一个包含 Python 浮点数元组的多个元素的元组(如果 return_dict=False
传递或当 config.return_dict=False
时),具体取决于配置 (Swinv2Config) 和输入。
-
loss (当提供
bool_masked_pos
时返回)(torch.FloatTensor
的形状为(1,)
,可选,掩码图像建模 (MLM) 损失。) -
reconstruction (
torch.FloatTensor
的形状为(batch_size, num_channels, height, width)
) — 重建的像素值。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,当传递`output_hidden_states=True`时返回或当`config.output_hidden_states=True`时) — 包含形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
的元组(一个用于嵌入输出的输出,一个用于每个阶段的输出)。模型的每个层输出处的隐藏状态以及初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,当传递`output_attentions=True`时返回或当`config.output_attentions=True`时) — 一个形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
的元组(每个阶段一个)。注意softmax后的注意力权重,用于计算自注意力头中的加权平均值。
-
reshaped_hidden_states (
tuple(torch.FloatTensor)
,可选,当传递`output_hidden_states=True`时返回或当`config.output_hidden_states=True`时) — 包含形状为(batch_size, hidden_size, height, width)
的torch.FloatTensor
的元组(一个用于嵌入输出的输出,一个用于每个阶段的输出)。包括空间维度的每个层输出处的隐藏状态以及初始嵌入输出。
Swinv2ForMaskedImageModeling 前向方法,重写了 __call__
特殊方法。
尽管前向传递的配方需要在这个函数内部定义,但是应该调用 Module
实例,而不是这个,因为前者负责运行预处理步骤和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, Swinv2ForMaskedImageModeling
>>> import torch
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-tiny-patch4-window8-256")
>>> model = Swinv2ForMaskedImageModeling.from_pretrained("microsoft/swinv2-tiny-patch4-window8-256")
>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="pt").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = torch.randint(low=0, high=2, size=(1, num_patches)).bool()
>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, reconstructed_pixel_values = outputs.loss, outputs.reconstruction
>>> list(reconstructed_pixel_values.shape)
[1, 3, 256, 256]
Swinv2ForImageClassification
类 transformers.Swinv2ForImageClassification
< 源代码 >( config )
参数
- 配置 (Swinv2Config) — 模型配置类,包含了所有模型参数。使用配置文件初始化不会加载模型相关的权重,只有配置。检查 from_pretrained() 方法以加载模型权重。
Swinv2 模型变换器,顶部带有图像分类头(在 [CLS] token 的最终隐藏状态之上的线性层),例如用于 ImageNet。
注意,可以将 SwinV2 在比训练时更高的分辨率图像上微调,通过将模型前向中的 interpolate_pos_encoding
设置为 True
。这将对预训练的位置嵌入进行插值到更高的分辨率。
此模型是PyTorch torch.nn.Module的子类。将其用作常规PyTorch模块,并参考PyTorch文档以了解所有与通用用法和行为相关的事项。
正向传播
< 资源 >( pixel_values: Optional = None head_mask: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None interpolate_pos_encoding: bool = False return_dict: Optional = None ) → transformers.models.swinv2.modeling_swinv2.Swinv2ImageClassifierOutput
or tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor
of shape(batch_size, num_channels, height, width)
) — 像素值。像素值可通过使用 AutoImageProcessor 获得。有关详细信息,请参阅 ViTImageProcessor.call()。 - head_mask (形状为
torch.FloatTensor
的对象(num_heads,)
或(num_layers, num_heads)
,可选) — 用于禁止自我注意力模块中选定头的掩码。选定的掩码值在[0, 1]
之间:- 1 表示该头未掩码;
- 0 表示该头已掩码。
- output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回的张量下的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关详细信息,请参阅返回的张量下的hidden_states
。 - interpolate_posEncoding (
bool
, 可选, 默认False
) — 是否对预训练的定位编码进行插值。 - return_dict (
bool
, 可选) — 是否返回一个ModelOutput而不是一个普通的元组。 - labels (
torch.LongTensor
,形状(batch_size,)
,可选) — 用于计算图像分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
之间。如果config.num_labels == 1
,则计算回归损失(均方损失);如果config.num_labels > 1
,则计算分类损失(交叉熵)。
返回值
transformers.models.swinv2.modeling_swinv2.Swinv2ImageClassifierOutput
或tuple(torch.FloatTensor)
transformers.models.swinv2.modeling_swinv2.Swinv2ImageClassifierOutput
或一个包含torch.FloatTensor
的元组(如果传递了return_dict=False
或当config.return_dict=False
时),它包含根据配置(Swinv2Config)和输入而定的多个元素。
-
loss (
torch.FloatTensor
,形状(1,)
,可选,当提供labels
时返回) — 分类(或当config.num_labels==1
时的回归)损失。 -
logits (
torch.FloatTensor
,形状(batch_size, config.num_labels)
) — 分类(或当config.num_labels==1
时的回归)分数(在SoftMax之前)。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,当传递`output_hidden_states=True`时返回或当`config.output_hidden_states=True`时) — 包含形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
的元组(一个用于嵌入输出的输出,一个用于每个阶段的输出)。模型的每个层输出处的隐藏状态以及初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,当传递`output_attentions=True`时返回或当`config.output_attentions=True`时) — 一个形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
的元组(每个阶段一个)。注意softmax后的注意力权重,用于计算自注意力头中的加权平均值。
-
reshaped_hidden_states (
tuple(torch.FloatTensor)
,可选,当传递`output_hidden_states=True`时返回或当`config.output_hidden_states=True`时) — 包含形状为(batch_size, hidden_size, height, width)
的torch.FloatTensor
的元组(一个用于嵌入输出的输出,一个用于每个阶段的输出)。包括空间维度的每个层输出处的隐藏状态以及初始嵌入输出。
《Swinv2ForImageClassification》的前向方法,重写了`__call__`特殊方法。
尽管前向传递的配方需要在这个函数内部定义,但是应该调用 Module
实例,而不是这个,因为前者负责运行预处理步骤和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, Swinv2ForImageClassification
>>> import torch
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image", trust_remote_code=True)
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-tiny-patch4-window8-256")
>>> model = Swinv2ForImageClassification.from_pretrained("microsoft/swinv2-tiny-patch4-window8-256")
>>> inputs = image_processor(image, return_tensors="pt")
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
Egyptian cat