Swin Transformer V2

Swin Transformer V2 是一个拥有 3B 参数的模型，其重点是如何将视觉模型扩展到数十亿参数。它引入了残差后归一化结合余弦注意力以提高训练稳定性，对预训练和微调之间不同图像分辨率具有更好处理能力的对数间隔连续位置偏差，以及一种新的预训练方法 (SimMIM)，以减少对大量标注数据的需求。这些改进使得高效训练非常大的模型（高达 30 亿参数）成为可能，这些模型能够处理高分辨率图像。

您可以在 Microsoft 组织下找到官方的 Swin Transformer V2 检查点。

点击右侧边栏的 Swin Transformer V2 模型，查看更多 Swin Transformer V2 应用于视觉任务的示例。

流水线

自动模型

注意事项

Swin Transformer V2 可以对任何可被 `32` 整除的输入高度和宽度进行填充。
Swin Transformer V2 可用作骨干网络。当 `output_hidden_states = True` 时，它会同时输出 `hidden_states` 和 `reshaped_hidden_states`。`reshaped_hidden_states` 的形状为 `(batch, num_channels, height, width)`，而不是 `(batch_size, sequence_length, num_channels)`。

Swinv2Config

类 transformers.Swinv2Config

< 源 >

( image_size = 224 patch_size = 4 num_channels = 3 embed_dim = 96 depths = [2, 2, 6, 2] num_heads = [3, 6, 12, 24] window_size = 7 pretrained_window_sizes = [0, 0, 0, 0] mlp_ratio = 4.0 qkv_bias = True hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 drop_path_rate = 0.1 hidden_act = 'gelu' use_absolute_embeddings = False initializer_range = 0.02 layer_norm_eps = 1e-05 encoder_stride = 32 out_features = None out_indices = None **kwargs )

参数

image_size (int, 可选, 默认为 224) — 每张图像的大小（分辨率）。
patch_size (int, 可选, 默认为 4) — 每个块的大小（分辨率）。
num_channels (int, 可选, 默认为 3) — 输入通道数。
embed_dim (int, 可选, 默认为 96) — 块嵌入的维度。
depths (list(int), 可选, 默认为 [2, 2, 6, 2]) — Transformer 编码器中每层的深度。
num_heads (list(int), 可选, 默认为 [3, 6, 12, 24]) — Transformer 编码器中每层的注意力头数。
window_size (int, 可选, 默认为 7) — 窗口大小。
pretrained_window_sizes (list(int), 可选, 默认为 [0, 0, 0, 0]) — 预训练期间的窗口大小。
mlp_ratio (float, 可选, 默认为 4.0) — MLP 隐藏维度与嵌入维度之比。
qkv_bias (bool, 可选, 默认为 True) — 是否应将可学习的偏置添加到查询、键和值中。
hidden_dropout_prob (float, 可选, 默认为 0.0) — 嵌入和编码器中所有全连接层的 dropout 概率。
attention_probs_dropout_prob (float, 可选, 默认为 0.0) — 注意力概率的 dropout 比率。
drop_path_rate (float, 可选, 默认为 0.1) — 随机深度率。
hidden_act (str 或 function, 可选, 默认为 "gelu") — 编码器中的非线性激活函数（函数或字符串）。如果为字符串，则支持 "gelu"、"relu"、"selu" 和 "gelu_new"。
use_absolute_embeddings (bool, 可选, 默认为 False) — 是否向块嵌入添加绝对位置嵌入。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
layer_norm_eps (float, 可选, 默认为 1e-05) — 层归一化层使用的 epsilon 值。
encoder_stride (int, 可选, 默认为 32) — 用于掩码图像建模的解码器头部空间分辨率的增加因子。
out_features (list[str], 可选) — 如果用作骨干网络，则为要输出的特征列表。可以是 "stem"、"stage1"、"stage2" 等（取决于模型有多少个阶段）。如果未设置且 out_indices 已设置，则默认为相应的阶段。如果未设置且 out_indices 未设置，则默认为最后一个阶段。
out_indices (list[int], 可选) — 如果用作骨干网络，则为要输出的特征索引列表。可以是 0、1、2 等（取决于模型有多少个阶段）。如果未设置且 out_features 已设置，则默认为相应的阶段。如果未设置且 out_features 未设置，则默认为最后一个阶段。

这是配置类，用于存储 Swinv2Model 的配置。它用于根据指定的参数实例化 Swin Transformer v2 模型，定义模型架构。使用默认值实例化配置将生成与 Swin Transformer v2 microsoft/swinv2-tiny-patch4-window8-256 架构相似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请参阅 PretrainedConfig 的文档。

示例

>>> from transformers import Swinv2Config, Swinv2Model

>>> # Initializing a Swinv2 microsoft/swinv2-tiny-patch4-window8-256 style configuration
>>> configuration = Swinv2Config()

>>> # Initializing a model (with random weights) from the microsoft/swinv2-tiny-patch4-window8-256 style configuration
>>> model = Swinv2Model(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Swinv2Model

类 transformers.Swinv2Model

< 源 >

( config add_pooling_layer = True use_mask_token = False )

参数

config (Swinv2Model) — 模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重，只加载配置。请查看 from_pretrained() 方法来加载模型权重。
add_pooling_layer (bool, 可选, 默认为 True) — 是否应用池化层。
use_mask_token (bool, 可选, 默认为 False) — 是否在嵌入层中创建和应用掩码标记。

裸 Swinv2 模型，输出原始隐藏状态，顶部没有任何特定头部。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。请将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档以获取所有与通用用法和行为相关的事项。

前向传播

< 源 >

( pixel_values: typing.Optional[torch.FloatTensor] = None bool_masked_pos: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False return_dict: typing.Optional[bool] = None ) → transformers.models.swinv2.modeling_swinv2.Swinv2ModelOutput 或 tuple(torch.FloatTensor)

参数

pixel_values (形状为 (batch_size, num_channels, image_size, image_size) 的 torch.FloatTensor，可选) — 对应于输入图像的张量。像素值可以使用 {image_processor_class} 获取。有关详细信息，请参阅 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 处理图像）。
bool_masked_pos (形状为 (batch_size, num_patches) 的 torch.BoolTensor，可选) — 布尔掩码位置。指示哪些块被掩码（1）哪些没有（0）。
head_mask (形状为 (num_heads,) 或 (num_layers, num_heads) 的 torch.FloatTensor，可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值选择在 [0, 1] 之间：
- 1 表示头部未被掩码，
- 0 表示头部被掩码。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的 hidden_states。
interpolate_pos_encoding (bool, 默认为 False) — 是否插值预训练的位置编码。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是纯元组。

transformers.models.swinv2.modeling_swinv2.Swinv2ModelOutput 或 tuple(torch.FloatTensor)

一个 transformers.models.swinv2.modeling_swinv2.Swinv2ModelOutput 或一个 torch.FloatTensor 元组（如果传递了 return_dict=False 或 config.return_dict=False），包含根据配置 (Swinv2Config) 和输入而定的各种元素。

last_hidden_state (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor, 可选，默认为 None) — 模型最后一层输出的隐藏状态序列。
pooler_output (torch.FloatTensor，形状为 (batch_size, hidden_size)，可选，当传递 add_pooling_layer=True 时返回) — 最后一层隐藏状态的平均池化。
hidden_states (tuple[torch.FloatTensor, ...], 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层的输出，如果模型有嵌入层，外加一个用于每层的输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple[torch.FloatTensor, ...], 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。
reshaped_hidden_states (tuple(torch.FloatTensor), 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层的输出，外加一个用于每个阶段的输出），形状为 (batch_size, hidden_size, height, width)。

模型在每层输出处的隐藏状态，以及重新调整以包含空间维度的初始嵌入输出。

Swinv2Model 的 forward 方法，重写了 __call__ 特殊方法。

尽管前向传播的实现需要在函数内部定义，但之后应该调用 Module 实例，而不是此函数，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例

Swinv2ForMaskedImageModeling

类 transformers.Swinv2ForMaskedImageModeling

< 源 >

( config )

参数

config (Swinv2ForMaskedImageModeling) — 模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重，只加载配置。请查看 from_pretrained() 方法来加载模型权重。

Swinv2 模型，顶部带有解码器，用于掩码图像建模，如 SimMIM 中所提出的。

请注意，我们在 examples directory 中提供了一个脚本，用于在自定义数据上预训练此模型。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。请将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档以获取所有与通用用法和行为相关的事项。

前向传播

< 源 >

参数

pixel_values (torch.FloatTensor，形状为 (batch_size, num_channels, image_size, image_size)，可选) — 对应于输入图像的张量。像素值可以使用 {image_processor_class} 获取。有关详细信息，请参阅 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 处理图像）。
bool_masked_pos (torch.BoolTensor，形状为 (batch_size, num_patches)) — 布尔掩码位置。指示哪些补丁被掩码 (1) 哪些未被掩码 (0)。
head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使自注意力模块的选定头无效的掩码。掩码值选择在 [0, 1] 之间：
- 1 表示头未被掩码，
- 0 表示头已被掩码。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关详细信息，请参阅返回张量中的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关详细信息，请参阅返回张量中的 hidden_states。
interpolate_pos_encoding (bool，默认为 False) — 是否对预训练的位置编码进行插值。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通的元组。

transformers.models.swinv2.modeling_swinv2.Swinv2MaskedImageModelingOutput 或 tuple(torch.FloatTensor)

一个 transformers.models.swinv2.modeling_swinv2.Swinv2MaskedImageModelingOutput 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或 config.return_dict=False 时），包含取决于配置 (Swinv2Config) 和输入的不同元素。

loss (torch.FloatTensor，形状为 (1,)，可选，当提供 bool_masked_pos 时返回) — 掩码图像建模 (MLM) 损失。
reconstruction (torch.FloatTensor，形状为 (batch_size, num_channels, height, width)) — 重构的像素值。
hidden_states (tuple[torch.FloatTensor, ...], 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层的输出，如果模型有嵌入层，外加一个用于每层的输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple[torch.FloatTensor, ...], 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。
reshaped_hidden_states (tuple(torch.FloatTensor), 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层的输出，外加一个用于每个阶段的输出），形状为 (batch_size, hidden_size, height, width)。

模型在每层输出处的隐藏状态，以及重新调整以包含空间维度的初始嵌入输出。

Swinv2ForMaskedImageModeling 的 forward 方法，覆盖了 __call__ 特殊方法。

示例

>>> from transformers import AutoImageProcessor, Swinv2ForMaskedImageModeling
>>> import torch
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-tiny-patch4-window8-256")
>>> model = Swinv2ForMaskedImageModeling.from_pretrained("microsoft/swinv2-tiny-patch4-window8-256")

>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="pt").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = torch.randint(low=0, high=2, size=(1, num_patches)).bool()

>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, reconstructed_pixel_values = outputs.loss, outputs.reconstruction
>>> list(reconstructed_pixel_values.shape)
[1, 3, 256, 256]

Swinv2ForImageClassification

class transformers.Swinv2ForImageClassification

< 源 >

( config )

参数

config (Swinv2ForImageClassification) — 模型的配置类，包含模型的所有参数。使用配置文件初始化不加载与模型关联的权重，只加载配置。请查看 from_pretrained() 方法来加载模型权重。

Swinv2 模型变换器，顶部带有一个图像分类头（[CLS] 标记最终隐藏状态之上的线性层），例如用于 ImageNet。

请注意，通过在模型的 forward 方法中将 interpolate_pos_encoding 设置为 True，可以将 SwinV2 微调到比其训练图像更高分辨率的图像上。这将把预训练的位置嵌入插值到更高分辨率。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。请将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档以获取所有与通用用法和行为相关的事项。

前向传播

< 源 >

( pixel_values: typing.Optional[torch.FloatTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False return_dict: typing.Optional[bool] = None ) → transformers.models.swinv2.modeling_swinv2.Swinv2ImageClassifierOutput 或 tuple(torch.FloatTensor)

参数

pixel_values (torch.FloatTensor，形状为 (batch_size, num_channels, image_size, image_size)，可选) — 对应于输入图像的张量。像素值可以使用 {image_processor_class} 获取。有关详细信息，请参阅 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 处理图像）。
head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使自注意力模块的选定头无效的掩码。掩码值选择在 [0, 1] 之间：
- 1 表示头未被掩码，
- 0 表示头已被掩码。
labels (torch.LongTensor，形状为 (batch_size,)，可选) — 用于计算图像分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 之间。如果 config.num_labels == 1，则计算回归损失（均方损失）；如果 config.num_labels > 1，则计算分类损失（交叉熵）。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关详细信息，请参阅返回张量中的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关详细信息，请参阅返回张量中的 hidden_states。
interpolate_pos_encoding (bool，默认为 False) — 是否对预训练的位置编码进行插值。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通的元组。

transformers.models.swinv2.modeling_swinv2.Swinv2ImageClassifierOutput 或 tuple(torch.FloatTensor)

一个 transformers.models.swinv2.modeling_swinv2.Swinv2ImageClassifierOutput 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或 config.return_dict=False 时），包含取决于配置 (Swinv2Config) 和输入的不同元素。

loss (形状为 (1,) 的 torch.FloatTensor，可选，当提供 labels 时返回) — 分类损失（如果 config.num_labels==1，则为回归损失）。
logits (形状为 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分类（如果 config.num_labels==1，则为回归）分数（SoftMax 之前）。
hidden_states (tuple[torch.FloatTensor, ...], 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层的输出，如果模型有嵌入层，外加一个用于每层的输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple[torch.FloatTensor, ...], 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。
reshaped_hidden_states (tuple(torch.FloatTensor), 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层的输出，外加一个用于每个阶段的输出），形状为 (batch_size, hidden_size, height, width)。

模型在每层输出处的隐藏状态，以及重新调整以包含空间维度的初始嵌入输出。

Swinv2ForImageClassification 的 forward 方法，覆盖了 __call__ 特殊方法。

示例

>>> from transformers import AutoImageProcessor, Swinv2ForImageClassification
>>> import torch
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swinv2-tiny-patch4-window8-256")
>>> model = Swinv2ForImageClassification.from_pretrained("microsoft/swinv2-tiny-patch4-window8-256")

>>> inputs = image_processor(image, return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...

< > 在 GitHub 上更新

Transformers

Swin Transformer V2

注意事项

Swinv2Config

类 transformers.Swinv2Config

Swinv2Model

类 transformers.Swinv2Model

前向传播

Swinv2ForMaskedImageModeling

类 transformers.Swinv2ForMaskedImageModeling

前向传播

Swinv2ForImageClassification

class transformers.Swinv2ForImageClassification

前向传播