Transformers 文档

Swin Transformer

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

PyTorch TensorFlow

Swin Transformer

Swin Transformer 是一种分层视觉变换器。图像以图块的形式进行处理,并使用窗口化自注意力机制来捕获局部信息。这些窗口在图像上移动,以实现跨窗口连接,从而更有效地捕获全局信息。这种带有移动窗口的分层方法使得 Swin Transformer 能够有效地处理不同尺度的图像,并实现相对于图像大小的线性计算复杂度,使其成为各种视觉任务(如图像分类和物体检测)的通用主干网络。

您可以在 Microsoft 组织下找到所有官方的 Swin Transformer 模型检查点。

点击右侧边栏中的 Swin Transformer 模型,查看更多关于如何将 Swin Transformer 应用于不同图像任务的示例。

以下示例演示了如何使用 PipelineAutoModel 类对图像进行分类。

流水线
自动模型
import torch
from transformers import pipeline

pipeline = pipeline(
    task="image-classification",
    model="microsoft/swin-tiny-patch4-window7-224",
    torch_dtype=torch.float16,
    device=0
)
pipeline(images="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg")

注意

  • Swin 可以为任何可被 32 整除的输入高度和宽度填充输入。
  • Swin 可以用作主干网络。当 `output_hidden_states = True` 时,它会同时输出 `hidden_states` 和 `reshaped_hidden_states`。`reshaped_hidden_states` 的形状是 `(batch, num_channels, height, width)`,而不是 `(batch_size, sequence_length, num_channels)`。

SwinConfig

class transformers.SwinConfig

< >

( image_size = 224 patch_size = 4 num_channels = 3 embed_dim = 96 depths = [2, 2, 6, 2] num_heads = [3, 6, 12, 24] window_size = 7 mlp_ratio = 4.0 qkv_bias = True hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 drop_path_rate = 0.1 hidden_act = 'gelu' use_absolute_embeddings = False initializer_range = 0.02 layer_norm_eps = 1e-05 encoder_stride = 32 out_features = None out_indices = None **kwargs )

参数

  • image_size (int, 可选, 默认为 224) — 每张图像的大小(分辨率)。
  • patch_size (int, 可选, 默认为 4) — 每个图块的大小(分辨率)。
  • num_channels (int, 可选, 默认为 3) — 输入通道的数量。
  • embed_dim (int, 可选, 默认为 96) — 图块嵌入的维度。
  • depths (list(int), 可选, 默认为 [2, 2, 6, 2]) — Transformer 编码器中每层的深度。
  • num_heads (list(int), 可选, 默认为 [3, 6, 12, 24]) — Transformer 编码器中每层的注意力头数。
  • window_size (int, 可选, 默认为 7) — 窗口的大小。
  • mlp_ratio (float, 可选, 默认为 4.0) — MLP 隐藏维度与嵌入维度的比率。
  • qkv_bias (bool, 可选, 默认为 True) — 是否应向查询、键和值添加可学习的偏置。
  • hidden_dropout_prob (float, 可选, 默认为 0.0) — 嵌入层和编码器中所有全连接层的丢弃概率。
  • attention_probs_dropout_prob (float, 可选, 默认为 0.0) — 注意力概率的丢弃率。
  • drop_path_rate (float, 可选, 默认为 0.1) — 随机深度率。
  • hidden_act (str or function, 可选, 默认为 "gelu") — 编码器中的非线性激活函数(函数或字符串)。如果为字符串,支持 "gelu""relu""selu""gelu_new"
  • use_absolute_embeddings (bool, 可选, 默认为 False) — 是否向图块嵌入添加绝对位置嵌入。
  • initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
  • layer_norm_eps (float, 可选, 默认为 1e-05) — 层归一化层使用的 epsilon 值。
  • encoder_stride (int, 可选, 默认为 32) — 用于在解码器头中增加掩码图像建模的空间分辨率的因子。
  • out_features (list[str], 可选) — 如果用作主干网络,要输出的特征列表。可以是 "stem""stage1""stage2" 等(取决于模型有多少个阶段)。如果未设置且 `out_indices` 已设置,则默认为相应的阶段。如果未设置且 `out_indices` 也未设置,则默认为最后一个阶段。必须与 `stage_names` 属性中定义的顺序相同。
  • out_indices (list[int], 可选) — 如果用作主干网络,要输出的特征索引列表。可以是 0、1、2 等(取决于模型有多少个阶段)。如果未设置且 `out_features` 已设置,则默认为相应的阶段。如果未设置且 `out_features` 也未设置,则默认为最后一个阶段。必须与 `stage_names` 属性中定义的顺序相同。

这是一个配置类,用于存储 SwinModel 的配置。它用于根据指定的参数实例化一个 Swin 模型,定义模型架构。使用默认值实例化一个配置将产生与 Swin microsoft/swin-tiny-patch4-window7-224 架构类似的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。有关更多信息,请阅读 PretrainedConfig 的文档。

示例

>>> from transformers import SwinConfig, SwinModel

>>> # Initializing a Swin microsoft/swin-tiny-patch4-window7-224 style configuration
>>> configuration = SwinConfig()

>>> # Initializing a model (with random weights) from the microsoft/swin-tiny-patch4-window7-224 style configuration
>>> model = SwinModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config
Pytorch
隐藏 Pytorch 内容

SwinModel

class transformers.SwinModel

< >

( config add_pooling_layer = True use_mask_token = False )

参数

  • config (SwinModel) — 包含模型所有参数的模型配置类。用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
  • add_pooling_layer (bool, 可选, 默认为 True) — 是否应用池化层。
  • use_mask_token (bool, 可选, 默认为 False) — 是否在嵌入层中创建和应用掩码标记。

原始的 Swin 模型,输出未经任何特定头处理的原始隐藏状态。

该模型继承自 PreTrainedModel。有关该库为所有模型实现的通用方法(如下载或保存、调整输入嵌入大小、修剪头部等),请查阅超类文档。

该模型也是一个 PyTorch torch.nn.Module 的子类。可以像使用常规 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与常规用法和行为相关的事项。

forward

< >

( pixel_values: typing.Optional[torch.FloatTensor] = None bool_masked_pos: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False return_dict: typing.Optional[bool] = None ) transformers.models.swin.modeling_swin.SwinModelOutput or tuple(torch.FloatTensor)

参数

  • pixel_values (torch.FloatTensor,形状为 (batch_size, num_channels, image_size, image_size)可选) — 对应于输入图像的张量。像素值可以使用 {image_processor_class} 获取。有关详细信息,请参见 {image_processor_class}.__call__{processor_class} 使用 {image_processor_class} 来处理图像)。
  • bool_masked_pos (torch.BoolTensor,形状为 (batch_size, num_patches)可选) — 布尔掩码位置。指示哪些图块被掩码 (1),哪些没有 (0)。
  • head_mask (torch.FloatTensor,形状为 (num_heads,)(num_layers, num_heads)可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示头部未被掩码
    • 0 表示头部被掩码
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参见返回张量下的 `attentions`。
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关详细信息,请参见返回张量下的 `hidden_states`。
  • interpolate_pos_encoding (bool, 默认为 False) — 是否对预训练的位置编码进行插值。
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。

返回

transformers.models.swin.modeling_swin.SwinModelOutput or tuple(torch.FloatTensor)

一个 `transformers.models.swin.modeling_swin.SwinModelOutput` 或一个 `torch.FloatTensor` 的元组(如果传递了 `return_dict=False` 或 `config.return_dict=False`),包含根据配置(SwinConfig)和输入的不同元素。

  • last_hidden_state (形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor, 可选,默认为 None) — 模型最后一层输出的隐藏状态序列。

  • pooler_output (torch.FloatTensor,形状为 (batch_size, hidden_size)可选,当传递 add_pooling_layer=True 时返回) — 最后一层隐藏状态的平均池化。

  • hidden_states (tuple[torch.FloatTensor, ...], 可选, 当传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(如果模型有嵌入层,则第一个是嵌入层的输出,然后是每层的输出),形状为 `(batch_size, sequence_length, hidden_size)`。

    模型在每个层输出的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple[torch.FloatTensor, ...], 可选, 当传递 `output_attentions=True` 或 `config.output_attentions=True` 时返回) — `torch.FloatTensor` 的元组(每层一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

  • reshaped_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(一个用于嵌入层的输出 + 一个用于每个阶段的输出),形状为 `(batch_size, hidden_size, height, width)`。

    模型在每层输出处的隐藏状态,以及重新调整以包含空间维度的初始嵌入输出。

SwinModel 的前向方法,覆盖了 `__call__` 特殊方法。

尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理前后处理步骤,而后者会默默地忽略它们。

示例

SwinForMaskedImageModeling

class transformers.SwinForMaskedImageModeling

< >

( config )

参数

  • config (SwinForMaskedImageModeling) — 包含模型所有参数的模型配置类。用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。

带有解码器的 Swin 模型,用于掩码图像建模,如 SimMIM 中所提议。

请注意,我们在 examples directory 中提供了一个脚本,用于在自定义数据上预训练此模型。

该模型继承自 PreTrainedModel。有关该库为所有模型实现的通用方法(如下载或保存、调整输入嵌入大小、修剪头部等),请查阅超类文档。

该模型也是一个 PyTorch torch.nn.Module 的子类。可以像使用常规 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与常规用法和行为相关的事项。

forward

< >

( pixel_values: typing.Optional[torch.FloatTensor] = None bool_masked_pos: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False return_dict: typing.Optional[bool] = None ) transformers.models.swin.modeling_swin.SwinMaskedImageModelingOutputtuple(torch.FloatTensor)

参数

  • pixel_values (torch.FloatTensor,形状为 (batch_size, num_channels, image_size, image_size), 可选) — 对应于输入图像的张量。像素值可以使用 {image_processor_class} 获取。有关详细信息,请参阅 {image_processor_class}.__call__{processor_class} 使用 {image_processor_class} 处理图像)。
  • bool_masked_pos (torch.BoolTensor,形状为 (batch_size, num_patches)) — 布尔类型的掩码位置。指示哪些图像块被掩盖 (1),哪些没有 (0)。
  • head_mask (torch.FloatTensor,形状为 (num_heads,)(num_layers, num_heads), 可选) — 用于使自注意力模块中选定的头无效的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示头未被掩盖
    • 0 表示头被掩盖
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • interpolate_pos_encoding (bool,默认为 False) — 是否对预训练的位置编码进行插值。
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。

返回

transformers.models.swin.modeling_swin.SwinMaskedImageModelingOutputtuple(torch.FloatTensor)

一个 transformers.models.swin.modeling_swin.SwinMaskedImageModelingOutput 或一个 torch.FloatTensor 的元组(如果传递了 return_dict=Falseconfig.return_dict=False),包含根据配置(SwinConfig)和输入的不同元素。

  • loss (torch.FloatTensor,形状为 (1,)可选,当提供 bool_masked_pos 时返回) — 掩码图像建模 (MLM) 损失。

  • reconstruction (torch.FloatTensor,形状为 (batch_size, num_channels, height, width)) — 重构的像素值。

  • hidden_states (tuple[torch.FloatTensor, ...], 可选, 当传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(如果模型有嵌入层,则第一个是嵌入层的输出,然后是每层的输出),形状为 `(batch_size, sequence_length, hidden_size)`。

    模型在每个层输出的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple[torch.FloatTensor, ...], 可选, 当传递 `output_attentions=True` 或 `config.output_attentions=True` 时返回) — `torch.FloatTensor` 的元组(每层一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

  • reshaped_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(一个用于嵌入层的输出 + 一个用于每个阶段的输出),形状为 `(batch_size, hidden_size, height, width)`。

    模型在每层输出处的隐藏状态,以及重新调整以包含空间维度的初始嵌入输出。

SwinForMaskedImageModeling 的 forward 方法重写了 __call__ 特殊方法。

尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理前后处理步骤,而后者会默默地忽略它们。

示例

>>> from transformers import AutoImageProcessor, SwinForMaskedImageModeling
>>> import torch
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-base-simmim-window6-192")
>>> model = SwinForMaskedImageModeling.from_pretrained("microsoft/swin-base-simmim-window6-192")

>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="pt").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = torch.randint(low=0, high=2, size=(1, num_patches)).bool()

>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, reconstructed_pixel_values = outputs.loss, outputs.reconstruction
>>> list(reconstructed_pixel_values.shape)
[1, 3, 192, 192]

SwinForImageClassification

class transformers.SwinForImageClassification

< >

( config )

参数

  • config (SwinForImageClassification) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。

Swin Model transformer,顶部带有一个图像分类头(在 [CLS] 标记的最终隐藏状态之上加一个线性层),例如用于 ImageNet。

请注意,通过在模型的前向传播中将 `interpolate_pos_encoding` 设置为 `True`,可以在比训练时分辨率更高的图像上微调 Swin。这会将预训练的位置嵌入插值到更高的分辨率。

该模型继承自 PreTrainedModel。有关该库为所有模型实现的通用方法(如下载或保存、调整输入嵌入大小、修剪头部等),请查阅超类文档。

该模型也是一个 PyTorch torch.nn.Module 的子类。可以像使用常规 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与常规用法和行为相关的事项。

forward

< >

( pixel_values: typing.Optional[torch.FloatTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False return_dict: typing.Optional[bool] = None ) transformers.models.swin.modeling_swin.SwinImageClassifierOutputtuple(torch.FloatTensor)

参数

  • pixel_values (torch.FloatTensor,形状为 (batch_size, num_channels, image_size, image_size), 可选) — 对应于输入图像的张量。像素值可以使用 {image_processor_class} 获取。有关详细信息,请参阅 {image_processor_class}.__call__{processor_class} 使用 {image_processor_class} 处理图像)。
  • head_mask (torch.FloatTensor,形状为 (num_heads,)(num_layers, num_heads), 可选) — 用于使自注意力模块中选定的头无效的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示头未被掩盖
    • 0 表示头被掩盖
  • labels (torch.LongTensor,形状为 (batch_size,), 可选) — 用于计算图像分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。如果 config.num_labels == 1,则计算回归损失(均方损失),如果 config.num_labels > 1,则计算分类损失(交叉熵)。
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • interpolate_pos_encoding (bool,默认为 False) — 是否对预训练的位置编码进行插值。
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。

返回

transformers.models.swin.modeling_swin.SwinImageClassifierOutputtuple(torch.FloatTensor)

一个 transformers.models.swin.modeling_swin.SwinImageClassifierOutput 或一个 torch.FloatTensor 的元组(如果传递了 return_dict=Falseconfig.return_dict=False),包含根据配置(SwinConfig)和输入的不同元素。

  • loss (形状为 (1,)torch.FloatTensor可选,当提供 labels 时返回) — 分类损失(如果 config.num_labels==1,则为回归损失)。

  • logits (形状为 (batch_size, config.num_labels)torch.FloatTensor) — 分类(如果 config.num_labels==1,则为回归)分数(SoftMax 之前)。

  • hidden_states (tuple[torch.FloatTensor, ...], 可选, 当传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(如果模型有嵌入层,则第一个是嵌入层的输出,然后是每层的输出),形状为 `(batch_size, sequence_length, hidden_size)`。

    模型在每个层输出的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple[torch.FloatTensor, ...], 可选, 当传递 `output_attentions=True` 或 `config.output_attentions=True` 时返回) — `torch.FloatTensor` 的元组(每层一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

  • reshaped_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(一个用于嵌入层的输出 + 一个用于每个阶段的输出),形状为 `(batch_size, hidden_size, height, width)`。

    模型在每层输出处的隐藏状态,以及重新调整以包含空间维度的初始嵌入输出。

SwinForImageClassification 的 forward 方法重写了 __call__ 特殊方法。

尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理前后处理步骤,而后者会默默地忽略它们。

示例

>>> from transformers import AutoImageProcessor, SwinForImageClassification
>>> import torch
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = SwinForImageClassification.from_pretrained("microsoft/swin-tiny-patch4-window7-224")

>>> inputs = image_processor(image, return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...
TensorFlow
隐藏 TensorFlow 内容

TFSwinModel

class transformers.TFSwinModel

< >

( config: SwinConfig add_pooling_layer: bool = True use_mask_token: bool = False **kwargs )

参数

  • config (SwinConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。

基础的 Swin Model transformer,输出原始的隐藏状态,顶部没有任何特定的头。该模型是 Tensorflow keras.layers.Layer 的子类。可以像常规的 Tensorflow Module 一样使用它,并参考 Tensorflow 文档了解所有与通用用法和行为相关的事项。

调用

< >

( pixel_values: tf.Tensor | None = None bool_masked_pos: tf.Tensor | None = None head_mask: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) transformers.models.swin.modeling_tf_swin.TFSwinModelOutputtuple(tf.Tensor)

参数

  • pixel_values (tf.Tensor,形状为 (batch_size, num_channels, height, width)) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()
  • head_mask (tf.Tensor,形状为 (num_heads,)(num_layers, num_heads), 可选) — 用于使自注意力模块中选定的头无效的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示头未被掩盖
    • 0 表示头被掩盖
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
  • bool_masked_pos (tf.Tensor,形状为 (batch_size, num_patches), 可选) — 布尔类型的掩码位置。指示哪些图像块被掩盖 (1),哪些没有 (0)。

返回

transformers.models.swin.modeling_tf_swin.TFSwinModelOutputtuple(tf.Tensor)

一个 transformers.models.swin.modeling_tf_swin.TFSwinModelOutput 或一个 tf.Tensor 的元组(如果传递了 return_dict=Falseconfig.return_dict=False),包含根据配置(SwinConfig)和输入的不同元素。

  • last_hidden_state (tf.Tensor of shape (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。

  • pooler_output (tf.Tensor,形状为 (batch_size, hidden_size), 可选,当传递 add_pooling_layer=True 时返回) — 最后一层隐藏状态的平均池化。

  • hidden_states (tuple(tf.Tensor), 可选,当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — `tf.Tensor` 的元组(一个用于嵌入层的输出,一个用于每个阶段的输出),形状为 `(batch_size, sequence_length, hidden_size)`。

    模型在每个层输出的隐藏状态加上初始嵌入输出。

  • attentions (tuple(tf.Tensor), 可选,当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — `tf.Tensor` 的元组(每个阶段一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

  • reshaped_hidden_states (tuple(tf.Tensor), 可选,当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — `tf.Tensor` 的元组(一个用于嵌入层的输出,一个用于每个阶段的输出),形状为 `(batch_size, hidden_size, height, width)`。

    模型在每层输出处的隐藏状态,以及重新调整以包含空间维度的初始嵌入输出。

TFSwinModel 的 forward 方法重写了 __call__ 特殊方法。

尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理前后处理步骤,而后者会默默地忽略它们。

示例

>>> from transformers import AutoImageProcessor, TFSwinModel
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = TFSwinModel.from_pretrained("microsoft/swin-tiny-patch4-window7-224")

>>> inputs = image_processor(image, return_tensors="tf")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 49, 768]

TFSwinForMaskedImageModeling

class transformers.TFSwinForMaskedImageModeling

< >

( config: SwinConfig )

参数

  • config (SwinConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。

带有解码器的 Swin 模型,用于掩码图像建模,如 SimMIM 中所提出的。该模型是 Tensorflow keras.layers.Layer 的子类。可以像常规的 Tensorflow Module 一样使用它,并参考 Tensorflow 文档了解所有与通用用法和行为相关的事项。

调用

< >

( pixel_values: tf.Tensor | None = None bool_masked_pos: tf.Tensor | None = None head_mask: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) transformers.models.swin.modeling_tf_swin.TFSwinMaskedImageModelingOutputtuple(tf.Tensor)

参数

  • pixel_values (tf.Tensor,形状为 (batch_size, num_channels, height, width)) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()
  • head_mask (tf.Tensor,形状为 (num_heads,)(num_layers, num_heads), 可选) — 用于使自注意力模块中选定的头无效的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示头未被掩盖
    • 0 表示头被掩盖
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
  • bool_masked_pos (tf.Tensor,形状为 (batch_size, num_patches)) — 布尔类型的掩码位置。指示哪些图像块被掩盖 (1),哪些没有 (0)。

返回

transformers.models.swin.modeling_tf_swin.TFSwinMaskedImageModelingOutputtuple(tf.Tensor)

一个 transformers.models.swin.modeling_tf_swin.TFSwinMaskedImageModelingOutput 或一个 tf.Tensor 的元组(如果传递了 return_dict=Falseconfig.return_dict=False),包含根据配置(SwinConfig)和输入的不同元素。

  • loss (tf.Tensor,形状为 (1,), 可选,当提供了 bool_masked_pos 时返回) — 掩码图像建模 (MLM) 损失。

  • reconstruction (tf.Tensor,形状为 (batch_size, num_channels, height, width)) — 重建的像素值。

  • hidden_states (tuple(tf.Tensor), 可选,当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — `tf.Tensor` 的元组(一个用于嵌入层的输出,一个用于每个阶段的输出),形状为 `(batch_size, sequence_length, hidden_size)`。

    模型在每个层输出的隐藏状态加上初始嵌入输出。

  • attentions (tuple(tf.Tensor), 可选,当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — `tf.Tensor` 的元组(每个阶段一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

  • reshaped_hidden_states (tuple(tf.Tensor), 可选,当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — `tf.Tensor` 的元组(一个用于嵌入层的输出,一个用于每个阶段的输出),形状为 `(batch_size, hidden_size, height, width)`。

    模型在每层输出处的隐藏状态,以及重新调整以包含空间维度的初始嵌入输出。

TFSwinForMaskedImageModeling 的 forward 方法重写了 __call__ 特殊方法。

尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理前后处理步骤,而后者会默默地忽略它们。

示例

>>> from transformers import AutoImageProcessor, TFSwinForMaskedImageModeling
>>> import tensorflow as tf
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = TFSwinForMaskedImageModeling.from_pretrained("microsoft/swin-tiny-patch4-window7-224")

>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="tf").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = tf.random.uniform((1, num_patches)) >= 0.5

>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, reconstructed_pixel_values = outputs.loss, outputs.reconstruction
>>> list(reconstructed_pixel_values.shape)
[1, 3, 224, 224]

TFSwinForImageClassification

class transformers.TFSwinForImageClassification

< >

( config: SwinConfig )

参数

  • config (SwinConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。

Swin Model transformer,顶部带有一个图像分类头(在 [CLS] 标记的最终隐藏状态之上加一个线性层),例如用于 ImageNet。

该模型是 Tensorflow keras.layers.Layer 的子类。可以像常规的 Tensorflow Module 一样使用它,并参考 Tensorflow 文档了解所有与通用用法和行为相关的事项。

调用

< >

( pixel_values: tf.Tensor | None = None head_mask: tf.Tensor | None = None labels: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) transformers.models.swin.modeling_tf_swin.TFSwinImageClassifierOutputtuple(tf.Tensor)

参数

  • pixel_values (tf.Tensor,形状为 (batch_size, num_channels, height, width)) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()
  • head_mask (tf.Tensor,形状为 (num_heads,)(num_layers, num_heads), 可选) — 用于使自注意力模块中选定的头无效的掩码。掩码值在 [0, 1] 中选择:

    • 1 表示头未被掩盖
    • 0 表示头被掩盖
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
  • labels (tf.Tensor,形状为 (batch_size,)可选) — 用于计算图像分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。如果 config.num_labels == 1,则计算回归损失(均方损失);如果 config.num_labels > 1,则计算分类损失(交叉熵损失)。

返回

transformers.models.swin.modeling_tf_swin.TFSwinImageClassifierOutputtuple(tf.Tensor)

一个 transformers.models.swin.modeling_tf_swin.TFSwinImageClassifierOutput 或一个 tf.Tensor 的元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),包含的各种元素取决于配置(SwinConfig)和输入。

  • loss (形状为 (1,)tf.Tensor可选,当提供 labels 时返回) — 分类(如果 config.num_labels==1,则为回归)损失。

  • logits (tf.Tensor,形状为 (batch_size, config.num_labels)) — 分类(或回归,如果 config.num_labels==1)分数(SoftMax 之前)。

  • hidden_states (tuple(tf.Tensor), 可选,当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — `tf.Tensor` 的元组(一个用于嵌入层的输出,一个用于每个阶段的输出),形状为 `(batch_size, sequence_length, hidden_size)`。

    模型在每个层输出的隐藏状态加上初始嵌入输出。

  • attentions (tuple(tf.Tensor), 可选,当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — `tf.Tensor` 的元组(每个阶段一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

  • reshaped_hidden_states (tuple(tf.Tensor), 可选,当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — `tf.Tensor` 的元组(一个用于嵌入层的输出,一个用于每个阶段的输出),形状为 `(batch_size, hidden_size, height, width)`。

    模型在每层输出处的隐藏状态,以及重新调整以包含空间维度的初始嵌入输出。

TFSwinForImageClassification 的 forward 方法重写了 __call__ 特殊方法。

尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理前后处理步骤,而后者会默默地忽略它们。

示例

>>> from transformers import AutoImageProcessor, TFSwinForImageClassification
>>> import tensorflow as tf
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image"))
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = TFSwinForImageClassification.from_pretrained("microsoft/swin-tiny-patch4-window7-224")

>>> inputs = image_processor(image, return_tensors="tf")
>>> logits = model(**inputs).logits

>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = int(tf.math.argmax(logits, axis=-1))
>>> print(model.config.id2label[predicted_label])
tabby, tabby cat
< > 在 GitHub 上更新