Transformer文档

Swin Transformer

Hugging Face's logo
加入Hugging Face社区

并获得增强型文档体验

开始使用

Swin Transformer

概述

Swin Transformer 由 Liu 等人提出,并在 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 中发表。

论文的摘要如下:

本文介绍了一种新的视觉Transformer,名为Swin Transformer,它能够胜任计算机视觉中通用骨干网络的角色。将Transformer从语言领域扩展到视觉领域时遇到挑战,源于这两个领域的差异,例如视觉实体规模的大幅变化以及相较于文本中的单词,图像像素的高分辨率。为了解决这些差异,我们提出了一种层次化的Transformer,其表示使用移位窗口进行计算。移位窗口方案通过限制自注意力计算到非重叠的局部窗口,同时允许跨窗口连接,从而提高了效率。这种层次化架构能够灵活地模拟不同尺度,并且就图像尺寸而言具有线性计算复杂度。Swin Transformer的这些特性使其能够适应广泛的视觉任务,包括图像分类(ImageNet-1K上的87.3% top-1准确率)和密集预测任务,如目标检测(COCO测试-开发集上的58.7% box AP和51.1% mask AP)以及语义分割(ADE20K验证集上的53.5% mIoU)。它在COCO上超越了之前的最先进水平,增长了+2.7 box AP和+2.6 mask AP,在ADE20K上增长了+3.2 mIoU,证明了基于Transformer的模型作为视觉骨干的潜力。层次化设计和移位窗口方法也为所有MLP架构带来了益处。

绘制 Swin Transformer架构。图片取自原始论文

此模型由novice03贡献。此模型的Tensorflow版本由amyeroberts贡献。原始代码可在此处找到。

使用提示

  • Swin支持填充任何输入高度和宽度(若宽度能被32整除)。
  • Swin可作为骨干网络使用。当output_hidden_states = True时,它将输出hidden_statesreshaped_hidden_states。 reshaped_hidden_states的形状为(batch, num_channels, height, width),而不是(batch_size, sequence_length, num_channels)

资源

以下是一些官方Hugging Face和社区(由 🌎 标识)资源列表,帮助您开始使用Swin Transformer。

图像分类

除此之外

如果您有兴趣提交要包括在这里的资源,请随意打开Pull Request,我们将进行审核!资源应理想地展示一些新内容,而不是重复已有的资源。

SwinConfig

transformers.SwinConfig

< >

( 图片尺寸 = 224 补丁大小 = 4 通道数量 = 3 嵌入维度 = 96 深度 = [2, 2, 6, 2] 注意力头数量 = [3, 6, 12, 24] 窗口大小 = 7 MLP比例 = 4.0 QKV偏差 = True 隐藏dropout概率 = 0.0 注意力概率dropout概率 = 0.0 dropout比例 = 0.1 隐藏激活函数 = 'gelu' 使用绝对嵌入 = False 初始化范围 = 0.02 层归一化epsilon = 1e-05 编码器步长 = 32 输出特征 = None 输出索引 = None **kwargs )

参数

  • 图片尺寸 (int, 可选, 默认为 224) — 每个图像的大小(分辨率)。
  • patch_size (int, 可选, 默认为 4) — 每个补丁的大小(分辨率)。
  • num_channels (int, 可选, 默认为 3) — 输入通道数。
  • embed_dim (int, 可选, 默认为 96) — 补丁嵌入的维度。
  • depths (list(int), 可选, 默认为 [2, 2, 6, 2]) — Transformer编码器中每层的深度。
  • num_heads (list(int), 可选, 默认为 [3, 6, 12, 24]) — Transformer编码器每层的注意力头数。
  • window_size (int, 可选, 默认为 7) — 窗口大小。
  • mlp_ratio (float, 可选, 默认为 4.0) — MLP隐藏维度与嵌入维度之比。
  • qkv_bias (布尔值, 可选, 默认为 True) — 是否在查询、键和值中添加可学习的偏差。
  • hidden_dropout_prob (浮点数, 可选, 默认为 0.0) — 嵌入和编码器中所有全连接层的dropout概率。
  • attention_probs_dropout_prob (浮点数, 可选, 默认为 0.0) — 注意力概率的dropout比例。
  • drop_path_rate (float, 可选, 默认为 0.1) — 随机深度率。
  • hidden_act (strfunction, 可选, 默认为 "gelu") — 编码器中的非线性激活函数(函数或字符串)。如果是字符串,支持 "gelu""relu""selu""gelu_new"
  • use_absolute_embeddings (bool, 可选, 默认为 False) — 是否将绝对位置嵌入添加到补丁嵌入中。
  • initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
  • layer_norm_eps (float, 可选, 默认为 1e-05) — 层归一化层使用的 epsilon 值。
  • encoderStride (int, 可选, 默认为 32) — 用于在解码器头部增强空间分辨率的因子,用于掩码图像建模。
  • out_features (List[str], 可选) — 如果用作主干,输出的特征的列表。可以是 "stem""stage1""stage2" 等(取决于模型有多少阶段)。如果没有设置且设置了 out_indices,将默认为对应阶段。如果没有设置且 out_indices 也没有设置,将默认为最后一个阶段。必须与 stage_names 属性定义的顺序相同。
  • out_indices (List[int], 可选) — 如果用作主干,输出特征的索引列表。可以是 0、1、2 等(取决于模型有多少阶段)。如果没有设置且设置了 out_features,将默认为对应阶段。如果没有设置且 out_features 也没有设置,将默认为最后一个阶段。必须与 stage_names 属性定义的顺序相同。

这是存储 SwinModel 配置的配置类。它用于根据指定的参数实例化 Swin 模型,定义模型架构。使用默认值实例化配置将得到类似 Swin microsoft/swin-tiny-patch4-window7-224 架构的配置。

配置对象继承自 PretrainedConfig 并且可以用来控制模型输出。更多信息请阅读 PretrainedConfig 文档。

示例

>>> from transformers import SwinConfig, SwinModel

>>> # Initializing a Swin microsoft/swin-tiny-patch4-window7-224 style configuration
>>> configuration = SwinConfig()

>>> # Initializing a model (with random weights) from the microsoft/swin-tiny-patch4-window7-224 style configuration
>>> model = SwinModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config
Pytorch
隐藏 Pytorch 内容

SwinModel

类名 transformers.SwinModel

< >

( config add_pooling_layer = True use_mask_token = False )

参数

  • config (SwinConfig) — 包含所有模型参数的模型配置类。使用配置文件初始化不加载模型相关的权重,只加载配置。请检查 from_pretrained() 方法以加载模型权重。
  • add_pooling_layer (bool, 可选,默认为 True) — 是否应用池化层。
  • use_mask_token (bool, 可选,默认为 False) — 是否在嵌入层中创建并应用掩码token。

裸露的 Swin 模型变压器输出原始隐藏状态,没有顶层任何特定的head。这个模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解所有与通用使用和行为相关的事项。

前向

< >

( pixel_values: 可选 = None bool_masked_pos: 可选 = None head_mask: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None interpolate_pos_encoding: bool = False return_dict: 可选 = None ) transformers.models.swin.modeling_swin.SwinModelOutputtuple(torch.FloatTensor)

参数

  • pixel_values (torch.FloatTensor shape (batch_size, num_channels, height, width)) — 像素值。可以通过 AutoImageProcessor 获取像素值。有关详情,请参阅 ViTImageProcessor.call()
  • head_mask (torch.FloatTensor shape (num_heads,)(num_layers, num_heads), 可选) — 用于禁用自注意力模块中选定头的掩码。掩码值在 [0, 1] 之间选择:
    • 1 表示头未遮罩,
    • 0 表示头已遮罩。
  • output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。见返回的张量下的 attentions 以获取更多详细信息。
  • output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。见返回的张量下的 hidden_states 以获取更多详细信息。
  • interpolate_pos_encoding (bool, optional, 默认为 False) — 是否插值预训练的位置编码。
  • return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通的元组。
  • bool_masked_pos (torch.BoolTensor of shape (batch_size, num_patches), 可选) — Boolean masked positions. Indicates which patches are masked (1) and which aren’t (0).

返回

transformers.models.swin.modeling_swin.SwinModelOutputtuple(torch.FloatTensor)

A transformers.models.swin.modeling_swin.SwinModelOutput 或一个包含各种元素(根据配置和输入)的 torch.FloatTensor 的元组(如果传递了 return_dict=False 或当 config.return_dict=False 时)。

  • last_hidden_state (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size)) —模型最后一层输出的隐藏状态序列。

  • pooler_output (torch.FloatTensor of shape (batch_size, hidden_size), 可选, 当传递 add_pooling_layer=True 时返回) —最后一层隐藏状态的平均池化。

  • hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) —一个 torch.FloatTensor 的元组(一个用于嵌入输出,一个用于每个阶段的输出),形状为 (batch_size, sequence_length, hidden_size).

    模型在每个层输出的隐藏状态,加上初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) —每个阶段的 attention 权重的张量元组,形状为 (batch_size, num_heads, sequence_length, sequence_length).

    attention 答案在 attention softmax 后,用于计算自注意力头中的加权平均。

  • reshaped_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) —一个 torch.FloatTensor 的元组(一个用于嵌入输出,一个用于每个阶段的输出),形状为 (batch_size, hidden_size, height, width).

    模型在每个层输出的隐藏状态,加上初始嵌入输出重塑为包含空间维度。

SwinModel 的 forward 方法,覆盖了 __call__ 特殊方法。

虽然需要在函数内定义前向传递的配方,但应该在之后调用 Module 实例而不是这个,因为前者负责处理前向和后向处理步骤,而后者默默忽略它们。

示例

>>> from transformers import AutoImageProcessor, SwinModel
>>> import torch
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image", trust_remote_code=True)
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = SwinModel.from_pretrained("microsoft/swin-tiny-patch4-window7-224")

>>> inputs = image_processor(image, return_tensors="pt")

>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 49, 768]

SwinForMaskedImageModeling

transformers.SwinForMaskedImageModeling

< >

( config )

参数

  • config (SwinConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只加载配置。请查看from_pretrained()方法以加载模型权重。

Swin模型,在掩码图像建模上增加了解码器,如SimMIM所提出的。

请注意,我们提供了在自定义数据上预训练此模型的脚本,位于我们的示例目录中。

此模型是PyTorch的torch.nn.Module子类。请将其用作常规的PyTorch Module,并参考PyTorch文档以了解所有与通用用途和行为相关的事项。

前向

< >

( pixel_values: Optional = None bool_masked_pos: Optional = None head_mask: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None interpolate_pos_encoding: bool = False return_dict: Optional = None ) transformers.models.swin.modeling_swin.SwinMaskedImageModelingOutputtuple(torch.FloatTensor)

参数

  • pixel_values (torch.FloatTensor 形状为 (batch_size, num_channels, height, width)) — 像素值。像素值可以通过使用 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()
  • head_mask (torch.FloatTensor 形状为 (num_heads,)(num_layers, num_heads)可选) — 用于取消自我注意模块中选中头部的遮罩。遮罩值选择在 [0, 1] 内:

    • 1 表示头部 未遮罩
    • 0 表示头部 遮罩
  • output_attentions (bool可选) — 是否返回所有注意力层的注意力张量。更多细节请参阅返回张量中的 attentions
  • output_hidden_states (bool可选) — 是否返回所有层的隐藏状态。更多细节请参阅返回张量中的 hidden_states
  • interpolate_pos_encoding (bool, 可选,默认为False) — 是否插值预先训练的位置编码。
  • return_dict (bool, 可选) — 是否返回ModelOutput而不是普通元组。
  • bool_masked_pos (torch.BoolTensor,形状为(batch_size, num_patches)) — 布尔遮蔽位置。指示哪些补丁被遮蔽(1)以及哪些没有被遮蔽(0)。

返回

transformers.models.swin.modeling_swin.SwinMaskedImageModelingOutputtuple(torch.FloatTensor)

transformers.models.swin.modeling_swin.SwinMaskedImageModelingOutput或一个由torch.FloatTensor组成的元组(如果传递了return_dict=False或当config.return_dict=False时),根据配置(SwinConfig)和输入包含各种元素。

  • losstorch.FloatTensor,形状为(1,)可选,当提供bool_masked_pos时返回)— 遮蔽图像建模(MLM)损失。

  • reconstructiontorch.FloatTensor,形状为(batch_size, num_channels, height, width))— 重建的像素值。

  • hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) —一个 torch.FloatTensor 的元组(一个用于嵌入输出,一个用于每个阶段的输出),形状为 (batch_size, sequence_length, hidden_size).

    模型在每个层输出的隐藏状态,加上初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) —每个阶段的 attention 权重的张量元组,形状为 (batch_size, num_heads, sequence_length, sequence_length).

    attention 答案在 attention softmax 后,用于计算自注意力头中的加权平均。

  • reshaped_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) —一个 torch.FloatTensor 的元组(一个用于嵌入输出,一个用于每个阶段的输出),形状为 (batch_size, hidden_size, height, width).

    模型在每个层输出的隐藏状态,加上初始嵌入输出重塑为包含空间维度。

SwinForMaskedImageModeling的前向方法,覆盖了__call__特殊方法。

虽然需要在函数内定义前向传递的配方,但应该在之后调用 Module 实例而不是这个,因为前者负责处理前向和后向处理步骤,而后者默默忽略它们。

示例

>>> from transformers import AutoImageProcessor, SwinForMaskedImageModeling
>>> import torch
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-base-simmim-window6-192")
>>> model = SwinForMaskedImageModeling.from_pretrained("microsoft/swin-base-simmim-window6-192")

>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="pt").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = torch.randint(low=0, high=2, size=(1, num_patches)).bool()

>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, reconstructed_pixel_values = outputs.loss, outputs.reconstruction
>>> list(reconstructed_pixel_values.shape)
[1, 3, 192, 192]

SwinForImageClassification

transformers.SwinForImageClassification

< >

( config )

参数

  • config (SwinConfig) — 模型配置类,包含所有参数。使用配置文件初始化不会加载与模型关联的权重,只有配置。检查from_pretrained()方法加载模型权重。

Swin模型变压器,具有图像分类头(在[CLS]标记的最终隐藏状态之上的线性层),例如用于ImageNet。

注意,可以在比训练所用的图像分辨率更高的图像上进行微调Swin,方法是在模型的向前步骤中将interpolate_pos_encoding设置为True。这将插值预训练位置嵌入到更高分辨率。

此模型是PyTorch的torch.nn.Module子类。请将其用作常规的PyTorch Module,并参考PyTorch文档以了解所有与通用用途和行为相关的事项。

前向

< >

( pixel_values: 可选 = None head_mask: 可选 = None labels: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None interpolate_pos_encoding: bool = False return_dict: 可选 = None ) transformers.models.swin.modeling_swin.SwinImageClassifierOutputtuple(torch.FloatTensor)

参数

  • pixel_values (torch.FloatTensor 形状 (batch_size, num_channels, height, width)) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()
  • head_mask (torch.FloatTensor 形状为 (num_heads,)(num_layers, num_heads)可选) — 用于取消自注意力模块中选定头部的掩码。掩码值选择在 [0, 1]

    • 1 表示头部 未掩码
    • 0 表示头部 掩码
  • output_attentions (bool可选) — 是否返回所有注意力层中的注意力张量。有关返回张量下的 attentions 的更多详细信息,请参阅。
  • output_hidden_states (bool可选) — 是否返回所有层的隐藏状态。有关返回张量下的 hidden_states 的更多详细信息,请参阅。
  • interpolate_pos_encoding (bool, 可选, 默认为 False) — 是否插值预训练的位置编码。
  • return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通的元组。
  • labels (torch.LongTensor 形状 (batch_size,), 可选) — 用于计算图像分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 中。如果 config.num_labels == 1,则计算回归损失(均方损失),如果 config.num_labels > 1,则计算分类损失(交叉熵)。

返回

transformers.models.swin.modeling_swin.SwinImageClassifierOutputtuple(torch.FloatTensor)

transformers.models.swin.modeling_swin.SwinImageClassifierOutputtorch.FloatTensor 的元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),包含根据配置(SwinConfig)和输入的各种元素。

  • loss (torch.FloatTensor 形状 (1,), 可选,在提供 labels 时返回) — 分类(或如果 config.num_labels==1 的回归)损失。

  • logits (torch.FloatTensor 形状 (batch_size, config.num_labels)) — 分类(如果 config_num_labels==1 则为回归)的分数(在 SoftMax 之前)。

  • hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) —一个 torch.FloatTensor 的元组(一个用于嵌入输出,一个用于每个阶段的输出),形状为 (batch_size, sequence_length, hidden_size).

    模型在每个层输出的隐藏状态,加上初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) —每个阶段的 attention 权重的张量元组,形状为 (batch_size, num_heads, sequence_length, sequence_length).

    attention 答案在 attention softmax 后,用于计算自注意力头中的加权平均。

  • reshaped_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) —一个 torch.FloatTensor 的元组(一个用于嵌入输出,一个用于每个阶段的输出),形状为 (batch_size, hidden_size, height, width).

    模型在每个层输出的隐藏状态,加上初始嵌入输出重塑为包含空间维度。

SwinForImageClassification端的计算方法,重写了__call__特殊方法。

虽然需要在函数内定义前向传递的配方,但应该在之后调用 Module 实例而不是这个,因为前者负责处理前向和后向处理步骤,而后者默默忽略它们。

示例

>>> from transformers import AutoImageProcessor, SwinForImageClassification
>>> import torch
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image", trust_remote_code=True)
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = SwinForImageClassification.from_pretrained("microsoft/swin-tiny-patch4-window7-224")

>>> inputs = image_processor(image, return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
tabby, tabby cat
TensorFlow
隐藏TensorFlow内容

TFSwinModel

transformers.TFSwinModel

< >

( config: SwinConfig add_pooling_layer: bool = True use_mask_token: bool = False **kwargs )

参数

  • config (SwinConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化时不会加载与模型相关的权重,只有配置。请查看from_pretrained()方法以加载模型权重。

裸露的Swin模型变压器,输出原始的隐藏状态,没有顶部任何特定的头。该模型是Tensorflow的keras.layers.Layer子类。将其作为常规Tensorflow模块使用,并查看Tensorflow文档,以了解所有与一般使用和行为相关的事项。

调用

< >

( pixel_values: tf.Tensor | None = None bool_masked_pos: tf.Tensor | None = None head_mask: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) transformers.models.swin.modeling_tf_swin.TFSwinModelOutputtuple(tf.Tensor)

参数

  • pixel_values (tf.Tensor of shape (batch_size, num_channels, height, width)) — 像素值。像素值可以通过 AutoImageProcessor 获取。详细信息请参见 ViTImageProcessor.call()
  • head_mask (形态为 tf.Tensor(num_heads,),(num_layers, num_heads) 其中,可选) — 使自我关注模块选定头失活的掩码。在 [0, 1] 中选中的掩码值:

    • 1 表示该头 未掩码
    • 0 表示该头 已掩码
  • output_attentions (bool,其中,可选) — 是否返回所有注意力层的注意力张量。更多详情请参阅返回的张量中的 attentions。—
  • output_hidden_states (bool,其中,可选) — 是否返回所有层的隐藏状态。更多详情请参阅返回的张量中的 hidden_states。—
  • return_dict (bool, optional) — 是否返回一个ModelOutput而非普通元组。
  • bool_masked_pos (tf.Tensor of shape (batch_size, num_patches), optional) — 布尔掩码位置。指示哪些补丁被掩码(1)和没有被掩码(0)。

返回

transformers.models.swin.modeling_tf_swin.TFSwinModelOutputtuple(tf.Tensor)

A transformers.models.swin.modeling_tf_swin.TFSwinModelOutput 或一个由 tf.Tensor 组成的元组(如果传递了 return_dict=False 或当 config.return_dict=False)包含各种元素,具体取决于配置(SwinConfig)和输入。

  • last_hidden_state (tf.Tensor of shape (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态的序列。

  • pooler_output (tf.Tensor of shape (batch_size, hidden_size), optional, returned when add_pooling_layer=True is passed) — 最后一层隐藏状态的平均池化。

  • hidden_states (tuple(tf.Tensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 以形状 (batch_size, sequence_length, hidden_size)tf.Tensor 元组(每个阶段的输出)返回的元组。

    模型在每个层输出的隐藏状态,加上初始嵌入输出。

  • attentions (tuple(tf.Tensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — 关于每个阶段的 tf.Tensor 的元组,形状为 (batch_size, num_heads, sequence_length, sequence_length)

    attention 答案在 attention softmax 后,用于计算自注意力头中的加权平均。

  • reshaped_hidden_states (tuple(tf.Tensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 以形状 (batch_size, hidden_size, height, width) 返回的 tf.Tensor 的元组(每个阶段的输出)。

    模型在每个层输出的隐藏状态,加上初始嵌入输出重塑为包含空间维度。

TFSwinModel 的前向方法,重写了 __call__ 特殊方法。

虽然需要在函数内定义前向传递的配方,但应该在之后调用 Module 实例而不是这个,因为前者负责处理前向和后向处理步骤,而后者默默忽略它们。

示例

>>> from transformers import AutoImageProcessor, TFSwinModel
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image", trust_remote_code=True)
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = TFSwinModel.from_pretrained("microsoft/swin-tiny-patch4-window7-224")

>>> inputs = image_processor(image, return_tensors="tf")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 49, 768]

TFSwinForMaskedImageModeling

transformers.TFSwinForMaskedImageModeling

< >

( config: SwinConfig )

参数

  • config (SwinConfig) — Model configuration class with all the parameters of the model. Initializing with a config file does not load the weights associated with the model, only the configuration. Check out the from_pretrained() method to load the model weights.

Swin模型,具有在掩码图像建模上方的解码器,如《SimMIM》中提出。此模型是Tensorflow keras.layers.Layer子类。将其用作常规Tensorflow模块,并参考Tensorflow文档获取所有有关通用用法和行为的信息。

调用

< >

( pixel_values: tf.Tensor | None = None bool_masked_pos: tf.Tensor | None = None head_mask: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) transformers.models.swin.modeling_tf_swin.TFSwinMaskedImageModelingOutput or tuple(tf.Tensor)

参数

  • pixel_values (tf.Tensor of shape (batch_size, num_channels, height, width)) — 像素值。像素值可以通过 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()
  • head_mask(《tf.Tensor》形状为 (num_heads,)(num_layers, num_heads),可选)—— 驱动自注意力模块所选头的掩码。掩码值在 [0, 1] 中选中:

    • 1 表示头未被掩码,
    • 0 表示头被掩码。
  • output_attentions(《bool》类型,可选)—— 是否返回所有注意力层的注意力张量。请参阅返回张量下的 attentions 以获取更多详细信息。
  • output_hidden_states(《bool》类型,可选)—— 是否返回所有层的隐藏状态。请参阅返回张量下的 hidden_states 以获取更多详细信息。
  • 是否返回ModelOutput字典(bool,可选)—— 是否返回ModelOutput而非普通元组。
  • 布尔掩码位置(tf.Tensor形状为(batch_size, num_patches),表示哪些 patches 加掩码(1)以及哪些不加掩码(0)。

返回

transformers.models.swin.modeling_tf_swin.TFSwinMaskedImageModelingOutputtuple(tf.Tensor)

如果传递了 return_dict=False 或当 config.return_dict=False,则是一个包含各种元素(根据配置(SwinConfig)和输入)的 transformers.models.swin.modeling_tf_swin.TFSwinMaskedImageModelingOutputtf.Tensor 元组。

  • 如果提供了 bool_masked_pos,则返回一个形状为 (1,)tf.Tensor,表示掩码图像建模(MLM)损失。

  • 重建的像素值,形状为 (batch_size, num_channels, height, width)

  • hidden_states (tuple(tf.Tensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 以形状 (batch_size, sequence_length, hidden_size)tf.Tensor 元组(每个阶段的输出)返回的元组。

    模型在每个层输出的隐藏状态,加上初始嵌入输出。

  • attentions (tuple(tf.Tensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — 关于每个阶段的 tf.Tensor 的元组,形状为 (batch_size, num_heads, sequence_length, sequence_length)

    attention 答案在 attention softmax 后,用于计算自注意力头中的加权平均。

  • reshaped_hidden_states (tuple(tf.Tensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 以形状 (batch_size, hidden_size, height, width) 返回的 tf.Tensor 的元组(每个阶段的输出)。

    模型在每个层输出的隐藏状态,加上初始嵌入输出重塑为包含空间维度。

TFSwinForMaskedImageModeling 的 forward 方法重写了 __call__ 特殊方法。

虽然需要在函数内定义前向传递的配方,但应该在之后调用 Module 实例而不是这个,因为前者负责处理前向和后向处理步骤,而后者默默忽略它们。

示例

>>> from transformers import AutoImageProcessor, TFSwinForMaskedImageModeling
>>> import tensorflow as tf
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = TFSwinForMaskedImageModeling.from_pretrained("microsoft/swin-tiny-patch4-window7-224")

>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="tf").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = tf.random.uniform((1, num_patches)) >= 0.5

>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, reconstructed_pixel_values = outputs.loss, outputs.reconstruction
>>> list(reconstructed_pixel_values.shape)
[1, 3, 224, 224]

TFSwinForImageClassification

transformers.TFSwinForImageClassification

< >

( config: SwinConfig )

参数

  • config (SwinConfig) — 模型参数类,包含所有模型参数。使用配置文件初始化不会加载模型相关权重,只会加载配置。查看from_pretrained()方法来加载模型权重。

Swin模型变压器,具有图像分类头(在[CLS]标记的最终隐藏状态之上的线性层),例如用于ImageNet。

此模型是Tensorflow keras.layers.Layer的子类。将其用作常规Tensorflow模块,并参考Tensorflow文档以了解有关通用使用和行为的所有相关信息。

调用

< >

( pixel_values: tf.Tensor | None = None head_mask: tf.Tensor | None = None labels: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) transformers.models.swin.modeling_tf_swin.TFSwinImageClassifierOutput or tuple(tf.Tensor)

参数

  • pixel_values (tf.Tensor of shape (batch_size, num_channels, height, width)) — 像素值。像素值可以通过 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()
  • head_mask (tf.Tensor of shape (num_heads,)(num_layers, num_heads)可选) — 用于取消选中自注意力模块中选定头的掩码。在 [0, 1] 中选取的掩码值:

    • 1 表示头未被 掩码
    • 0 表示头被 掩码
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐层状态。有关详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通的元组。
  • labels (tf.Tensor of shape (batch_size,), optional) — 用于计算图像分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。如果 config.num_labels == 1,则计算回归损失(均方损失),如果 config.num_labels > 1,则计算分类损失(交叉熵)。

返回

transformers.models.swin.modeling_tf_swin.TFSwinImageClassifierOutputtuple(tf.Tensor)

一个 transformers.models.swin.modeling_tf_swin.TFSwinImageClassifierOutput 或一个 tf.Tensor 的元组(如果传递了 return_dict=False 或当 config.return_dict=False),它包含各种元素,具体取决于配置 (SwinConfig) 和输入。

  • loss (tf.Tensor of shape (1,), optional, 返回时 labels 已提供) — 类别(或者当 config.num_labels==1 时的回归)损失。

  • logits (tf.Tensor of shape (batch_size, config.num_labels)) — 类别(或者当 config.num_labels==1 时的回归)得分(在 SoftMax 之前)。

  • hidden_states (tuple(tf.Tensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 以形状 (batch_size, sequence_length, hidden_size)tf.Tensor 元组(每个阶段的输出)返回的元组。

    模型在每个层输出的隐藏状态,加上初始嵌入输出。

  • attentions (tuple(tf.Tensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — 关于每个阶段的 tf.Tensor 的元组,形状为 (batch_size, num_heads, sequence_length, sequence_length)

    attention 答案在 attention softmax 后,用于计算自注意力头中的加权平均。

  • reshaped_hidden_states (tuple(tf.Tensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — 以形状 (batch_size, hidden_size, height, width) 返回的 tf.Tensor 的元组(每个阶段的输出)。

    模型在每个层输出的隐藏状态,加上初始嵌入输出重塑为包含空间维度。

TFSwinForImageClassification 的前向方法,覆盖了 __call__ 特殊方法。

虽然需要在函数内定义前向传递的配方,但应该在之后调用 Module 实例而不是这个,因为前者负责处理前向和后向处理步骤,而后者默默忽略它们。

示例

>>> from transformers import AutoImageProcessor, TFSwinForImageClassification
>>> import tensorflow as tf
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image", trust_remote_code=True)
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = TFSwinForImageClassification.from_pretrained("microsoft/swin-tiny-patch4-window7-224")

>>> inputs = image_processor(image, return_tensors="tf")
>>> logits = model(**inputs).logits

>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = int(tf.math.argmax(logits, axis=-1))
>>> print(model.config.id2label[predicted_label])
tabby, tabby cat
< > 在 GitHub 上更新