Swin Transformer
概述
Swin Transformer 由 Liu 等人提出,并在 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 中发表。
论文的摘要如下:
本文介绍了一种新的视觉Transformer,名为Swin Transformer,它能够胜任计算机视觉中通用骨干网络的角色。将Transformer从语言领域扩展到视觉领域时遇到挑战,源于这两个领域的差异,例如视觉实体规模的大幅变化以及相较于文本中的单词,图像像素的高分辨率。为了解决这些差异,我们提出了一种层次化的Transformer,其表示使用移位窗口进行计算。移位窗口方案通过限制自注意力计算到非重叠的局部窗口,同时允许跨窗口连接,从而提高了效率。这种层次化架构能够灵活地模拟不同尺度,并且就图像尺寸而言具有线性计算复杂度。Swin Transformer的这些特性使其能够适应广泛的视觉任务,包括图像分类(ImageNet-1K上的87.3% top-1准确率)和密集预测任务,如目标检测(COCO测试-开发集上的58.7% box AP和51.1% mask AP)以及语义分割(ADE20K验证集上的53.5% mIoU)。它在COCO上超越了之前的最先进水平,增长了+2.7 box AP和+2.6 mask AP,在ADE20K上增长了+3.2 mIoU,证明了基于Transformer的模型作为视觉骨干的潜力。层次化设计和移位窗口方法也为所有MLP架构带来了益处。
Swin Transformer架构。图片取自原始论文。此模型由novice03贡献。此模型的Tensorflow版本由amyeroberts贡献。原始代码可在此处找到。
使用提示
- Swin支持填充任何输入高度和宽度(若宽度能被32整除)。
- Swin可作为骨干网络使用。当
output_hidden_states = True
时,它将输出hidden_states
和reshaped_hidden_states
。 reshaped_hidden_states的形状为(batch, num_channels, height, width)
,而不是(batch_size, sequence_length, num_channels)
。
资源
以下是一些官方Hugging Face和社区(由 🌎 标识)资源列表,帮助您开始使用Swin Transformer。
- SwinForImageClassification受此示例脚本和笔记支持。
- 另请参阅:图像分类任务指南
除此之外
如果您有兴趣提交要包括在这里的资源,请随意打开Pull Request,我们将进行审核!资源应理想地展示一些新内容,而不是重复已有的资源。
SwinConfig
类 transformers.SwinConfig
< 来源 >( 图片尺寸 = 224 补丁大小 = 4 通道数量 = 3 嵌入维度 = 96 深度 = [2, 2, 6, 2] 注意力头数量 = [3, 6, 12, 24] 窗口大小 = 7 MLP比例 = 4.0 QKV偏差 = True 隐藏dropout概率 = 0.0 注意力概率dropout概率 = 0.0 dropout比例 = 0.1 隐藏激活函数 = 'gelu' 使用绝对嵌入 = False 初始化范围 = 0.02 层归一化epsilon = 1e-05 编码器步长 = 32 输出特征 = None 输出索引 = None **kwargs )
参数
- 图片尺寸 (
int
, 可选, 默认为 224) — 每个图像的大小(分辨率)。 - patch_size (
int
, 可选, 默认为 4) — 每个补丁的大小(分辨率)。 - num_channels (
int
, 可选, 默认为 3) — 输入通道数。 - embed_dim (
int
, 可选, 默认为 96) — 补丁嵌入的维度。 - depths (
list(int)
, 可选, 默认为[2, 2, 6, 2]
) — Transformer编码器中每层的深度。 - num_heads (
list(int)
, 可选, 默认为[3, 6, 12, 24]
) — Transformer编码器每层的注意力头数。 - window_size (
int
, 可选, 默认为 7) — 窗口大小。 - mlp_ratio (
float
, 可选, 默认为 4.0) — MLP隐藏维度与嵌入维度之比。 - qkv_bias (
布尔值
, 可选, 默认为True
) — 是否在查询、键和值中添加可学习的偏差。 - hidden_dropout_prob (
浮点数
, 可选, 默认为 0.0) — 嵌入和编码器中所有全连接层的dropout概率。 - attention_probs_dropout_prob (
浮点数
, 可选, 默认为 0.0) — 注意力概率的dropout比例。 - drop_path_rate (
float
, 可选, 默认为 0.1) — 随机深度率。 - hidden_act (
str
或function
, 可选, 默认为"gelu"
) — 编码器中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"
、"relu"
、"selu"
和"gelu_new"
。 - use_absolute_embeddings (
bool
, 可选, 默认为False
) — 是否将绝对位置嵌入添加到补丁嵌入中。 - initializer_range (
float
, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。 -
layer_norm_eps ( float
, 可选, 默认为 1e-05) — 层归一化层使用的 epsilon 值。 -
encoderStride ( int
, 可选, 默认为 32) — 用于在解码器头部增强空间分辨率的因子,用于掩码图像建模。 - out_features (
List[str]
, 可选) — 如果用作主干,输出的特征的列表。可以是"stem"
、"stage1"
、"stage2"
等(取决于模型有多少阶段)。如果没有设置且设置了out_indices
,将默认为对应阶段。如果没有设置且out_indices
也没有设置,将默认为最后一个阶段。必须与stage_names
属性定义的顺序相同。 - out_indices (
List[int]
, 可选) — 如果用作主干,输出特征的索引列表。可以是 0、1、2 等(取决于模型有多少阶段)。如果没有设置且设置了out_features
,将默认为对应阶段。如果没有设置且out_features
也没有设置,将默认为最后一个阶段。必须与stage_names
属性定义的顺序相同。
这是存储 SwinModel 配置的配置类。它用于根据指定的参数实例化 Swin 模型,定义模型架构。使用默认值实例化配置将得到类似 Swin microsoft/swin-tiny-patch4-window7-224 架构的配置。
配置对象继承自 PretrainedConfig 并且可以用来控制模型输出。更多信息请阅读 PretrainedConfig 文档。
示例
>>> from transformers import SwinConfig, SwinModel
>>> # Initializing a Swin microsoft/swin-tiny-patch4-window7-224 style configuration
>>> configuration = SwinConfig()
>>> # Initializing a model (with random weights) from the microsoft/swin-tiny-patch4-window7-224 style configuration
>>> model = SwinModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
SwinModel
类名 transformers.SwinModel
< 来源 >( config add_pooling_layer = True use_mask_token = False )
参数
- config (SwinConfig) — 包含所有模型参数的模型配置类。使用配置文件初始化不加载模型相关的权重,只加载配置。请检查 from_pretrained() 方法以加载模型权重。
- add_pooling_layer (
bool
, 可选,默认为True
) — 是否应用池化层。 - use_mask_token (
bool
, 可选,默认为False
) — 是否在嵌入层中创建并应用掩码token。
裸露的 Swin 模型变压器输出原始隐藏状态,没有顶层任何特定的head。这个模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解所有与通用使用和行为相关的事项。
前向
< 来源 >( pixel_values: 可选 = None bool_masked_pos: 可选 = None head_mask: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None interpolate_pos_encoding: bool = False return_dict: 可选 = None ) → transformers.models.swin.modeling_swin.SwinModelOutput
或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor
shape(batch_size, num_channels, height, width)
) — 像素值。可以通过 AutoImageProcessor 获取像素值。有关详情,请参阅 ViTImageProcessor.call()。 - head_mask (
torch.FloatTensor
shape(num_heads,)
或(num_layers, num_heads)
, 可选) — 用于禁用自注意力模块中选定头的掩码。掩码值在[0, 1]
之间选择:- 1 表示头未遮罩,
- 0 表示头已遮罩。
- output_attentions (
bool
, optional) — 是否返回所有注意力层的注意力张量。见返回的张量下的attentions
以获取更多详细信息。 - output_hidden_states (
bool
, optional) — 是否返回所有层的隐藏状态。见返回的张量下的hidden_states
以获取更多详细信息。 - interpolate_pos_encoding (
bool
, optional, 默认为False
) — 是否插值预训练的位置编码。 - return_dict (
bool
, optional) — 是否返回 ModelOutput 而不是普通的元组。 - bool_masked_pos (
torch.BoolTensor
of shape(batch_size, num_patches)
, 可选) — Boolean masked positions. Indicates which patches are masked (1) and which aren’t (0).
返回
transformers.models.swin.modeling_swin.SwinModelOutput
或 tuple(torch.FloatTensor)
A transformers.models.swin.modeling_swin.SwinModelOutput
或一个包含各种元素(根据配置和输入)的 torch.FloatTensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时)。
-
last_hidden_state (
torch.FloatTensor
of shape(batch_size, sequence_length, hidden_size)
) —模型最后一层输出的隐藏状态序列。 -
pooler_output (
torch.FloatTensor
of shape(batch_size, hidden_size)
, 可选, 当传递add_pooling_layer=True
时返回) —最后一层隐藏状态的平均池化。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —一个torch.FloatTensor
的元组(一个用于嵌入输出,一个用于每个阶段的输出),形状为(batch_size, sequence_length, hidden_size)
.模型在每个层输出的隐藏状态,加上初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —每个阶段的 attention 权重的张量元组,形状为(batch_size, num_heads, sequence_length, sequence_length)
.attention 答案在 attention softmax 后,用于计算自注意力头中的加权平均。
-
reshaped_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —一个torch.FloatTensor
的元组(一个用于嵌入输出,一个用于每个阶段的输出),形状为(batch_size, hidden_size, height, width)
.模型在每个层输出的隐藏状态,加上初始嵌入输出重塑为包含空间维度。
SwinModel 的 forward 方法,覆盖了 __call__
特殊方法。
虽然需要在函数内定义前向传递的配方,但应该在之后调用 Module
实例而不是这个,因为前者负责处理前向和后向处理步骤,而后者默默忽略它们。
示例
>>> from transformers import AutoImageProcessor, SwinModel
>>> import torch
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image", trust_remote_code=True)
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = SwinModel.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> inputs = image_processor(image, return_tensors="pt")
>>> with torch.no_grad():
... outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 49, 768]
SwinForMaskedImageModeling
类 transformers.SwinForMaskedImageModeling
< 源代码 >( config )
参数
- config (SwinConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只加载配置。请查看from_pretrained()方法以加载模型权重。
Swin模型,在掩码图像建模上增加了解码器,如SimMIM所提出的。
请注意,我们提供了在自定义数据上预训练此模型的脚本,位于我们的示例目录中。
此模型是PyTorch的torch.nn.Module子类。请将其用作常规的PyTorch Module,并参考PyTorch文档以了解所有与通用用途和行为相关的事项。
前向
< 源代码 >( pixel_values: Optional = None bool_masked_pos: Optional = None head_mask: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None interpolate_pos_encoding: bool = False return_dict: Optional = None ) → transformers.models.swin.modeling_swin.SwinMaskedImageModelingOutput
或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor
形状为(batch_size, num_channels, height, width)
) — 像素值。像素值可以通过使用 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于取消自我注意模块中选中头部的遮罩。遮罩值选择在[0, 1]
内:- 1 表示头部 未遮罩,
- 0 表示头部 遮罩。
- output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。更多细节请参阅返回张量中的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。更多细节请参阅返回张量中的hidden_states
。 - interpolate_pos_encoding (
bool
, 可选,默认为False
) — 是否插值预先训练的位置编码。 - return_dict (
bool
, 可选) — 是否返回ModelOutput而不是普通元组。 - bool_masked_pos (
torch.BoolTensor
,形状为(batch_size, num_patches)
) — 布尔遮蔽位置。指示哪些补丁被遮蔽(1)以及哪些没有被遮蔽(0)。
返回
transformers.models.swin.modeling_swin.SwinMaskedImageModelingOutput
或tuple(torch.FloatTensor)
transformers.models.swin.modeling_swin.SwinMaskedImageModelingOutput
或一个由torch.FloatTensor
组成的元组(如果传递了return_dict=False
或当config.return_dict=False
时),根据配置(SwinConfig)和输入包含各种元素。
-
loss(
torch.FloatTensor
,形状为(1,)
,可选,当提供bool_masked_pos
时返回)— 遮蔽图像建模(MLM)损失。 -
reconstruction(
torch.FloatTensor
,形状为(batch_size, num_channels, height, width)
)— 重建的像素值。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —一个torch.FloatTensor
的元组(一个用于嵌入输出,一个用于每个阶段的输出),形状为(batch_size, sequence_length, hidden_size)
.模型在每个层输出的隐藏状态,加上初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —每个阶段的 attention 权重的张量元组,形状为(batch_size, num_heads, sequence_length, sequence_length)
.attention 答案在 attention softmax 后,用于计算自注意力头中的加权平均。
-
reshaped_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —一个torch.FloatTensor
的元组(一个用于嵌入输出,一个用于每个阶段的输出),形状为(batch_size, hidden_size, height, width)
.模型在每个层输出的隐藏状态,加上初始嵌入输出重塑为包含空间维度。
SwinForMaskedImageModeling的前向方法,覆盖了__call__
特殊方法。
虽然需要在函数内定义前向传递的配方,但应该在之后调用 Module
实例而不是这个,因为前者负责处理前向和后向处理步骤,而后者默默忽略它们。
示例
>>> from transformers import AutoImageProcessor, SwinForMaskedImageModeling
>>> import torch
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-base-simmim-window6-192")
>>> model = SwinForMaskedImageModeling.from_pretrained("microsoft/swin-base-simmim-window6-192")
>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="pt").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = torch.randint(low=0, high=2, size=(1, num_patches)).bool()
>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, reconstructed_pixel_values = outputs.loss, outputs.reconstruction
>>> list(reconstructed_pixel_values.shape)
[1, 3, 192, 192]
SwinForImageClassification
类 transformers.SwinForImageClassification
< source >( config )
参数
- config (SwinConfig) — 模型配置类,包含所有参数。使用配置文件初始化不会加载与模型关联的权重,只有配置。检查from_pretrained()方法加载模型权重。
Swin模型变压器,具有图像分类头(在[CLS]标记的最终隐藏状态之上的线性层),例如用于ImageNet。
注意,可以在比训练所用的图像分辨率更高的图像上进行微调Swin,方法是在模型的向前步骤中将interpolate_pos_encoding
设置为True
。这将插值预训练位置嵌入到更高分辨率。
此模型是PyTorch的torch.nn.Module子类。请将其用作常规的PyTorch Module,并参考PyTorch文档以了解所有与通用用途和行为相关的事项。
前向
< source >( pixel_values: 可选 = None head_mask: 可选 = None labels: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None interpolate_pos_encoding: bool = False return_dict: 可选 = None ) → transformers.models.swin.modeling_swin.SwinImageClassifierOutput
或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor
形状(batch_size, num_channels, height, width)
) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于取消自注意力模块中选定头部的掩码。掩码值选择在[0, 1]
:- 1 表示头部 未掩码,
- 0 表示头部 掩码。
- output_attentions (
bool
,可选) — 是否返回所有注意力层中的注意力张量。有关返回张量下的attentions
的更多详细信息,请参阅。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关返回张量下的hidden_states
的更多详细信息,请参阅。 - interpolate_pos_encoding (
bool
, 可选, 默认为False
) — 是否插值预训练的位置编码。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通的元组。 - labels (
torch.LongTensor
形状(batch_size,)
, 可选) — 用于计算图像分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
中。如果config.num_labels == 1
,则计算回归损失(均方损失),如果config.num_labels > 1
,则计算分类损失(交叉熵)。
返回
transformers.models.swin.modeling_swin.SwinImageClassifierOutput
或 tuple(torch.FloatTensor)
transformers.models.swin.modeling_swin.SwinImageClassifierOutput
或 torch.FloatTensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含根据配置(SwinConfig)和输入的各种元素。
-
loss (
torch.FloatTensor
形状(1,)
, 可选,在提供labels
时返回) — 分类(或如果config.num_labels==1
的回归)损失。 -
logits (
torch.FloatTensor
形状(batch_size, config.num_labels)
) — 分类(如果 config_num_labels==1 则为回归)的分数(在 SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —一个torch.FloatTensor
的元组(一个用于嵌入输出,一个用于每个阶段的输出),形状为(batch_size, sequence_length, hidden_size)
.模型在每个层输出的隐藏状态,加上初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —每个阶段的 attention 权重的张量元组,形状为(batch_size, num_heads, sequence_length, sequence_length)
.attention 答案在 attention softmax 后,用于计算自注意力头中的加权平均。
-
reshaped_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —一个torch.FloatTensor
的元组(一个用于嵌入输出,一个用于每个阶段的输出),形状为(batch_size, hidden_size, height, width)
.模型在每个层输出的隐藏状态,加上初始嵌入输出重塑为包含空间维度。
SwinForImageClassification端的计算方法,重写了__call__
特殊方法。
虽然需要在函数内定义前向传递的配方,但应该在之后调用 Module
实例而不是这个,因为前者负责处理前向和后向处理步骤,而后者默默忽略它们。
示例
>>> from transformers import AutoImageProcessor, SwinForImageClassification
>>> import torch
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image", trust_remote_code=True)
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = SwinForImageClassification.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> inputs = image_processor(image, return_tensors="pt")
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
tabby, tabby cat
TFSwinModel
类 transformers.TFSwinModel
< source >( config: SwinConfig add_pooling_layer: bool = True use_mask_token: bool = False **kwargs )
参数
- config (SwinConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化时不会加载与模型相关的权重,只有配置。请查看from_pretrained()方法以加载模型权重。
裸露的Swin模型变压器,输出原始的隐藏状态,没有顶部任何特定的头。该模型是Tensorflow的keras.layers.Layer子类。将其作为常规Tensorflow模块使用,并查看Tensorflow文档,以了解所有与一般使用和行为相关的事项。
调用
< 源代码 >( pixel_values: tf.Tensor | None = None bool_masked_pos: tf.Tensor | None = None head_mask: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → transformers.models.swin.modeling_tf_swin.TFSwinModelOutput
或 tuple(tf.Tensor)
参数
- pixel_values (
tf.Tensor
of shape(batch_size, num_channels, height, width)
) — 像素值。像素值可以通过 AutoImageProcessor 获取。详细信息请参见 ViTImageProcessor.call()。 - head_mask (形态为
tf.Tensor
的(num_heads,),
或(num_layers, num_heads)
其中,可选) — 使自我关注模块选定头失活的掩码。在[0, 1]
中选中的掩码值:- 1 表示该头 未掩码,
- 0 表示该头 已掩码。
-
output_attentions ( bool
,其中,可选) — 是否返回所有注意力层的注意力张量。更多详情请参阅返回的张量中的attentions
。— output_hidden_states ( bool
,其中,可选) — 是否返回所有层的隐藏状态。更多详情请参阅返回的张量中的hidden_states
。—- return_dict (
bool
, optional) — 是否返回一个ModelOutput而非普通元组。 - bool_masked_pos (
tf.Tensor
of shape(batch_size, num_patches)
, optional) — 布尔掩码位置。指示哪些补丁被掩码(1)和没有被掩码(0)。
返回
transformers.models.swin.modeling_tf_swin.TFSwinModelOutput
或 tuple(tf.Tensor)
A transformers.models.swin.modeling_tf_swin.TFSwinModelOutput
或一个由 tf.Tensor
组成的元组(如果传递了 return_dict=False
或当 config.return_dict=False
)包含各种元素,具体取决于配置(SwinConfig)和输入。
-
last_hidden_state (
tf.Tensor
of shape(batch_size, sequence_length, hidden_size)
) — 模型最后一层输出的隐藏状态的序列。 -
pooler_output (
tf.Tensor
of shape(batch_size, hidden_size)
, optional, returned whenadd_pooling_layer=True
is passed) — 最后一层隐藏状态的平均池化。 -
hidden_states (
tuple(tf.Tensor)
, optional, returned whenoutput_hidden_states=True
is passed or whenconfig.output_hidden_states=True
) — 以形状(batch_size, sequence_length, hidden_size)
的tf.Tensor
元组(每个阶段的输出)返回的元组。模型在每个层输出的隐藏状态,加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
, optional, returned whenoutput_attentions=True
is passed or whenconfig.output_attentions=True
) — 关于每个阶段的tf.Tensor
的元组,形状为(batch_size, num_heads, sequence_length, sequence_length)
。attention 答案在 attention softmax 后,用于计算自注意力头中的加权平均。
-
reshaped_hidden_states (
tuple(tf.Tensor)
, optional, returned whenoutput_hidden_states=True
is passed or whenconfig.output_hidden_states=True
) — 以形状(batch_size, hidden_size, height, width)
返回的tf.Tensor
的元组(每个阶段的输出)。模型在每个层输出的隐藏状态,加上初始嵌入输出重塑为包含空间维度。
TFSwinModel 的前向方法,重写了 __call__
特殊方法。
虽然需要在函数内定义前向传递的配方,但应该在之后调用 Module
实例而不是这个,因为前者负责处理前向和后向处理步骤,而后者默默忽略它们。
示例
>>> from transformers import AutoImageProcessor, TFSwinModel
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image", trust_remote_code=True)
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = TFSwinModel.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> inputs = image_processor(image, return_tensors="tf")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 49, 768]
TFSwinForMaskedImageModeling
类 transformers.TFSwinForMaskedImageModeling
< source >( config: SwinConfig )
参数
- config (SwinConfig) — Model configuration class with all the parameters of the model. Initializing with a config file does not load the weights associated with the model, only the configuration. Check out the from_pretrained() method to load the model weights.
Swin模型,具有在掩码图像建模上方的解码器,如《SimMIM》中提出。此模型是Tensorflow keras.layers.Layer子类。将其用作常规Tensorflow模块,并参考Tensorflow文档获取所有有关通用用法和行为的信息。
调用
< source >( pixel_values: tf.Tensor | None = None bool_masked_pos: tf.Tensor | None = None head_mask: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → transformers.models.swin.modeling_tf_swin.TFSwinMaskedImageModelingOutput
or tuple(tf.Tensor)
参数
- pixel_values (
tf.Tensor
of shape(batch_size, num_channels, height, width)
) — 像素值。像素值可以通过 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()。 - head_mask(《tf.Tensor》形状为
(num_heads,)
或(num_layers, num_heads)
,可选)—— 驱动自注意力模块所选头的掩码。掩码值在[0, 1]
中选中:- 1 表示头未被掩码,
- 0 表示头被掩码。
- output_attentions(《bool》类型,可选)—— 是否返回所有注意力层的注意力张量。请参阅返回张量下的
attentions
以获取更多详细信息。 - output_hidden_states(《bool》类型,可选)—— 是否返回所有层的隐藏状态。请参阅返回张量下的
hidden_states
以获取更多详细信息。 - 是否返回ModelOutput字典(
bool
,可选)—— 是否返回ModelOutput而非普通元组。 - 布尔掩码位置(
tf.Tensor
形状为(batch_size, num_patches),表示哪些 patches 加掩码(1)以及哪些不加掩码(0)。
返回
transformers.models.swin.modeling_tf_swin.TFSwinMaskedImageModelingOutput
或 tuple(tf.Tensor)
如果传递了 return_dict=False
或当 config.return_dict=False
,则是一个包含各种元素(根据配置(SwinConfig)和输入)的 transformers.models.swin.modeling_tf_swin.TFSwinMaskedImageModelingOutput
或 tf.Tensor
元组。
-
如果提供了
bool_masked_pos
,则返回一个形状为(1,)
的tf.Tensor
,表示掩码图像建模(MLM)损失。 -
重建的像素值,形状为
(batch_size, num_channels, height, width)
。 -
hidden_states (
tuple(tf.Tensor)
, optional, returned whenoutput_hidden_states=True
is passed or whenconfig.output_hidden_states=True
) — 以形状(batch_size, sequence_length, hidden_size)
的tf.Tensor
元组(每个阶段的输出)返回的元组。模型在每个层输出的隐藏状态,加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
, optional, returned whenoutput_attentions=True
is passed or whenconfig.output_attentions=True
) — 关于每个阶段的tf.Tensor
的元组,形状为(batch_size, num_heads, sequence_length, sequence_length)
。attention 答案在 attention softmax 后,用于计算自注意力头中的加权平均。
-
reshaped_hidden_states (
tuple(tf.Tensor)
, optional, returned whenoutput_hidden_states=True
is passed or whenconfig.output_hidden_states=True
) — 以形状(batch_size, hidden_size, height, width)
返回的tf.Tensor
的元组(每个阶段的输出)。模型在每个层输出的隐藏状态,加上初始嵌入输出重塑为包含空间维度。
TFSwinForMaskedImageModeling 的 forward 方法重写了 __call__
特殊方法。
虽然需要在函数内定义前向传递的配方,但应该在之后调用 Module
实例而不是这个,因为前者负责处理前向和后向处理步骤,而后者默默忽略它们。
示例
>>> from transformers import AutoImageProcessor, TFSwinForMaskedImageModeling
>>> import tensorflow as tf
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = TFSwinForMaskedImageModeling.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="tf").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = tf.random.uniform((1, num_patches)) >= 0.5
>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, reconstructed_pixel_values = outputs.loss, outputs.reconstruction
>>> list(reconstructed_pixel_values.shape)
[1, 3, 224, 224]
TFSwinForImageClassification
类 transformers.TFSwinForImageClassification
< source >( config: SwinConfig )
参数
- config (SwinConfig) — 模型参数类,包含所有模型参数。使用配置文件初始化不会加载模型相关权重,只会加载配置。查看from_pretrained()方法来加载模型权重。
Swin模型变压器,具有图像分类头(在[CLS]标记的最终隐藏状态之上的线性层),例如用于ImageNet。
此模型是Tensorflow keras.layers.Layer的子类。将其用作常规Tensorflow模块,并参考Tensorflow文档以了解有关通用使用和行为的所有相关信息。
调用
< source >( pixel_values: tf.Tensor | None = None head_mask: tf.Tensor | None = None labels: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → transformers.models.swin.modeling_tf_swin.TFSwinImageClassifierOutput
or tuple(tf.Tensor)
参数
- pixel_values (
tf.Tensor
of shape(batch_size, num_channels, height, width)
) — 像素值。像素值可以通过 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()。 - head_mask (
tf.Tensor
of shape(num_heads,)
或(num_layers, num_heads)
,可选) — 用于取消选中自注意力模块中选定头的掩码。在[0, 1]
中选取的掩码值:- 1 表示头未被 掩码,
- 0 表示头被 掩码。
- output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐层状态。有关详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通的元组。 - labels (
tf.Tensor
of shape(batch_size,)
, optional) — 用于计算图像分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
范围内。如果config.num_labels == 1
,则计算回归损失(均方损失),如果config.num_labels > 1
,则计算分类损失(交叉熵)。
返回
transformers.models.swin.modeling_tf_swin.TFSwinImageClassifierOutput
或 tuple(tf.Tensor)
一个 transformers.models.swin.modeling_tf_swin.TFSwinImageClassifierOutput
或一个 tf.Tensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
),它包含各种元素,具体取决于配置 (SwinConfig) 和输入。
-
loss (
tf.Tensor
of shape(1,)
, optional, 返回时labels
已提供) — 类别(或者当 config.num_labels==1 时的回归)损失。 -
logits (
tf.Tensor
of shape(batch_size, config.num_labels)
) — 类别(或者当 config.num_labels==1 时的回归)得分(在 SoftMax 之前)。 -
hidden_states (
tuple(tf.Tensor)
, optional, returned whenoutput_hidden_states=True
is passed or whenconfig.output_hidden_states=True
) — 以形状(batch_size, sequence_length, hidden_size)
的tf.Tensor
元组(每个阶段的输出)返回的元组。模型在每个层输出的隐藏状态,加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
, optional, returned whenoutput_attentions=True
is passed or whenconfig.output_attentions=True
) — 关于每个阶段的tf.Tensor
的元组,形状为(batch_size, num_heads, sequence_length, sequence_length)
。attention 答案在 attention softmax 后,用于计算自注意力头中的加权平均。
-
reshaped_hidden_states (
tuple(tf.Tensor)
, optional, returned whenoutput_hidden_states=True
is passed or whenconfig.output_hidden_states=True
) — 以形状(batch_size, hidden_size, height, width)
返回的tf.Tensor
的元组(每个阶段的输出)。模型在每个层输出的隐藏状态,加上初始嵌入输出重塑为包含空间维度。
TFSwinForImageClassification 的前向方法,覆盖了 __call__
特殊方法。
虽然需要在函数内定义前向传递的配方,但应该在之后调用 Module
实例而不是这个,因为前者负责处理前向和后向处理步骤,而后者默默忽略它们。
示例
>>> from transformers import AutoImageProcessor, TFSwinForImageClassification
>>> import tensorflow as tf
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image", trust_remote_code=True)
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = TFSwinForImageClassification.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> inputs = image_processor(image, return_tensors="tf")
>>> logits = model(**inputs).logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = int(tf.math.argmax(logits, axis=-1))
>>> print(model.config.id2label[predicted_label])
tabby, tabby cat