Transformers 文档
Swin Transformer
并获得增强的文档体验
开始使用
Swin Transformer
Swin Transformer 是一种分层视觉变换器。图像以图块的形式进行处理,并使用窗口化自注意力机制来捕获局部信息。这些窗口在图像上移动,以实现跨窗口连接,从而更有效地捕获全局信息。这种带有移动窗口的分层方法使得 Swin Transformer 能够有效地处理不同尺度的图像,并实现相对于图像大小的线性计算复杂度,使其成为各种视觉任务(如图像分类和物体检测)的通用主干网络。
您可以在 Microsoft 组织下找到所有官方的 Swin Transformer 模型检查点。
点击右侧边栏中的 Swin Transformer 模型,查看更多关于如何将 Swin Transformer 应用于不同图像任务的示例。
以下示例演示了如何使用 Pipeline 或 AutoModel 类对图像进行分类。
import torch
from transformers import pipeline
pipeline = pipeline(
task="image-classification",
model="microsoft/swin-tiny-patch4-window7-224",
torch_dtype=torch.float16,
device=0
)
pipeline(images="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg")
注意
- Swin 可以为任何可被
32
整除的输入高度和宽度填充输入。 - Swin 可以用作主干网络。当 `output_hidden_states = True` 时,它会同时输出 `hidden_states` 和 `reshaped_hidden_states`。`reshaped_hidden_states` 的形状是 `(batch, num_channels, height, width)`,而不是 `(batch_size, sequence_length, num_channels)`。
SwinConfig
class transformers.SwinConfig
< 来源 >( image_size = 224 patch_size = 4 num_channels = 3 embed_dim = 96 depths = [2, 2, 6, 2] num_heads = [3, 6, 12, 24] window_size = 7 mlp_ratio = 4.0 qkv_bias = True hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 drop_path_rate = 0.1 hidden_act = 'gelu' use_absolute_embeddings = False initializer_range = 0.02 layer_norm_eps = 1e-05 encoder_stride = 32 out_features = None out_indices = None **kwargs )
参数
- image_size (
int
, 可选, 默认为 224) — 每张图像的大小(分辨率)。 - patch_size (
int
, 可选, 默认为 4) — 每个图块的大小(分辨率)。 - num_channels (
int
, 可选, 默认为 3) — 输入通道的数量。 - embed_dim (
int
, 可选, 默认为 96) — 图块嵌入的维度。 - depths (
list(int)
, 可选, 默认为[2, 2, 6, 2]
) — Transformer 编码器中每层的深度。 - num_heads (
list(int)
, 可选, 默认为[3, 6, 12, 24]
) — Transformer 编码器中每层的注意力头数。 - window_size (
int
, 可选, 默认为 7) — 窗口的大小。 - mlp_ratio (
float
, 可选, 默认为 4.0) — MLP 隐藏维度与嵌入维度的比率。 - qkv_bias (
bool
, 可选, 默认为True
) — 是否应向查询、键和值添加可学习的偏置。 - hidden_dropout_prob (
float
, 可选, 默认为 0.0) — 嵌入层和编码器中所有全连接层的丢弃概率。 - attention_probs_dropout_prob (
float
, 可选, 默认为 0.0) — 注意力概率的丢弃率。 - drop_path_rate (
float
, 可选, 默认为 0.1) — 随机深度率。 - hidden_act (
str
orfunction
, 可选, 默认为"gelu"
) — 编码器中的非线性激活函数(函数或字符串)。如果为字符串,支持"gelu"
、"relu"
、"selu"
和"gelu_new"
。 - use_absolute_embeddings (
bool
, 可选, 默认为False
) — 是否向图块嵌入添加绝对位置嵌入。 - initializer_range (
float
, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。 - layer_norm_eps (
float
, 可选, 默认为 1e-05) — 层归一化层使用的 epsilon 值。 - encoder_stride (
int
, 可选, 默认为 32) — 用于在解码器头中增加掩码图像建模的空间分辨率的因子。 - out_features (
list[str]
, 可选) — 如果用作主干网络,要输出的特征列表。可以是"stem"
、"stage1"
、"stage2"
等(取决于模型有多少个阶段)。如果未设置且 `out_indices` 已设置,则默认为相应的阶段。如果未设置且 `out_indices` 也未设置,则默认为最后一个阶段。必须与 `stage_names` 属性中定义的顺序相同。 - out_indices (
list[int]
, 可选) — 如果用作主干网络,要输出的特征索引列表。可以是 0、1、2 等(取决于模型有多少个阶段)。如果未设置且 `out_features` 已设置,则默认为相应的阶段。如果未设置且 `out_features` 也未设置,则默认为最后一个阶段。必须与 `stage_names` 属性中定义的顺序相同。
这是一个配置类,用于存储 SwinModel 的配置。它用于根据指定的参数实例化一个 Swin 模型,定义模型架构。使用默认值实例化一个配置将产生与 Swin microsoft/swin-tiny-patch4-window7-224 架构类似的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。有关更多信息,请阅读 PretrainedConfig 的文档。
示例
>>> from transformers import SwinConfig, SwinModel
>>> # Initializing a Swin microsoft/swin-tiny-patch4-window7-224 style configuration
>>> configuration = SwinConfig()
>>> # Initializing a model (with random weights) from the microsoft/swin-tiny-patch4-window7-224 style configuration
>>> model = SwinModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
SwinModel
class transformers.SwinModel
< 来源 >( config add_pooling_layer = True use_mask_token = False )
参数
- config (SwinModel) — 包含模型所有参数的模型配置类。用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
- add_pooling_layer (
bool
, 可选, 默认为True
) — 是否应用池化层。 - use_mask_token (
bool
, 可选, 默认为False
) — 是否在嵌入层中创建和应用掩码标记。
原始的 Swin 模型,输出未经任何特定头处理的原始隐藏状态。
该模型继承自 PreTrainedModel。有关该库为所有模型实现的通用方法(如下载或保存、调整输入嵌入大小、修剪头部等),请查阅超类文档。
该模型也是一个 PyTorch torch.nn.Module 的子类。可以像使用常规 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与常规用法和行为相关的事项。
forward
< 来源 >( pixel_values: typing.Optional[torch.FloatTensor] = None bool_masked_pos: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False return_dict: typing.Optional[bool] = None ) → transformers.models.swin.modeling_swin.SwinModelOutput
or tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor
,形状为(batch_size, num_channels, image_size, image_size)
,可选) — 对应于输入图像的张量。像素值可以使用{image_processor_class}
获取。有关详细信息,请参见{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
来处理图像)。 - bool_masked_pos (
torch.BoolTensor
,形状为(batch_size, num_patches)
,可选) — 布尔掩码位置。指示哪些图块被掩码 (1),哪些没有 (0)。 - head_mask (
torch.FloatTensor
,形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值在[0, 1]
中选择:- 1 表示头部未被掩码,
- 0 表示头部被掩码。
- output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参见返回张量下的 `attentions`。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关详细信息,请参见返回张量下的 `hidden_states`。 - interpolate_pos_encoding (
bool
, 默认为False
) — 是否对预训练的位置编码进行插值。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
返回
transformers.models.swin.modeling_swin.SwinModelOutput
or tuple(torch.FloatTensor)
一个 `transformers.models.swin.modeling_swin.SwinModelOutput` 或一个 `torch.FloatTensor` 的元组(如果传递了 `return_dict=False` 或 `config.return_dict=False`),包含根据配置(SwinConfig)和输入的不同元素。
-
last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
, 可选,默认为None
) — 模型最后一层输出的隐藏状态序列。 -
pooler_output (
torch.FloatTensor
,形状为(batch_size, hidden_size)
,可选,当传递add_pooling_layer=True
时返回) — 最后一层隐藏状态的平均池化。 -
hidden_states (
tuple[torch.FloatTensor, ...]
, 可选, 当传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(如果模型有嵌入层,则第一个是嵌入层的输出,然后是每层的输出),形状为 `(batch_size, sequence_length, hidden_size)`。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
-
attentions (
tuple[torch.FloatTensor, ...]
, 可选, 当传递 `output_attentions=True` 或 `config.output_attentions=True` 时返回) — `torch.FloatTensor` 的元组(每层一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
-
reshaped_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(一个用于嵌入层的输出 + 一个用于每个阶段的输出),形状为 `(batch_size, hidden_size, height, width)`。模型在每层输出处的隐藏状态,以及重新调整以包含空间维度的初始嵌入输出。
SwinModel 的前向方法,覆盖了 `__call__` 特殊方法。
尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理前后处理步骤,而后者会默默地忽略它们。
SwinForMaskedImageModeling
class transformers.SwinForMaskedImageModeling
< 来源 >( config )
参数
- config (SwinForMaskedImageModeling) — 包含模型所有参数的模型配置类。用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
带有解码器的 Swin 模型,用于掩码图像建模,如 SimMIM 中所提议。
请注意,我们在 examples directory 中提供了一个脚本,用于在自定义数据上预训练此模型。
该模型继承自 PreTrainedModel。有关该库为所有模型实现的通用方法(如下载或保存、调整输入嵌入大小、修剪头部等),请查阅超类文档。
该模型也是一个 PyTorch torch.nn.Module 的子类。可以像使用常规 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与常规用法和行为相关的事项。
forward
< 来源 >( pixel_values: typing.Optional[torch.FloatTensor] = None bool_masked_pos: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False return_dict: typing.Optional[bool] = None ) → transformers.models.swin.modeling_swin.SwinMaskedImageModelingOutput
或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor
,形状为(batch_size, num_channels, image_size, image_size)
, 可选) — 对应于输入图像的张量。像素值可以使用{image_processor_class}
获取。有关详细信息,请参阅{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
处理图像)。 - bool_masked_pos (
torch.BoolTensor
,形状为(batch_size, num_patches)
) — 布尔类型的掩码位置。指示哪些图像块被掩盖 (1),哪些没有 (0)。 - head_mask (
torch.FloatTensor
,形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 用于使自注意力模块中选定的头无效的掩码。掩码值在[0, 1]
中选择:- 1 表示头未被掩盖,
- 0 表示头被掩盖。
- output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - interpolate_pos_encoding (
bool
,默认为False
) — 是否对预训练的位置编码进行插值。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
返回
transformers.models.swin.modeling_swin.SwinMaskedImageModelingOutput
或 tuple(torch.FloatTensor)
一个 transformers.models.swin.modeling_swin.SwinMaskedImageModelingOutput
或一个 torch.FloatTensor
的元组(如果传递了 return_dict=False
或 config.return_dict=False
),包含根据配置(SwinConfig)和输入的不同元素。
-
loss (
torch.FloatTensor
,形状为(1,)
,可选,当提供bool_masked_pos
时返回) — 掩码图像建模 (MLM) 损失。 -
reconstruction (
torch.FloatTensor
,形状为(batch_size, num_channels, height, width)
) — 重构的像素值。 -
hidden_states (
tuple[torch.FloatTensor, ...]
, 可选, 当传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(如果模型有嵌入层,则第一个是嵌入层的输出,然后是每层的输出),形状为 `(batch_size, sequence_length, hidden_size)`。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
-
attentions (
tuple[torch.FloatTensor, ...]
, 可选, 当传递 `output_attentions=True` 或 `config.output_attentions=True` 时返回) — `torch.FloatTensor` 的元组(每层一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
-
reshaped_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(一个用于嵌入层的输出 + 一个用于每个阶段的输出),形状为 `(batch_size, hidden_size, height, width)`。模型在每层输出处的隐藏状态,以及重新调整以包含空间维度的初始嵌入输出。
SwinForMaskedImageModeling 的 forward 方法重写了 __call__
特殊方法。
尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理前后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, SwinForMaskedImageModeling
>>> import torch
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-base-simmim-window6-192")
>>> model = SwinForMaskedImageModeling.from_pretrained("microsoft/swin-base-simmim-window6-192")
>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="pt").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = torch.randint(low=0, high=2, size=(1, num_patches)).bool()
>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, reconstructed_pixel_values = outputs.loss, outputs.reconstruction
>>> list(reconstructed_pixel_values.shape)
[1, 3, 192, 192]
SwinForImageClassification
class transformers.SwinForImageClassification
< 源代码 >( config )
参数
- config (SwinForImageClassification) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
Swin Model transformer,顶部带有一个图像分类头(在 [CLS] 标记的最终隐藏状态之上加一个线性层),例如用于 ImageNet。
请注意,通过在模型的前向传播中将 `interpolate_pos_encoding` 设置为 `True`,可以在比训练时分辨率更高的图像上微调 Swin。这会将预训练的位置嵌入插值到更高的分辨率。
该模型继承自 PreTrainedModel。有关该库为所有模型实现的通用方法(如下载或保存、调整输入嵌入大小、修剪头部等),请查阅超类文档。
该模型也是一个 PyTorch torch.nn.Module 的子类。可以像使用常规 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与常规用法和行为相关的事项。
forward
< 源代码 >( pixel_values: typing.Optional[torch.FloatTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False return_dict: typing.Optional[bool] = None ) → transformers.models.swin.modeling_swin.SwinImageClassifierOutput
或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor
,形状为(batch_size, num_channels, image_size, image_size)
, 可选) — 对应于输入图像的张量。像素值可以使用{image_processor_class}
获取。有关详细信息,请参阅{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
处理图像)。 - head_mask (
torch.FloatTensor
,形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 用于使自注意力模块中选定的头无效的掩码。掩码值在[0, 1]
中选择:- 1 表示头未被掩盖,
- 0 表示头被掩盖。
- labels (
torch.LongTensor
,形状为(batch_size,)
, 可选) — 用于计算图像分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
范围内。如果config.num_labels == 1
,则计算回归损失(均方损失),如果config.num_labels > 1
,则计算分类损失(交叉熵)。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - interpolate_pos_encoding (
bool
,默认为False
) — 是否对预训练的位置编码进行插值。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
返回
transformers.models.swin.modeling_swin.SwinImageClassifierOutput
或 tuple(torch.FloatTensor)
一个 transformers.models.swin.modeling_swin.SwinImageClassifierOutput
或一个 torch.FloatTensor
的元组(如果传递了 return_dict=False
或 config.return_dict=False
),包含根据配置(SwinConfig)和输入的不同元素。
-
loss (形状为
(1,)
的torch.FloatTensor
,可选,当提供labels
时返回) — 分类损失(如果 config.num_labels==1,则为回归损失)。 -
logits (形状为
(batch_size, config.num_labels)
的torch.FloatTensor
) — 分类(如果 config.num_labels==1,则为回归)分数(SoftMax 之前)。 -
hidden_states (
tuple[torch.FloatTensor, ...]
, 可选, 当传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(如果模型有嵌入层,则第一个是嵌入层的输出,然后是每层的输出),形状为 `(batch_size, sequence_length, hidden_size)`。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
-
attentions (
tuple[torch.FloatTensor, ...]
, 可选, 当传递 `output_attentions=True` 或 `config.output_attentions=True` 时返回) — `torch.FloatTensor` 的元组(每层一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
-
reshaped_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(一个用于嵌入层的输出 + 一个用于每个阶段的输出),形状为 `(batch_size, hidden_size, height, width)`。模型在每层输出处的隐藏状态,以及重新调整以包含空间维度的初始嵌入输出。
SwinForImageClassification 的 forward 方法重写了 __call__
特殊方法。
尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理前后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, SwinForImageClassification
>>> import torch
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = SwinForImageClassification.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> inputs = image_processor(image, return_tensors="pt")
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...
TFSwinModel
class transformers.TFSwinModel
< 源代码 >( config: SwinConfig add_pooling_layer: bool = True use_mask_token: bool = False **kwargs )
参数
- config (SwinConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
基础的 Swin Model transformer,输出原始的隐藏状态,顶部没有任何特定的头。该模型是 Tensorflow keras.layers.Layer 的子类。可以像常规的 Tensorflow Module 一样使用它,并参考 Tensorflow 文档了解所有与通用用法和行为相关的事项。
调用
< 源代码 >( pixel_values: tf.Tensor | None = None bool_masked_pos: tf.Tensor | None = None head_mask: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → transformers.models.swin.modeling_tf_swin.TFSwinModelOutput
或 tuple(tf.Tensor)
参数
- pixel_values (
tf.Tensor
,形状为(batch_size, num_channels, height, width)
) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()。 - head_mask (
tf.Tensor
,形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 用于使自注意力模块中选定的头无效的掩码。掩码值在[0, 1]
中选择:- 1 表示头未被掩盖,
- 0 表示头被掩盖。
- output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。 - bool_masked_pos (
tf.Tensor
,形状为(batch_size, num_patches)
, 可选) — 布尔类型的掩码位置。指示哪些图像块被掩盖 (1),哪些没有 (0)。
返回
transformers.models.swin.modeling_tf_swin.TFSwinModelOutput
或 tuple(tf.Tensor)
一个 transformers.models.swin.modeling_tf_swin.TFSwinModelOutput
或一个 tf.Tensor
的元组(如果传递了 return_dict=False
或 config.return_dict=False
),包含根据配置(SwinConfig)和输入的不同元素。
-
last_hidden_state (
tf.Tensor
of shape(batch_size, sequence_length, hidden_size)
) — 模型最后一层输出的隐藏状态序列。 -
pooler_output (
tf.Tensor
,形状为(batch_size, hidden_size)
, 可选,当传递add_pooling_layer=True
时返回) — 最后一层隐藏状态的平均池化。 -
hidden_states (
tuple(tf.Tensor)
, 可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — `tf.Tensor` 的元组(一个用于嵌入层的输出,一个用于每个阶段的输出),形状为 `(batch_size, sequence_length, hidden_size)`。模型在每个层输出的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
, 可选,当传递output_attentions=True
或config.output_attentions=True
时返回) — `tf.Tensor` 的元组(每个阶段一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
-
reshaped_hidden_states (
tuple(tf.Tensor)
, 可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — `tf.Tensor` 的元组(一个用于嵌入层的输出,一个用于每个阶段的输出),形状为 `(batch_size, hidden_size, height, width)`。模型在每层输出处的隐藏状态,以及重新调整以包含空间维度的初始嵌入输出。
TFSwinModel 的 forward 方法重写了 __call__
特殊方法。
尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理前后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, TFSwinModel
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = TFSwinModel.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> inputs = image_processor(image, return_tensors="tf")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 49, 768]
TFSwinForMaskedImageModeling
class transformers.TFSwinForMaskedImageModeling
< 源代码 >( config: SwinConfig )
参数
- config (SwinConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
带有解码器的 Swin 模型,用于掩码图像建模,如 SimMIM 中所提出的。该模型是 Tensorflow keras.layers.Layer 的子类。可以像常规的 Tensorflow Module 一样使用它,并参考 Tensorflow 文档了解所有与通用用法和行为相关的事项。
调用
< 源代码 >( pixel_values: tf.Tensor | None = None bool_masked_pos: tf.Tensor | None = None head_mask: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → transformers.models.swin.modeling_tf_swin.TFSwinMaskedImageModelingOutput
或 tuple(tf.Tensor)
参数
- pixel_values (
tf.Tensor
,形状为(batch_size, num_channels, height, width)
) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()。 - head_mask (
tf.Tensor
,形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 用于使自注意力模块中选定的头无效的掩码。掩码值在[0, 1]
中选择:- 1 表示头未被掩盖,
- 0 表示头被掩盖。
- output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。 - bool_masked_pos (
tf.Tensor
,形状为(batch_size, num_patches)
) — 布尔类型的掩码位置。指示哪些图像块被掩盖 (1),哪些没有 (0)。
返回
transformers.models.swin.modeling_tf_swin.TFSwinMaskedImageModelingOutput
或 tuple(tf.Tensor)
一个 transformers.models.swin.modeling_tf_swin.TFSwinMaskedImageModelingOutput
或一个 tf.Tensor
的元组(如果传递了 return_dict=False
或 config.return_dict=False
),包含根据配置(SwinConfig)和输入的不同元素。
-
loss (
tf.Tensor
,形状为(1,)
, 可选,当提供了bool_masked_pos
时返回) — 掩码图像建模 (MLM) 损失。 -
reconstruction (
tf.Tensor
,形状为(batch_size, num_channels, height, width)
) — 重建的像素值。 -
hidden_states (
tuple(tf.Tensor)
, 可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — `tf.Tensor` 的元组(一个用于嵌入层的输出,一个用于每个阶段的输出),形状为 `(batch_size, sequence_length, hidden_size)`。模型在每个层输出的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
, 可选,当传递output_attentions=True
或config.output_attentions=True
时返回) — `tf.Tensor` 的元组(每个阶段一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
-
reshaped_hidden_states (
tuple(tf.Tensor)
, 可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — `tf.Tensor` 的元组(一个用于嵌入层的输出,一个用于每个阶段的输出),形状为 `(batch_size, hidden_size, height, width)`。模型在每层输出处的隐藏状态,以及重新调整以包含空间维度的初始嵌入输出。
TFSwinForMaskedImageModeling 的 forward 方法重写了 __call__
特殊方法。
尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理前后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, TFSwinForMaskedImageModeling
>>> import tensorflow as tf
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = TFSwinForMaskedImageModeling.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="tf").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = tf.random.uniform((1, num_patches)) >= 0.5
>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, reconstructed_pixel_values = outputs.loss, outputs.reconstruction
>>> list(reconstructed_pixel_values.shape)
[1, 3, 224, 224]
TFSwinForImageClassification
class transformers.TFSwinForImageClassification
< 源代码 >( config: SwinConfig )
参数
- config (SwinConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
Swin Model transformer,顶部带有一个图像分类头(在 [CLS] 标记的最终隐藏状态之上加一个线性层),例如用于 ImageNet。
该模型是 Tensorflow keras.layers.Layer 的子类。可以像常规的 Tensorflow Module 一样使用它,并参考 Tensorflow 文档了解所有与通用用法和行为相关的事项。
调用
< 源代码 >( pixel_values: tf.Tensor | None = None head_mask: tf.Tensor | None = None labels: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → transformers.models.swin.modeling_tf_swin.TFSwinImageClassifierOutput
或 tuple(tf.Tensor)
参数
- pixel_values (
tf.Tensor
,形状为(batch_size, num_channels, height, width)
) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()。 - head_mask (
tf.Tensor
,形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 用于使自注意力模块中选定的头无效的掩码。掩码值在[0, 1]
中选择:- 1 表示头未被掩盖,
- 0 表示头被掩盖。
- output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。 - labels (
tf.Tensor
,形状为(batch_size,)
,可选) — 用于计算图像分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
范围内。如果config.num_labels == 1
,则计算回归损失(均方损失);如果config.num_labels > 1
,则计算分类损失(交叉熵损失)。
返回
transformers.models.swin.modeling_tf_swin.TFSwinImageClassifierOutput
或 tuple(tf.Tensor)
一个 transformers.models.swin.modeling_tf_swin.TFSwinImageClassifierOutput
或一个 tf.Tensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含的各种元素取决于配置(SwinConfig)和输入。
-
loss (形状为
(1,)
的tf.Tensor
,可选,当提供labels
时返回) — 分类(如果 config.num_labels==1,则为回归)损失。 -
logits (
tf.Tensor
,形状为(batch_size, config.num_labels)
) — 分类(或回归,如果 config.num_labels==1)分数(SoftMax 之前)。 -
hidden_states (
tuple(tf.Tensor)
, 可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — `tf.Tensor` 的元组(一个用于嵌入层的输出,一个用于每个阶段的输出),形状为 `(batch_size, sequence_length, hidden_size)`。模型在每个层输出的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(tf.Tensor)
, 可选,当传递output_attentions=True
或config.output_attentions=True
时返回) — `tf.Tensor` 的元组(每个阶段一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
-
reshaped_hidden_states (
tuple(tf.Tensor)
, 可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — `tf.Tensor` 的元组(一个用于嵌入层的输出,一个用于每个阶段的输出),形状为 `(batch_size, hidden_size, height, width)`。模型在每层输出处的隐藏状态,以及重新调整以包含空间维度的初始嵌入输出。
TFSwinForImageClassification 的 forward 方法重写了 __call__
特殊方法。
尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理前后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, TFSwinForImageClassification
>>> import tensorflow as tf
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image"))
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> model = TFSwinForImageClassification.from_pretrained("microsoft/swin-tiny-patch4-window7-224")
>>> inputs = image_processor(image, return_tensors="tf")
>>> logits = model(**inputs).logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = int(tf.math.argmax(logits, axis=-1))
>>> print(model.config.id2label[predicted_label])
tabby, tabby cat