Transformers 文档
SwiftFormer
并获得增强的文档体验
开始使用
SwiftFormer
概述
SwiftFormer 模型由 Abdelrahman Shaker、Muhammad Maaz、Hanoona Rasheed、Salman Khan、Ming-Hsuan Yang、Fahad Shahbaz Khan 在 SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications 中提出。
SwiftFormer 论文引入了一种新颖高效的加性注意力机制,该机制有效地用线性逐元素乘法取代了自注意力计算中的二次矩阵乘法运算。基于此构建了一系列名为“SwiftFormer”的模型,它们在准确性和移动推理速度方面都达到了最先进的性能。即使是它们的小型变体,也能在 iPhone 14 上以仅 0.8 毫秒的延迟实现 78.5% 的 ImageNet1K top-1 准确率,这比 MobileViT-v2 更准确,速度快 2 倍。
论文摘要如下:
自注意力已成为在各种视觉应用中捕获全局上下文的实际选择。然而,其相对于图像分辨率的二次计算复杂度限制了其在实时应用中的使用,特别是部署在资源受限的移动设备上。尽管已经提出了混合方法来结合卷积和自注意力的优势以实现更好的速度-精度权衡,但自注意力中昂贵的矩阵乘法运算仍然是瓶颈。在这项工作中,我们引入了一种新颖高效的加性注意力机制,该机制有效地用线性逐元素乘法取代了二次矩阵乘法运算。我们的设计表明,键值交互可以用线性层代替,而不会牺牲任何准确性。与以前最先进的方法不同,我们高效的自注意力公式使其能够在网络的各个阶段使用。使用我们提出的高效加性注意力,我们构建了一系列名为“SwiftFormer”的模型,它们在准确性和移动推理速度方面都达到了最先进的性能。我们的小型变体在 iPhone 14 上仅以 0.8 毫秒的延迟实现了 78.5% 的 ImageNet-1K top-1 准确率,这比 MobileViT-v2 更准确,速度快 2 倍。
此模型由 shehan97 贡献。TensorFlow 版本由 joaocmd 贡献。原始代码可在 此处 找到。
SwiftFormerConfig
class transformers.SwiftFormerConfig
< 来源 >( image_size = 224 num_channels = 3 depths = [3, 3, 6, 4] embed_dims = [48, 56, 112, 220] mlp_ratio = 4 downsamples = [True, True, True, True] hidden_act = 'gelu' down_patch_size = 3 down_stride = 2 down_pad = 1 drop_path_rate = 0.0 drop_mlp_rate = 0.0 drop_conv_encoder_rate = 0.0 use_layer_scale = True layer_scale_init_value = 1e-05 batch_norm_eps = 1e-05 **kwargs )
参数
- image_size (
int
, 可选, 默认为 224) — 每张图像的大小(分辨率) - num_channels (
int
, 可选, 默认为 3) — 输入通道数 - depths (
list[int]
, 可选, 默认为[3, 3, 6, 4]
) — 每个阶段的深度 - embed_dims (
list[int]
, 可选, 默认为[48, 56, 112, 220]
) — 每个阶段的嵌入维度 - mlp_ratio (
int
, 可选, 默认为 4) — MLP 隐藏维度与输入维度之比。 - downsamples (
list[bool]
, 可选, 默认为[True, True, True, True]
) — 是否在两个阶段之间对输入进行下采样。 - hidden_act (
str
, 可选, 默认为"gelu"
) — 非线性激活函数(字符串)。支持"gelu"
、"relu"
、"selu"
和"gelu_new"
。 - down_patch_size (
int
, 可选, 默认为 3) — 下采样层中的补丁大小。 - down_stride (
int
, 可选, 默认为 2) — 下采样层中卷积核的步幅。 - down_pad (
int
, 可选, 默认为 1) — 下采样层中的填充。 - drop_path_rate (
float
, 可选, 默认为 0.0) — DropPath 中增加 dropout 概率的速率。 - drop_mlp_rate (
float
, 可选, 默认为 0.0) — SwiftFormer 的 MLP 组件的 Dropout 率。 - drop_conv_encoder_rate (
float
, 可选, 默认为 0.0) — SwiftFormer 的 ConvEncoder 组件的 Dropout 率。 - use_layer_scale (
bool
, 可选, 默认为True
) — 是否缩放令牌混合器的输出。 - layer_scale_init_value (
float
, 可选, 默认为 1e-05) — 令牌混合器输出的缩放因子。 - batch_norm_eps (
float
, 可选, 默认为 1e-05) — 批归一化层使用的 epsilon。
这是用于存储 SwiftFormerModel 配置的配置类。它用于根据指定参数实例化 SwiftFormer 模型,定义模型架构。使用默认值实例化配置将生成与 SwiftFormer MBZUAI/swiftformer-xs 架构类似的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。有关更多信息,请参阅 PretrainedConfig 文档。
示例
>>> from transformers import SwiftFormerConfig, SwiftFormerModel
>>> # Initializing a SwiftFormer swiftformer-base-patch16-224 style configuration
>>> configuration = SwiftFormerConfig()
>>> # Initializing a model (with random weights) from the swiftformer-base-patch16-224 style configuration
>>> model = SwiftFormerModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
SwiftFormerModel
class transformers.SwiftFormerModel
< 来源 >( config: SwiftFormerConfig )
参数
- config (SwiftFormerConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不加载与模型关联的权重,只加载配置。请查看 from_pretrained() 方法加载模型权重。
输出原始隐藏状态的裸 Swiftformer 模型,顶部没有任何特定头部。
此模型继承自 PreTrainedModel。请查看超类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用,并参考 PyTorch 文档了解所有与通用用法和行为相关的事项。
前向
< 来源 >( pixel_values: typing.Optional[torch.Tensor] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithNoAttention
或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.Tensor
, 形状为(batch_size, num_channels, image_size, image_size)
, 可选) — 对应于输入图像的张量。像素值可以使用{image_processor_class}
获取。有关详细信息,请参阅{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
处理图像)。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。
返回
transformers.modeling_outputs.BaseModelOutputWithNoAttention
或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.BaseModelOutputWithNoAttention
或一个 torch.FloatTensor
元组(如果传递 return_dict=False
或当 config.return_dict=False
时),包含根据配置 (SwiftFormerConfig) 和输入的不同元素。
-
last_hidden_state (
torch.FloatTensor
, 形状为(batch_size, num_channels, height, width)
) — 模型最后一层输出的隐藏状态序列。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(一个用于嵌入层输出,如果模型有嵌入层,+ 每个层输出一个),形状为(batch_size, num_channels, height, width)
。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
SwiftFormerModel 的前向方法,覆盖了 __call__
特殊方法。
尽管前向传递的配方需要在此函数中定义,但之后应该调用 Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。
SwiftFormerForImageClassification
class transformers.SwiftFormerForImageClassification
< 来源 >( config: SwiftFormerConfig )
参数
- config (SwiftFormerConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不加载与模型关联的权重,只加载配置。请查看 from_pretrained() 方法加载模型权重。
带有图像分类头部的 Swiftformer 模型,例如用于 ImageNet。
此模型继承自 PreTrainedModel。请查看超类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用,并参考 PyTorch 文档了解所有与通用用法和行为相关的事项。
前向
< 来源 >( pixel_values: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.Tensor
, 形状为(batch_size, num_channels, image_size, image_size)
, 可选) — 对应于输入图像的张量。像素值可以使用{image_processor_class}
获取。有关详细信息,请参阅{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
处理图像)。 - labels (
torch.LongTensor
, 形状为(batch_size,)
, 可选) — 用于计算图像分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
范围内。如果config.num_labels == 1
,则计算回归损失(均方误差损失),如果config.num_labels > 1
,则计算分类损失(交叉熵)。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。
返回
transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或一个 torch.FloatTensor
元组(如果传递 return_dict=False
或当 config.return_dict=False
时),包含根据配置 (SwiftFormerConfig) 和输入的不同元素。
- loss (形状为
(1,)
的torch.FloatTensor
,可选,当提供labels
时返回) — 分类损失(如果 config.num_labels==1,则为回归损失)。 - logits (形状为
(batch_size, config.num_labels)
的torch.FloatTensor
) — 分类(如果 config.num_labels==1,则为回归)分数(SoftMax 之前)。 - hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(一个用于嵌入层输出,如果模型有嵌入层,+ 每个阶段输出一个),形状为(batch_size, num_channels, height, width)
。模型在每个阶段输出的隐藏状态(也称为特征图)。
SwiftFormerForImageClassification 的前向方法,覆盖了 __call__
特殊方法。
尽管前向传递的配方需要在此函数中定义,但之后应该调用 Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。
示例
>>> from transformers import AutoImageProcessor, SwiftFormerForImageClassification
>>> import torch
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("MBZUAI/swiftformer-xs")
>>> model = SwiftFormerForImageClassification.from_pretrained("MBZUAI/swiftformer-xs")
>>> inputs = image_processor(image, return_tensors="pt")
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...
TFSwiftFormerModel
class transformers.TFSwiftFormerModel
< 来源 >( config: SwiftFormerConfig *inputs **kwargs )
参数
- config (SwiftFormerConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不加载与模型关联的权重,只加载配置。请查看 from_pretrained() 方法加载模型权重。
输出原始隐藏状态的裸 TFSwiftFormer 模型 Transformer,顶部没有任何特定头部。此模型继承自 TFPreTrainedModel。请查看超类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 keras.Model 子类。将其作为常规 TF 2.0 Keras 模型使用,并参考 TF 2.0 文档了解所有与通用用法和行为相关的事项。
TF 2.0 模型接受两种输入格式
- 所有输入作为关键字参数(如 PyTorch 模型),或
- 将所有输入作为列表、元组或字典放在第一个位置参数中。当使用
keras.Model.fit
方法时,此第二种选项非常有用,因为该方法目前要求将所有张量放在模型调用函数的第一个参数中:model(inputs)
。如果选择此第二种选项,您可以使用以下三种可能性来收集第一个位置参数中的所有输入张量 - 只有一个
input_ids
的单个张量,没有其他:model(input_ids)
- 长度可变的列表,包含一个或多个输入张量,按文档字符串中给出的顺序:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
调用
< 来源 >( pixel_values: typing.Optional[tensorflow.python.framework.tensor.Tensor] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None training: bool = False )
参数
- pixel_values (
tf.Tensor
, 形状为(batch_size, num_channels, height, width)
) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call()。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。 - training (
bool
, 可选, 默认为False
) — 是否在训练模式下运行模型。
TFSwiftFormerModel 的 forward 方法,会覆盖 __call__
特殊方法。
尽管前向传递的配方需要在此函数中定义,但之后应该调用 Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。
TFSwiftFormerForImageClassification
class transformers.TFSwiftFormerForImageClassification
< source >( config: SwiftFormerConfig **kwargs )
参数
- config (SwiftFormerConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
TFSwiftFormer 模型变换器,顶部带有一个图像分类头(例如用于 ImageNet)。
此模型继承自 TFPreTrainedModel。有关库为其所有模型实现的通用方法(如下载或保存、调整输入嵌入大小、修剪头等),请查看超类文档。
此模型也是 keras.Model 子类。将其作为常规 TF 2.0 Keras 模型使用,并参考 TF 2.0 文档了解所有与通用用法和行为相关的事项。
TF 2.0 模型接受两种输入格式
- 所有输入作为关键字参数(如 PyTorch 模型),或
- 将所有输入作为列表、元组或字典放在第一个位置参数中。当使用
keras.Model.fit
方法时,此第二种选项非常有用,因为该方法目前要求将所有张量放在模型调用函数的第一个参数中:model(inputs)
。如果选择此第二种选项,您可以使用以下三种可能性来收集第一个位置参数中的所有输入张量 - 只有一个
input_ids
的单个张量,没有其他:model(input_ids)
- 长度可变的列表,包含一个或多个输入张量,按文档字符串中给出的顺序:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
调用
< source >( pixel_values: typing.Optional[tensorflow.python.framework.tensor.Tensor] = None labels: typing.Optional[tensorflow.python.framework.tensor.Tensor] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None training: bool = False )
参数
- pixel_values (
tf.Tensor
形状为(batch_size, num_channels, height, width)
) — 像素值。像素值可以使用 AutoImageProcessor 获得。详情请参见 ViTImageProcessor.call()。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。更多详情请参见返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是简单的元组。 - training (
bool
, 可选, 默认为False
) — 是否在训练模式下运行模型。 - labels (
tf.Tensor
形状为(batch_size,)
, 可选) — 用于计算图像分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
范围内。如果config.num_labels == 1
,则计算回归损失(均方误差损失);如果config.num_labels > 1
,则计算分类损失(交叉熵损失)。
TFSwiftFormerForImageClassification 的 forward 方法,会覆盖 __call__
特殊方法。
尽管前向传递的配方需要在此函数中定义,但之后应该调用 Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默忽略它们。