Transformers 文档
PoolFormer
并获得增强的文档体验
开始使用
该模型于 2021 年 11 月 22 日发布在 HF papers 上,并于 2022 年 2 月 17 日贡献给 Hugging Face Transformers。
PoolFormer
概述
PoolFormer 模型由 Sea AI Labs 在 MetaFormer is Actually What You Need for Vision 一文中提出。这项工作的目的不是为了设计复杂的 Token Mixer(Token 混合器)来达到 SOTA 性能,而是为了证明 Transformer 模型的能力主要源于其通用架构 MetaFormer。
论文摘要如下:
Transformer 在计算机视觉任务中展现出了巨大潜力。人们普遍认为,其基于注意力(Attention)的 Token Mixer 模块对其能力贡献最大。然而,近期的研究表明,Transformer 中的注意力模块可以被空间 MLP 替换,且模型性能依然保持良好。基于这一观察,我们假设 Transformer 的通用架构(而非特定的 Token Mixer 模块)对模型的性能更为重要。为了验证这一点,我们刻意将 Transformer 中的注意力模块替换为极其简单的空间池化(Pooling)算子,以进行最基本的 Token 混合。令人惊讶的是,我们观察到由此衍生的模型(即 PoolFormer)在多项计算机视觉任务上实现了具有竞争力的性能。例如,在 ImageNet-1K 上,PoolFormer 实现了 82.1% 的 Top-1 准确率,其准确率比经过充分调优的视觉 Transformer/MLP 类基线模型 DeiT-B 和 ResMLP-B24 分别高出 0.3% 和 1.1%,而参数量分别减少了 35% 和 52%,MACs 分别减少了 48% 和 60%。PoolFormer 的有效性验证了我们的假设,并促使我们提出了“MetaFormer”这一概念,即一种从 Transformer 中抽象出来的、不指定 Token Mixer 的通用架构。基于广泛的实验,我们认为 MetaFormer 是近期视觉任务中 Transformer 和 MLP 类模型实现优异结果的关键所在。这项工作呼吁未来更多的研究应致力于改进 MetaFormer,而不是仅关注 Token Mixer 模块。此外,我们提出的 PoolFormer 可以作为未来 MetaFormer 架构设计的基准起点。
下图展示了 PoolFormer 的架构。摘自原始论文。
使用技巧
- PoolFormer 具有分层架构,其中没有使用注意力机制,而是使用了一个简单的平均池化(Average Pooling)层。该模型的所有检查点均可在 hub 上找到。
- 可以使用 PoolFormerImageProcessor 为该模型准备图像。
- 与大多数模型一样,PoolFormer 有不同的大小,具体细节见下表。
| 模型变体 | 深度 | 隐藏层大小 | 参数 (M) | ImageNet-1k Top 1 |
|---|---|---|---|---|
| s12 | [2, 2, 6, 2] | [64, 128, 320, 512] | 12 | 77.2 |
| s24 | [4, 4, 12, 4] | [64, 128, 320, 512] | 21 | 80.3 |
| s36 | [6, 6, 18, 6] | [64, 128, 320, 512] | 31 | 81.4 |
| m36 | [6, 6, 18, 6] | [96, 192, 384, 768] | 56 | 82.1 |
| m48 | [8, 8, 24, 8] | [96, 192, 384, 768] | 73 | 82.5 |
资源
一份官方 Hugging Face 和社区(用 🌎 表示)资源列表,帮助您快速上手 PoolFormer。
- PoolFormerForImageClassification 受此示例脚本和笔记本支持。
- 另请参阅:图像分类任务指南
如果您有兴趣在此处提交资源,请随时开启 Pull Request,我们将对其进行审查!该资源最好能展示一些新内容,而不是重复现有资源。
PoolFormerConfig
class transformers.PoolFormerConfig
< 源代码 >( transformers_version: str | None = None architectures: list[str] | None = None output_hidden_states: bool | None = False return_dict: bool | None = True dtype: typing.Union[str, ForwardRef('torch.dtype'), NoneType] = None chunk_size_feed_forward: int = 0 is_encoder_decoder: bool = False id2label: dict[int, str] | dict[str, str] | None = None label2id: dict[str, int] | dict[str, str] | None = None problem_type: typing.Optional[typing.Literal['regression', 'single_label_classification', 'multi_label_classification']] = None num_channels: int = 3 patch_size: int | list[int] | tuple[int, int] = 16 stride: int = 16 pool_size: int = 3 mlp_ratio: float = 4.0 depths: list[int] | tuple[int, ...] = (2, 2, 6, 2) hidden_sizes: list[int] | tuple[int, ...] = (64, 128, 320, 512) patch_sizes: list[int] | tuple[int, ...] = (7, 3, 3, 3) strides: list[int] | tuple[int, ...] = (4, 2, 2, 2) padding: list[int] | tuple[int, ...] = (2, 1, 1, 1) num_encoder_blocks: int = 4 drop_path_rate: float | int = 0.0 hidden_act: str = 'gelu' use_layer_scale: bool = True layer_scale_init_value: float = 1e-05 initializer_range: float = 0.02 )
参数
- num_channels (
int, 可选, 默认为3) — 输入通道数。 - patch_size (
Union[int, list[int], tuple[int, int]], 可选, 默认为16) — 每个补丁(patch)的大小(分辨率)。 - stride (
int, 可选, 默认为 16) — 输入补丁的步长。 - pool_size (
int, 可选, 默认为 3) — 池化窗口的大小。 - mlp_ratio (
float, 可选, 默认为4.0) — MLP 隐藏维度与嵌入维度的比率。 - depths (
Union[list[int], tuple[int, ...]], 可选, 默认为(2, 2, 6, 2)) — Transformer 中每一层的深度。 - hidden_sizes (
Union[list[int], tuple[int, ...]], 可选, 默认为(64, 128, 320, 512)) — 模型每个阶段的维度(隐藏大小)。 - patch_sizes (
list, 可选, 默认为[7, 3, 3, 3]) — 每个编码器块(encoder block)的输入补丁大小。 - strides (
list, 可选, 默认为[4, 2, 2, 2]) — 每个编码器块的输入补丁步长。 - padding (
list, 可选, 默认为[2, 1, 1, 1]) — 每个编码器块的输入补丁填充(padding)。 - num_encoder_blocks (
int, 可选, 默认为 4) — 编码器块的数量。 - drop_path_rate (
Union[float, int], 可选, 默认为0.0) — 补丁融合(patch fusion)的 drop path 比率。 - hidden_act (
str, 可选, 默认为gelu) — 解码器中的非线性激活函数(函数或字符串)。例如:"gelu"、"relu"、"silu"等。 - use_layer_scale (
bool, 可选, 默认为True) — 是否使用层缩放(layer scale)。 - layer_scale_init_value (
float, 可选, 默认为1e-05) — 自注意力层中使用的缩放值。Base 模型为 0.1,Large 模型为 1e-6。设置为 0 可禁用层缩放。 - initializer_range (
float, 可选, 默认为0.02) — 用于初始化所有权重矩阵的截断正态初始化器(truncated_normal_initializer)的标准差。
这是用于存储 PoolFormerModel 配置的配置类。它用于根据指定的参数实例化 PoolFormer 模型,定义模型架构。使用默认值实例化配置将产生与 sail/poolformer_s12 类似的配置。
配置对象继承自 PreTrainedConfig,可用于控制模型输出。阅读 PreTrainedConfig 的文档以获取更多信息。
示例
>>> from transformers import PoolFormerConfig, PoolFormerModel
>>> # Initializing a PoolFormer sail/poolformer_s12 style configuration
>>> configuration = PoolFormerConfig()
>>> # Initializing a model (with random weights) from the sail/poolformer_s12 style configuration
>>> model = PoolFormerModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.configPoolFormerImageProcessor
class transformers.PoolFormerImageProcessor
< 源代码 >( **kwargs: typing_extensions.Unpack[transformers.models.poolformer.image_processing_poolformer.PoolFormerImageProcessorKwargs] )
参数
- crop_pct (
float, kwargs, 可选, 默认为self.crop_pct) — 图像裁剪的百分比。仅在do_resize设置为True时有效。 - **kwargs (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 列在上面;有关支持参数的完整列表,请参阅 TypedDict 类。
构建一个 PoolFormerImageProcessor 图像处理器。
preprocess
< 源代码 >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] *args **kwargs: typing_extensions.Unpack[transformers.processing_utils.ImagesKwargs] ) → ~image_processing_base.BatchFeature
参数
- images (
Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list[PIL.Image.Image], list[numpy.ndarray], list[torch.Tensor]]) — 要预处理的图像。需要单个图像或像素值范围为 0 到 255 的图像批次。如果传入像素值在 0 到 1 之间的图像,请设置do_rescale=False。 - return_tensors (
str或 TensorType, 可选) — 如果设置为'pt',则返回堆叠张量,否则返回张量列表。 - **kwargs (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 列在上面;有关支持参数的完整列表,请参阅 TypedDict 类。
返回
~image_processing_base.BatchFeature
- data (
dict) — 由 call 方法返回的列表/数组/张量字典(“pixel_values”等)。 - tensor_type (
Union[None, str, TensorType], optional) — 您可以在此处提供 tensor_type 以在初始化时将整数列表转换为 PyTorch/Numpy 张量。
PoolFormerImageProcessorPil
class transformers.PoolFormerImageProcessorPil
< 源代码 >( **kwargs: typing_extensions.Unpack[transformers.models.poolformer.image_processing_pil_poolformer.PoolFormerImageProcessorKwargs] )
参数
- crop_pct (
float, kwargs, 可选, 默认为self.crop_pct) — 图像裁剪的百分比。仅在do_resize设置为True时有效。 - **kwargs (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 列在上面;有关支持参数的完整列表,请参阅 TypedDict 类。
构建一个 PoolFormerImageProcessor 图像处理器。
preprocess
< 源代码 >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] *args **kwargs: typing_extensions.Unpack[transformers.processing_utils.ImagesKwargs] ) → ~image_processing_base.BatchFeature
参数
- images (
Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list[PIL.Image.Image], list[numpy.ndarray], list[torch.Tensor]]) — 要预处理的图像。需要单个图像或像素值范围为 0 到 255 的图像批次。如果传入像素值在 0 到 1 之间的图像,请设置do_rescale=False。 - return_tensors (
str或 TensorType, 可选) — 如果设置为'pt',则返回堆叠张量,否则返回张量列表。 - **kwargs (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 列在上面;有关支持参数的完整列表,请参阅 TypedDict 类。
返回
~image_processing_base.BatchFeature
- data (
dict) — 由 call 方法返回的列表/数组/张量字典(“pixel_values”等)。 - tensor_type (
Union[None, str, TensorType], optional) — 您可以在此处提供 tensor_type 以在初始化时将整数列表转换为 PyTorch/Numpy 张量。
PoolFormerModel
class transformers.PoolFormerModel
< 源代码 >( config model_args: ~utils.generic.ModelArgs | None = None adapter_args: ~utils.generic.AdapterArgs | None = None lora_args: ~utils.generic.LoRAArgs | None = None tokenizer_args: ~utils.generic.TokenizerArgs | None = None dataset_args: ~utils.generic.DatasetArgs | None = None data_args: ~utils.generic.DataArgs | None = None training_args: ~utils.generic.TrainingArgs | None = None generation_args: ~utils.generic.GenerationArgs | None = None vision_tower_args: ~utils.generic.VisionTowerArgs | None = None qlora_args: ~utils.generic.QLoRAArgs | None = None vision_tower_template_args: ~utils.generic.VisionTowerTemplateArgs | None = None video_tower_args: ~utils.generic.VideoTowerArgs | None = None vision_config: ~utils.generic.VisionConfig | None = None video_config: ~utils.generic.VideoConfig | None = None load_dataset: bool | None = None load_data_collator: bool | None = None load_processor: bool | None = None load_lora_adapter: bool | None = None load_adapter: bool | None = None load_qlora_adapter: bool | None = None **kwargs: typing_extensions.Unpack[transformers.modeling_utils.PreTrainedModelKwargs] )
参数
- config (PoolFormerModel) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查阅 from_pretrained() 方法来加载模型权重。
裸 PoolFormer 模型,输出原始隐藏状态,顶部没有任何特定的头部(head)。
该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是一个 PyTorch torch.nn.Module 子类。像普通的 PyTorch Module 一样使用它,并参考 PyTorch 文档了解一般用法和行为的所有相关信息。
forward
< 源代码 >( pixel_values: torch.FloatTensor | None = None output_hidden_states: bool | None = None return_dict: bool | None = None **kwargs ) → BaseModelOutputWithNoAttention 或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor,形状为(batch_size, num_channels, image_size, image_size),可选) — 对应于输入图像的张量。像素值可以使用 PoolFormerImageProcessor 获取。有关详细信息,请参阅PoolFormerImageProcessor.__call__()(processor_class使用 PoolFormerImageProcessor 处理图像)。 - output_hidden_states (
bool, 可选) — 是否返回所有层的隐藏状态。有关详细信息,请参阅返回张量下的hidden_states。 - return_dict (
bool, 可选) — 是否返回 ModelOutput 而不是普通元组。
返回
BaseModelOutputWithNoAttention 或 tuple(torch.FloatTensor)
一个 BaseModelOutputWithNoAttention 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或 config.return_dict=False),具体取决于配置(PoolFormerConfig)和输入,包含各种元素。
PoolFormerModel 的 forward 方法,重写了 __call__ 特殊方法。
虽然 forward pass 的实现需要在此函数中定义,但你应该在之后调用
Module实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。
last_hidden_state (
torch.FloatTensor, 形状为(batch_size, num_channels, height, width)) — 模型最后一层输出的隐藏状态序列。hidden_states (
tuple(torch.FloatTensor), optional, 当传入output_hidden_states=True或config.output_hidden_states=True时返回) —torch.FloatTensor的元组(如果模型有嵌入层,则包含一个嵌入层输出,加上每层的一个输出),形状为(batch_size, num_channels, height, width)。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
PoolFormerForImageClassification
class transformers.PoolFormerForImageClassification
< 源代码 >( config model_args: ~utils.generic.ModelArgs | None = None adapter_args: ~utils.generic.AdapterArgs | None = None lora_args: ~utils.generic.LoRAArgs | None = None tokenizer_args: ~utils.generic.TokenizerArgs | None = None dataset_args: ~utils.generic.DatasetArgs | None = None data_args: ~utils.generic.DataArgs | None = None training_args: ~utils.generic.TrainingArgs | None = None generation_args: ~utils.generic.GenerationArgs | None = None vision_tower_args: ~utils.generic.VisionTowerArgs | None = None qlora_args: ~utils.generic.QLoRAArgs | None = None vision_tower_template_args: ~utils.generic.VisionTowerTemplateArgs | None = None video_tower_args: ~utils.generic.VideoTowerArgs | None = None vision_config: ~utils.generic.VisionConfig | None = None video_config: ~utils.generic.VideoConfig | None = None load_dataset: bool | None = None load_data_collator: bool | None = None load_processor: bool | None = None load_lora_adapter: bool | None = None load_adapter: bool | None = None load_qlora_adapter: bool | None = None **kwargs: typing_extensions.Unpack[transformers.modeling_utils.PreTrainedModelKwargs] )
参数
- config (PoolFormerForImageClassification) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,仅加载配置。请查看 from_pretrained() 方法以加载模型权重。
带有图像分类头的 PoolFormer Transformer 模型
该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是一个 PyTorch torch.nn.Module 子类。像普通的 PyTorch Module 一样使用它,并参考 PyTorch 文档了解一般用法和行为的所有相关信息。
forward
< 源码 >( pixel_values: torch.FloatTensor | None = None labels: torch.LongTensor | None = None output_hidden_states: bool | None = None return_dict: bool | None = None **kwargs ) → ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)
参数
- pixel_values (形状为
(batch_size, num_channels, image_size, image_size)的torch.FloatTensor,可选) — 对应于输入图像的张量。像素值可以使用 PoolFormerImageProcessor 获取。详细信息请参阅PoolFormerImageProcessor.__call__()(processor_class使用 PoolFormerImageProcessor 处理图像)。 - labels (形状为
(batch_size,)的torch.LongTensor,可选) — 用于计算图像分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1,则计算回归损失(均方误差损失);如果config.num_labels > 1,则计算分类损失(交叉熵损失)。 - output_hidden_states (
bool,可选) — 是否返回所有层的隐藏状态。有关详细信息,请参阅返回张量中的hidden_states。 - return_dict (
bool,可选) — 是否返回一个 ModelOutput 而不是普通的元组。
返回
ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)
一个 ImageClassifierOutputWithNoAttention 或一个 torch.FloatTensor 元组(如果传入 return_dict=False 或 config.return_dict=False 时),根据配置(PoolFormerConfig)和输入包含各种元素。
PoolFormerForImageClassification 的前向传播方法,覆盖了 __call__ 特殊方法。
虽然 forward pass 的实现需要在此函数中定义,但你应该在之后调用
Module实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。
- loss (形状为
(1,)的torch.FloatTensor,可选,当提供labels时返回) — 分类损失(如果 config.num_labels==1,则为回归损失)。 - logits (形状为
(batch_size, config.num_labels)的torch.FloatTensor) — 分类(如果 config.num_labels==1,则为回归)分数(SoftMax 之前)。 - hidden_states (
tuple(torch.FloatTensor), optional, 当传入output_hidden_states=True或config.output_hidden_states=True时返回) —torch.FloatTensor的元组(如果模型有嵌入层,则包含一个嵌入层输出,加上每阶段的一个输出),形状为(batch_size, num_channels, height, width)。模型在每个阶段输出的隐藏状态(也称为特征图)。
示例
>>> from transformers import AutoImageProcessor, PoolFormerForImageClassification
>>> import torch
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("sail/poolformer_s12")
>>> model = PoolFormerForImageClassification.from_pretrained("sail/poolformer_s12")
>>> inputs = image_processor(image, return_tensors="pt")
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...