Transformers 文档

PoolFormer

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

该模型于 2021 年 11 月 22 日发布在 HF papers 上,并于 2022 年 2 月 17 日贡献给 Hugging Face Transformers。

PoolFormer

概述

PoolFormer 模型由 Sea AI Labs 在 MetaFormer is Actually What You Need for Vision 一文中提出。这项工作的目的不是为了设计复杂的 Token Mixer(Token 混合器)来达到 SOTA 性能,而是为了证明 Transformer 模型的能力主要源于其通用架构 MetaFormer。

论文摘要如下:

Transformer 在计算机视觉任务中展现出了巨大潜力。人们普遍认为,其基于注意力(Attention)的 Token Mixer 模块对其能力贡献最大。然而,近期的研究表明,Transformer 中的注意力模块可以被空间 MLP 替换,且模型性能依然保持良好。基于这一观察,我们假设 Transformer 的通用架构(而非特定的 Token Mixer 模块)对模型的性能更为重要。为了验证这一点,我们刻意将 Transformer 中的注意力模块替换为极其简单的空间池化(Pooling)算子,以进行最基本的 Token 混合。令人惊讶的是,我们观察到由此衍生的模型(即 PoolFormer)在多项计算机视觉任务上实现了具有竞争力的性能。例如,在 ImageNet-1K 上,PoolFormer 实现了 82.1% 的 Top-1 准确率,其准确率比经过充分调优的视觉 Transformer/MLP 类基线模型 DeiT-B 和 ResMLP-B24 分别高出 0.3% 和 1.1%,而参数量分别减少了 35% 和 52%,MACs 分别减少了 48% 和 60%。PoolFormer 的有效性验证了我们的假设,并促使我们提出了“MetaFormer”这一概念,即一种从 Transformer 中抽象出来的、不指定 Token Mixer 的通用架构。基于广泛的实验,我们认为 MetaFormer 是近期视觉任务中 Transformer 和 MLP 类模型实现优异结果的关键所在。这项工作呼吁未来更多的研究应致力于改进 MetaFormer,而不是仅关注 Token Mixer 模块。此外,我们提出的 PoolFormer 可以作为未来 MetaFormer 架构设计的基准起点。

下图展示了 PoolFormer 的架构。摘自原始论文

该模型由 heytanay 贡献。原始代码可以在这里找到。

使用技巧

  • PoolFormer 具有分层架构,其中没有使用注意力机制,而是使用了一个简单的平均池化(Average Pooling)层。该模型的所有检查点均可在 hub 上找到。
  • 可以使用 PoolFormerImageProcessor 为该模型准备图像。
  • 与大多数模型一样,PoolFormer 有不同的大小,具体细节见下表。
模型变体 深度 隐藏层大小 参数 (M) ImageNet-1k Top 1
s12 [2, 2, 6, 2] [64, 128, 320, 512] 12 77.2
s24 [4, 4, 12, 4] [64, 128, 320, 512] 21 80.3
s36 [6, 6, 18, 6] [64, 128, 320, 512] 31 81.4
m36 [6, 6, 18, 6] [96, 192, 384, 768] 56 82.1
m48 [8, 8, 24, 8] [96, 192, 384, 768] 73 82.5

资源

一份官方 Hugging Face 和社区(用 🌎 表示)资源列表,帮助您快速上手 PoolFormer。

图像分类

如果您有兴趣在此处提交资源,请随时开启 Pull Request,我们将对其进行审查!该资源最好能展示一些新内容,而不是重复现有资源。

PoolFormerConfig

class transformers.PoolFormerConfig

< >

( transformers_version: str | None = None architectures: list[str] | None = None output_hidden_states: bool | None = False return_dict: bool | None = True dtype: typing.Union[str, ForwardRef('torch.dtype'), NoneType] = None chunk_size_feed_forward: int = 0 is_encoder_decoder: bool = False id2label: dict[int, str] | dict[str, str] | None = None label2id: dict[str, int] | dict[str, str] | None = None problem_type: typing.Optional[typing.Literal['regression', 'single_label_classification', 'multi_label_classification']] = None num_channels: int = 3 patch_size: int | list[int] | tuple[int, int] = 16 stride: int = 16 pool_size: int = 3 mlp_ratio: float = 4.0 depths: list[int] | tuple[int, ...] = (2, 2, 6, 2) hidden_sizes: list[int] | tuple[int, ...] = (64, 128, 320, 512) patch_sizes: list[int] | tuple[int, ...] = (7, 3, 3, 3) strides: list[int] | tuple[int, ...] = (4, 2, 2, 2) padding: list[int] | tuple[int, ...] = (2, 1, 1, 1) num_encoder_blocks: int = 4 drop_path_rate: float | int = 0.0 hidden_act: str = 'gelu' use_layer_scale: bool = True layer_scale_init_value: float = 1e-05 initializer_range: float = 0.02 )

参数

  • num_channels (int, 可选, 默认为 3) — 输入通道数。
  • patch_size (Union[int, list[int], tuple[int, int]], 可选, 默认为 16) — 每个补丁(patch)的大小(分辨率)。
  • stride (int, 可选, 默认为 16) — 输入补丁的步长。
  • pool_size (int, 可选, 默认为 3) — 池化窗口的大小。
  • mlp_ratio (float, 可选, 默认为 4.0) — MLP 隐藏维度与嵌入维度的比率。
  • depths (Union[list[int], tuple[int, ...]], 可选, 默认为 (2, 2, 6, 2)) — Transformer 中每一层的深度。
  • hidden_sizes (Union[list[int], tuple[int, ...]], 可选, 默认为 (64, 128, 320, 512)) — 模型每个阶段的维度(隐藏大小)。
  • patch_sizes (list, 可选, 默认为 [7, 3, 3, 3]) — 每个编码器块(encoder block)的输入补丁大小。
  • strides (list, 可选, 默认为 [4, 2, 2, 2]) — 每个编码器块的输入补丁步长。
  • padding (list, 可选, 默认为 [2, 1, 1, 1]) — 每个编码器块的输入补丁填充(padding)。
  • num_encoder_blocks (int, 可选, 默认为 4) — 编码器块的数量。
  • drop_path_rate (Union[float, int], 可选, 默认为 0.0) — 补丁融合(patch fusion)的 drop path 比率。
  • hidden_act (str, 可选, 默认为 gelu) — 解码器中的非线性激活函数(函数或字符串)。例如:"gelu""relu""silu" 等。
  • use_layer_scale (bool, 可选, 默认为 True) — 是否使用层缩放(layer scale)。
  • layer_scale_init_value (float, 可选, 默认为 1e-05) — 自注意力层中使用的缩放值。Base 模型为 0.1,Large 模型为 1e-6。设置为 0 可禁用层缩放。
  • initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化器(truncated_normal_initializer)的标准差。

这是用于存储 PoolFormerModel 配置的配置类。它用于根据指定的参数实例化 PoolFormer 模型,定义模型架构。使用默认值实例化配置将产生与 sail/poolformer_s12 类似的配置。

配置对象继承自 PreTrainedConfig,可用于控制模型输出。阅读 PreTrainedConfig 的文档以获取更多信息。

示例

>>> from transformers import PoolFormerConfig, PoolFormerModel

>>> # Initializing a PoolFormer sail/poolformer_s12 style configuration
>>> configuration = PoolFormerConfig()

>>> # Initializing a model (with random weights) from the sail/poolformer_s12 style configuration
>>> model = PoolFormerModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

PoolFormerImageProcessor

class transformers.PoolFormerImageProcessor

< >

( **kwargs: typing_extensions.Unpack[transformers.models.poolformer.image_processing_poolformer.PoolFormerImageProcessorKwargs] )

参数

  • crop_pct (float, kwargs, 可选, 默认为 self.crop_pct) — 图像裁剪的百分比。仅在 do_resize 设置为 True 时有效。
  • **kwargs (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 列在上面;有关支持参数的完整列表,请参阅 TypedDict 类。

构建一个 PoolFormerImageProcessor 图像处理器。

preprocess

< >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] *args **kwargs: typing_extensions.Unpack[transformers.processing_utils.ImagesKwargs] ) ~image_processing_base.BatchFeature

参数

  • images (Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list[PIL.Image.Image], list[numpy.ndarray], list[torch.Tensor]]) — 要预处理的图像。需要单个图像或像素值范围为 0 到 255 的图像批次。如果传入像素值在 0 到 1 之间的图像,请设置 do_rescale=False
  • return_tensors (strTensorType, 可选) — 如果设置为 'pt',则返回堆叠张量,否则返回张量列表。
  • **kwargs (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 列在上面;有关支持参数的完整列表,请参阅 TypedDict 类。

返回

~image_processing_base.BatchFeature

  • data (dict) — 由 call 方法返回的列表/数组/张量字典(“pixel_values”等)。
  • tensor_type (Union[None, str, TensorType], optional) — 您可以在此处提供 tensor_type 以在初始化时将整数列表转换为 PyTorch/Numpy 张量。

PoolFormerImageProcessorPil

class transformers.PoolFormerImageProcessorPil

< >

( **kwargs: typing_extensions.Unpack[transformers.models.poolformer.image_processing_pil_poolformer.PoolFormerImageProcessorKwargs] )

参数

  • crop_pct (float, kwargs, 可选, 默认为 self.crop_pct) — 图像裁剪的百分比。仅在 do_resize 设置为 True 时有效。
  • **kwargs (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 列在上面;有关支持参数的完整列表,请参阅 TypedDict 类。

构建一个 PoolFormerImageProcessor 图像处理器。

preprocess

< >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] *args **kwargs: typing_extensions.Unpack[transformers.processing_utils.ImagesKwargs] ) ~image_processing_base.BatchFeature

参数

  • images (Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list[PIL.Image.Image], list[numpy.ndarray], list[torch.Tensor]]) — 要预处理的图像。需要单个图像或像素值范围为 0 到 255 的图像批次。如果传入像素值在 0 到 1 之间的图像,请设置 do_rescale=False
  • return_tensors (strTensorType, 可选) — 如果设置为 'pt',则返回堆叠张量,否则返回张量列表。
  • **kwargs (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 列在上面;有关支持参数的完整列表,请参阅 TypedDict 类。

返回

~image_processing_base.BatchFeature

  • data (dict) — 由 call 方法返回的列表/数组/张量字典(“pixel_values”等)。
  • tensor_type (Union[None, str, TensorType], optional) — 您可以在此处提供 tensor_type 以在初始化时将整数列表转换为 PyTorch/Numpy 张量。

PoolFormerModel

class transformers.PoolFormerModel

< >

( config model_args: ~utils.generic.ModelArgs | None = None adapter_args: ~utils.generic.AdapterArgs | None = None lora_args: ~utils.generic.LoRAArgs | None = None tokenizer_args: ~utils.generic.TokenizerArgs | None = None dataset_args: ~utils.generic.DatasetArgs | None = None data_args: ~utils.generic.DataArgs | None = None training_args: ~utils.generic.TrainingArgs | None = None generation_args: ~utils.generic.GenerationArgs | None = None vision_tower_args: ~utils.generic.VisionTowerArgs | None = None qlora_args: ~utils.generic.QLoRAArgs | None = None vision_tower_template_args: ~utils.generic.VisionTowerTemplateArgs | None = None video_tower_args: ~utils.generic.VideoTowerArgs | None = None vision_config: ~utils.generic.VisionConfig | None = None video_config: ~utils.generic.VideoConfig | None = None load_dataset: bool | None = None load_data_collator: bool | None = None load_processor: bool | None = None load_lora_adapter: bool | None = None load_adapter: bool | None = None load_qlora_adapter: bool | None = None **kwargs: typing_extensions.Unpack[transformers.modeling_utils.PreTrainedModelKwargs] )

参数

  • config (PoolFormerModel) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查阅 from_pretrained() 方法来加载模型权重。

裸 PoolFormer 模型,输出原始隐藏状态,顶部没有任何特定的头部(head)。

该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。

此模型也是一个 PyTorch torch.nn.Module 子类。像普通的 PyTorch Module 一样使用它,并参考 PyTorch 文档了解一般用法和行为的所有相关信息。

forward

< >

( pixel_values: torch.FloatTensor | None = None output_hidden_states: bool | None = None return_dict: bool | None = None **kwargs ) BaseModelOutputWithNoAttentiontuple(torch.FloatTensor)

参数

  • pixel_values (torch.FloatTensor,形状为 (batch_size, num_channels, image_size, image_size)可选) — 对应于输入图像的张量。像素值可以使用 PoolFormerImageProcessor 获取。有关详细信息,请参阅 PoolFormerImageProcessor.__call__()processor_class 使用 PoolFormerImageProcessor 处理图像)。
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通元组。

返回

BaseModelOutputWithNoAttentiontuple(torch.FloatTensor)

一个 BaseModelOutputWithNoAttention 或一个 torch.FloatTensor 元组(如果传递了 return_dict=Falseconfig.return_dict=False),具体取决于配置(PoolFormerConfig)和输入,包含各种元素。

PoolFormerModel 的 forward 方法,重写了 __call__ 特殊方法。

虽然 forward pass 的实现需要在此函数中定义,但你应该在之后调用 Module 实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。

  • last_hidden_state (torch.FloatTensor, 形状为 (batch_size, num_channels, height, width)) — 模型最后一层输出的隐藏状态序列。

  • hidden_states (tuple(torch.FloatTensor), optional, 当传入 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — torch.FloatTensor 的元组(如果模型有嵌入层,则包含一个嵌入层输出,加上每层的一个输出),形状为 (batch_size, num_channels, height, width)

    模型在每个层输出的隐藏状态以及可选的初始嵌入输出。

示例

PoolFormerForImageClassification

class transformers.PoolFormerForImageClassification

< >

( config model_args: ~utils.generic.ModelArgs | None = None adapter_args: ~utils.generic.AdapterArgs | None = None lora_args: ~utils.generic.LoRAArgs | None = None tokenizer_args: ~utils.generic.TokenizerArgs | None = None dataset_args: ~utils.generic.DatasetArgs | None = None data_args: ~utils.generic.DataArgs | None = None training_args: ~utils.generic.TrainingArgs | None = None generation_args: ~utils.generic.GenerationArgs | None = None vision_tower_args: ~utils.generic.VisionTowerArgs | None = None qlora_args: ~utils.generic.QLoRAArgs | None = None vision_tower_template_args: ~utils.generic.VisionTowerTemplateArgs | None = None video_tower_args: ~utils.generic.VideoTowerArgs | None = None vision_config: ~utils.generic.VisionConfig | None = None video_config: ~utils.generic.VideoConfig | None = None load_dataset: bool | None = None load_data_collator: bool | None = None load_processor: bool | None = None load_lora_adapter: bool | None = None load_adapter: bool | None = None load_qlora_adapter: bool | None = None **kwargs: typing_extensions.Unpack[transformers.modeling_utils.PreTrainedModelKwargs] )

参数

带有图像分类头的 PoolFormer Transformer 模型

该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。

此模型也是一个 PyTorch torch.nn.Module 子类。像普通的 PyTorch Module 一样使用它,并参考 PyTorch 文档了解一般用法和行为的所有相关信息。

forward

< >

( pixel_values: torch.FloatTensor | None = None labels: torch.LongTensor | None = None output_hidden_states: bool | None = None return_dict: bool | None = None **kwargs ) ImageClassifierOutputWithNoAttentiontuple(torch.FloatTensor)

参数

  • pixel_values (形状为 (batch_size, num_channels, image_size, image_size)torch.FloatTensor可选) — 对应于输入图像的张量。像素值可以使用 PoolFormerImageProcessor 获取。详细信息请参阅 PoolFormerImageProcessor.__call__()processor_class 使用 PoolFormerImageProcessor 处理图像)。
  • labels (形状为 (batch_size,)torch.LongTensor可选) — 用于计算图像分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。如果 config.num_labels == 1,则计算回归损失(均方误差损失);如果 config.num_labels > 1,则计算分类损失(交叉熵损失)。
  • output_hidden_states (bool可选) — 是否返回所有层的隐藏状态。有关详细信息,请参阅返回张量中的 hidden_states
  • return_dict (bool可选) — 是否返回一个 ModelOutput 而不是普通的元组。

返回

ImageClassifierOutputWithNoAttentiontuple(torch.FloatTensor)

一个 ImageClassifierOutputWithNoAttention 或一个 torch.FloatTensor 元组(如果传入 return_dict=Falseconfig.return_dict=False 时),根据配置(PoolFormerConfig)和输入包含各种元素。

PoolFormerForImageClassification 的前向传播方法,覆盖了 __call__ 特殊方法。

虽然 forward pass 的实现需要在此函数中定义,但你应该在之后调用 Module 实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。

  • loss (形状为 (1,)torch.FloatTensor可选,当提供 labels 时返回) — 分类损失(如果 config.num_labels==1,则为回归损失)。
  • logits (形状为 (batch_size, config.num_labels)torch.FloatTensor) — 分类(如果 config.num_labels==1,则为回归)分数(SoftMax 之前)。
  • hidden_states (tuple(torch.FloatTensor), optional, 当传入 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — torch.FloatTensor 的元组(如果模型有嵌入层,则包含一个嵌入层输出,加上每阶段的一个输出),形状为 (batch_size, num_channels, height, width)。模型在每个阶段输出的隐藏状态(也称为特征图)。

示例

>>> from transformers import AutoImageProcessor, PoolFormerForImageClassification
>>> import torch
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("sail/poolformer_s12")
>>> model = PoolFormerForImageClassification.from_pretrained("sail/poolformer_s12")

>>> inputs = image_processor(image, return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...
在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.