Transformers 文档
ConvNeXT
并获得增强的文档体验
开始使用
该模型于 2022 年 1 月 10 日在 HF 论文中发布,并于 2022 年 2 月 7 日贡献给 Hugging Face Transformers。
ConvNeXT
概述
ConvNeXT 模型由 Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie 在 《A ConvNet for the 2020s》中提出。ConvNeXT 是一种纯卷积模型(ConvNet),其设计灵感来自于视觉 Transformer,并声称在性能上超越了后者。
论文摘要如下:
视觉识别的“咆哮的 20 年代”始于视觉 Transformer (ViTs) 的引入,它迅速取代了 ConvNets 成为最先进的图像分类模型。然而,普通的 ViT 在应用于目标检测和语义分割等通用计算机视觉任务时面临困难。正是分层 Transformers(例如 Swin Transformers)重新引入了若干 ConvNet 先验知识,使 Transformers 作为通用视觉骨干网络变得切实可行,并在各种视觉任务中展现了卓越的性能。然而,这类混合方法的有效性在很大程度上仍归功于 Transformer 的内在优越性,而非卷积固有的归纳偏置。在这项工作中,我们重新审视了设计空间,并测试了纯 ConvNet 所能达到的极限。我们逐步将标准 ResNet “现代化”为视觉 Transformer 的设计,并在此过程中发现了导致性能差异的几个关键组件。此次探索的成果是一个名为 ConvNeXt 的纯 ConvNet 模型家族。ConvNeXt 完全由标准 ConvNet 模块构建,在准确性和可扩展性方面与 Transformers 竞争激烈,在 ImageNet 上实现了 87.8% 的 Top-1 准确率,并在 COCO 检测和 ADE20K 分割任务上超越了 Swin Transformers,同时保持了标准 ConvNets 的简洁性和高效性。
ConvNeXT 架构。摘自原始论文。 资源
一份官方 Hugging Face 和社区(以 🌎 表示)资源列表,旨在帮助您开始使用 ConvNeXT。
- ConvNextForImageClassification 受此示例脚本和笔记本支持。
- 另请参阅:图像分类任务指南
如果您有兴趣在此处提交资源,请随时开启 Pull Request,我们将对其进行审查!该资源最好能展示一些新内容,而不是重复现有资源。
ConvNextConfig
class transformers.ConvNextConfig
< 源码 >( transformers_version: str | None = None architectures: list[str] | None = None output_hidden_states: bool | None = False return_dict: bool | None = True dtype: typing.Union[str, ForwardRef('torch.dtype'), NoneType] = None chunk_size_feed_forward: int = 0 is_encoder_decoder: bool = False id2label: dict[int, str] | dict[str, str] | None = None label2id: dict[str, int] | dict[str, str] | None = None problem_type: typing.Optional[typing.Literal['regression', 'single_label_classification', 'multi_label_classification']] = None num_channels: int = 3 patch_size: int | list[int] | tuple[int, int] = 4 num_stages: int = 4 hidden_sizes: list[int] | tuple[int, ...] | None = (96, 192, 384, 768) depths: list[int] | tuple[int, ...] | None = (3, 3, 9, 3) hidden_act: str = 'gelu' initializer_range: float = 0.02 layer_norm_eps: float = 1e-12 layer_scale_init_value: float = 1e-06 drop_path_rate: float | int = 0.0 image_size: int | list[int] | tuple[int, int] = 224 _out_features: list[str] | None = None _out_indices: list[int] | None = None )
参数
- num_channels (
int, 可选, 默认为3) — 输入通道的数量。 - patch_size (
Union[int, list[int], tuple[int, int]], 可选, 默认为4) — 每个补丁(patch)的大小(分辨率)。 - num_stages (
int, 可选, 默认为 4) — 模型中的阶段(stages)数量。 - hidden_sizes (
Union[list[int], tuple[int, ...]], 可选, 默认为(96, 192, 384, 768)) — 模型每个阶段的维度(隐藏层大小)。 - depths (
Union[list[int], tuple[int, ...]], 可选, 默认为(3, 3, 9, 3)) — Transformer 中每一层的深度。 - hidden_act (
str, 可选, 默认为gelu) — 解码器中的非线性激活函数(函数或字符串)。例如:"gelu","relu","silu"等。 - initializer_range (
float, 可选, 默认为0.02) — 用于初始化所有权重矩阵的截断正态初始化器(truncated_normal_initializer)的标准差。 - layer_norm_eps (
float, 可选, 默认为1e-12) — 层归一化层使用的 epsilon 值。 - layer_scale_init_value (
float, 可选, 默认为1e-06) — 自注意力层中使用的缩放比例。base 模型为 0.1,large 模型为 1e-6。设为 0 可禁用层缩放。 - drop_path_rate (
Union[float, int], 可选, 默认为0.0) — 补丁融合(patch fusion)的 drop path 比率。 - image_size (
Union[int, list[int], tuple[int, int]], 可选, 默认为224) — 每张图像的大小(分辨率)。
这是用于存储 ConvNextModel 配置的配置类。它用于根据指定的参数实例化一个 Convnext 模型,从而定义模型架构。使用默认值实例化配置将产生与 facebook/convnext-tiny-224 类似的配置。
配置对象继承自 PreTrainedConfig,可用于控制模型输出。阅读 PreTrainedConfig 的文档以获取更多信息。
示例
>>> from transformers import ConvNextConfig, ConvNextModel
>>> # Initializing a ConvNext convnext-tiny-224 style configuration
>>> configuration = ConvNextConfig()
>>> # Initializing a model (with random weights) from the convnext-tiny-224 style configuration
>>> model = ConvNextModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.configConvNextImageProcessor
class transformers.ConvNextImageProcessor
< 源码 >( **kwargs: typing_extensions.Unpack[transformers.models.convnext.image_processing_convnext.ConvNextImageProcessorKwargs] )
参数
- crop_pct (
float, kwargs, 可选, 默认为self.crop_pct) — 要裁剪的图像百分比。仅在尺寸 < 384 时有效。 - **kwargs (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 已在上方列出;有关支持参数的完整列表,请参阅 TypedDict 类。
构建一个 ConvNextImageProcessor 图像处理器。
preprocess
< 源码 >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] *args **kwargs: typing_extensions.Unpack[transformers.processing_utils.ImagesKwargs] ) → ~image_processing_base.BatchFeature
参数
- images (
Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list[PIL.Image.Image], list[numpy.ndarray], list[torch.Tensor]]) — 要预处理的图像。期望单个或一批像素值在 0 到 255 之间的图像。如果输入的图像像素值在 0 到 1 之间,请设置do_rescale=False。 - return_tensors (
str或 TensorType, 可选) — 如果设置为'pt',则返回堆叠后的张量,否则返回张量列表。 - **kwargs (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 已在上方列出;有关支持参数的完整列表,请参阅 TypedDict 类。
返回
~image_processing_base.BatchFeature
- data (
dict) — 由 call 方法返回的列表/数组/张量字典(“pixel_values”等)。 - tensor_type (
Union[None, str, TensorType], optional) — 您可以在此处提供 tensor_type 以在初始化时将整数列表转换为 PyTorch/Numpy 张量。
ConvNextImageProcessorPil
class transformers.ConvNextImageProcessorPil
< 源码 >( **kwargs: typing_extensions.Unpack[transformers.models.convnext.image_processing_pil_convnext.ConvNextImageProcessorKwargs] )
参数
- crop_pct (
float, kwargs, 可选, 默认为self.crop_pct) — 要裁剪的图像百分比。仅在尺寸 < 384 时有效。 - **kwargs (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 已在上方列出;有关支持参数的完整列表,请参阅 TypedDict 类。
构建一个 ConvNextImageProcessor 图像处理器。
preprocess
< 源码 >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] *args **kwargs: typing_extensions.Unpack[transformers.processing_utils.ImagesKwargs] ) → ~image_processing_base.BatchFeature
参数
- images (
Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list[PIL.Image.Image], list[numpy.ndarray], list[torch.Tensor]]) — 需要预处理的图像。期望输入为单个图像或图像批次,像素值范围为 0 到 255。如果输入的图像像素值在 0 到 1 之间,请设置do_rescale=False。 - return_tensors (
str或 TensorType, 可选) — 如果设置为'pt',则返回堆叠后的张量,否则返回张量列表。 - **kwargs (ImagesKwargs, 可选) — 其他图像预处理选项。模型特定的参数(kwargs)如上所列;请参阅 TypedDict 类以获取完整支持参数列表。
返回
~image_processing_base.BatchFeature
- data (
dict) — 由 call 方法返回的列表/数组/张量字典(“pixel_values”等)。 - tensor_type (
Union[None, str, TensorType], optional) — 您可以在此处提供 tensor_type 以在初始化时将整数列表转换为 PyTorch/Numpy 张量。
ConvNextModel
class transformers.ConvNextModel
< 源码 >( config model_args: ~utils.generic.ModelArgs | None = None adapter_args: ~utils.generic.AdapterArgs | None = None lora_args: ~utils.generic.LoRAArgs | None = None tokenizer_args: ~utils.generic.TokenizerArgs | None = None dataset_args: ~utils.generic.DatasetArgs | None = None data_args: ~utils.generic.DataArgs | None = None training_args: ~utils.generic.TrainingArgs | None = None generation_args: ~utils.generic.GenerationArgs | None = None vision_tower_args: ~utils.generic.VisionTowerArgs | None = None qlora_args: ~utils.generic.QLoRAArgs | None = None vision_tower_template_args: ~utils.generic.VisionTowerTemplateArgs | None = None video_tower_args: ~utils.generic.VideoTowerArgs | None = None vision_config: ~utils.generic.VisionConfig | None = None video_config: ~utils.generic.VideoConfig | None = None load_dataset: bool | None = None load_data_collator: bool | None = None load_processor: bool | None = None load_lora_adapter: bool | None = None load_adapter: bool | None = None load_qlora_adapter: bool | None = None **kwargs: typing_extensions.Unpack[transformers.modeling_utils.PreTrainedModelKwargs] )
参数
- config (ConvNextModel) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,仅加载配置。请查看 from_pretrained() 方法以加载模型权重。
裸的 Convnext 模型,输出原始隐藏状态,顶部没有任何特定的层。
该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是一个 PyTorch torch.nn.Module 子类。像普通的 PyTorch Module 一样使用它,并参考 PyTorch 文档了解一般用法和行为的所有相关信息。
forward
< 源码 >( pixel_values: torch.FloatTensor | None = None **kwargs: typing_extensions.Unpack[transformers.utils.generic.TransformersKwargs] ) → BaseModelOutputWithPoolingAndNoAttention 或 tuple(torch.FloatTensor)
参数
- pixel_values (形状为
(batch_size, num_channels, image_size, image_size)的torch.FloatTensor, 可选) — 对应于输入图像的张量。像素值可以使用 ConvNextImageProcessor 获取。详情请参阅ConvNextImageProcessor.__call__()(processor_class使用 ConvNextImageProcessor 来处理图像)。
返回
BaseModelOutputWithPoolingAndNoAttention 或 tuple(torch.FloatTensor)
一个 BaseModelOutputWithPoolingAndNoAttention 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或 config.return_dict=False 时),根据配置(ConvNextConfig)和输入包含各种元素。
ConvNextModel 的前向传播方法,覆盖了 __call__ 特殊方法。
虽然 forward pass 的实现需要在此函数中定义,但你应该在之后调用
Module实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。
last_hidden_state (
torch.FloatTensor, 形状为(batch_size, num_channels, height, width)) — 模型最后一层输出的隐藏状态序列。pooler_output (
torch.FloatTensor, 形状为(batch_size, hidden_size)) — 经过空间维度池化操作后的最后一层隐藏状态。hidden_states (
tuple(torch.FloatTensor), optional, 当传入output_hidden_states=True或config.output_hidden_states=True时返回) —torch.FloatTensor的元组(如果模型有嵌入层,则包含一个嵌入层输出,加上每层的一个输出),形状为(batch_size, num_channels, height, width)。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
ConvNextForImageClassification
class transformers.ConvNextForImageClassification
< 源码 >( config model_args: ~utils.generic.ModelArgs | None = None adapter_args: ~utils.generic.AdapterArgs | None = None lora_args: ~utils.generic.LoRAArgs | None = None tokenizer_args: ~utils.generic.TokenizerArgs | None = None dataset_args: ~utils.generic.DatasetArgs | None = None data_args: ~utils.generic.DataArgs | None = None training_args: ~utils.generic.TrainingArgs | None = None generation_args: ~utils.generic.GenerationArgs | None = None vision_tower_args: ~utils.generic.VisionTowerArgs | None = None qlora_args: ~utils.generic.QLoRAArgs | None = None vision_tower_template_args: ~utils.generic.VisionTowerTemplateArgs | None = None video_tower_args: ~utils.generic.VideoTowerArgs | None = None vision_config: ~utils.generic.VisionConfig | None = None video_config: ~utils.generic.VideoConfig | None = None load_dataset: bool | None = None load_data_collator: bool | None = None load_processor: bool | None = None load_lora_adapter: bool | None = None load_adapter: bool | None = None load_qlora_adapter: bool | None = None **kwargs: typing_extensions.Unpack[transformers.modeling_utils.PreTrainedModelKwargs] )
参数
- config (ConvNextForImageClassification) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,仅加载配置。请查看 from_pretrained() 方法以加载模型权重。
带有图像分类头的 ConvNext 模型(在池化特征之上有一个线性层),例如用于 ImageNet。
该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是一个 PyTorch torch.nn.Module 子类。像普通的 PyTorch Module 一样使用它,并参考 PyTorch 文档了解一般用法和行为的所有相关信息。
forward
< 源码 >( pixel_values: torch.FloatTensor | None = None labels: torch.LongTensor | None = None **kwargs ) → ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)
参数
- pixel_values (形状为
(batch_size, num_channels, image_size, image_size)的torch.FloatTensor, 可选) — 对应于输入图像的张量。像素值可以使用 ConvNextImageProcessor 获取。详情请参阅ConvNextImageProcessor.__call__()(processor_class使用 ConvNextImageProcessor 来处理图像)。 - labels (形状为
(batch_size,)的torch.LongTensor, 可选) — 用于计算图像分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1,则计算回归损失(均方误差损失);如果config.num_labels > 1,则计算分类损失(交叉熵损失)。
返回
ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)
一个 ImageClassifierOutputWithNoAttention 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或 config.return_dict=False 时),根据配置(ConvNextConfig)和输入包含各种元素。
ConvNextForImageClassification 的前向传播方法,覆盖了 __call__ 特殊方法。
虽然 forward pass 的实现需要在此函数中定义,但你应该在之后调用
Module实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。
- loss (形状为
(1,)的torch.FloatTensor,可选,当提供labels时返回) — 分类损失(如果 config.num_labels==1,则为回归损失)。 - logits (形状为
(batch_size, config.num_labels)的torch.FloatTensor) — 分类(如果 config.num_labels==1,则为回归)分数(SoftMax 之前)。 - hidden_states (
tuple(torch.FloatTensor), optional, 当传入output_hidden_states=True或config.output_hidden_states=True时返回) —torch.FloatTensor的元组(如果模型有嵌入层,则包含一个嵌入层输出,加上每阶段的一个输出),形状为(batch_size, num_channels, height, width)。模型在每个阶段输出的隐藏状态(也称为特征图)。
示例
>>> from transformers import AutoImageProcessor, ConvNextForImageClassification
>>> import torch
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("facebook/convnext-tiny-224")
>>> model = ConvNextForImageClassification.from_pretrained("facebook/convnext-tiny-224")
>>> inputs = image_processor(image, return_tensors="pt")
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...