ConvNeXT

概述

ConvNeXT 模型由 Zhuang Liu、Hanzi Mao、Chao-Yuan Wu、Christoph Feichtenhofer、Trevor Darrell 和 Saining Xie 在论文 21 世纪 20 年代的 ConvNet 中提出。ConvNeXT 是一种纯卷积模型 (ConvNet)，其设计灵感来源于 Vision Transformer，并声称性能优于它们。

论文摘要如下：

视觉识别的“咆哮的 20 年代”始于 Vision Transformer (ViT) 的引入，它迅速取代了 ConvNet，成为最先进的图像分类模型。然而，传统的 ViT 在应用于目标检测和语义分割等通用计算机视觉任务时面临困难。分层式 Transformer（例如 Swin Transformer）重新引入了几个 ConvNet 先验知识，使得 Transformer 作为通用的视觉骨干网络在实践中变得可行，并在各种视觉任务上展现出卓越的性能。然而，这种混合方法的有效性在很大程度上仍归功于 Transformer 的内在优越性，而非卷积固有的归纳偏置。在这项工作中，我们重新审视了设计空间，并测试了纯 ConvNet 所能达到的极限。我们逐步将一个标准的 ResNet “现代化”为 Vision Transformer 的设计，并在过程中发现了几个导致性能差异的关键组件。这项探索的结果是一个名为 ConvNeXt 的纯 ConvNet 模型家族。ConvNeXt 完全由标准的 ConvNet 模块构建，在准确性和可扩展性方面与 Transformer 不相上下，在 ImageNet 上达到了 87.8% 的 top-1 准确率，并在 COCO 检测和 ADE20K 分割任务上优于 Swin Transformer，同时保持了标准 ConvNet 的简洁性和高效性。

ConvNeXT 架构。图片来自原始论文。

该模型由 nielsr 贡献。TensorFlow 版本的模型由 ariG23498、gante 和 sayakpaul 共同贡献（贡献相同）。原始代码可以在这里找到。

资源

一份官方 Hugging Face 和社区（由 🌎 标识）资源列表，帮助你开始使用 ConvNeXT。

图像分类

ConvNextForImageClassification 由此示例脚本和笔记本支持。
另请参阅：图像分类任务指南

如果您有兴趣在此处提交资源，请随时开启 Pull Request，我们将对其进行审查！该资源最好能展示一些新内容，而不是重复现有资源。

ConvNextConfig

class transformers.ConvNextConfig

< 源代码 >

( num_channels = 3 patch_size = 4 num_stages = 4 hidden_sizes = None depths = None hidden_act = 'gelu' initializer_range = 0.02 layer_norm_eps = 1e-12 layer_scale_init_value = 1e-06 drop_path_rate = 0.0 image_size = 224 out_features = None out_indices = None **kwargs )

参数

num_channels (int, 可选, 默认为 3) — 输入通道数。
patch_size (int, 可选, 默认为 4) — 补丁嵌入层中使用的补丁大小。
num_stages (int, 可选, 默认为 4) — 模型中的阶段数。
hidden_sizes (list[int], 可选, 默认为 [96, 192, 384, 768]) — 每个阶段的维度（隐藏层大小）。
depths (list[int], 可选, 默认为 [3, 3, 9, 3]) — 每个阶段的深度（块数）。
hidden_act (str 或 function, 可选, 默认为 "gelu") — 每个块中的非线性激活函数（函数或字符串）。如果为字符串，支持 "gelu"、"relu"、"selu" 和 "gelu_new"。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
layer_norm_eps (float, 可选, 默认为 1e-12) — 层归一化层使用的 epsilon 值。
layer_scale_init_value (float, 可选, 默认为 1e-6) — 层缩放的初始值。
drop_path_rate (float, 可选, 默认为 0.0) — 随机深度的丢弃率。
out_features (list[str], 可选) — 如果用作骨干网络，指定要输出的特征列表。可以是 "stem"、"stage1"、"stage2" 等（取决于模型有多少个阶段）。如果未设置且 out_indices 已设置，则将默认为相应的阶段。如果未设置且 out_indices 未设置，则将默认为最后一个阶段。必须与 stage_names 属性中定义的顺序相同。
out_indices (list[int], 可选) — 如果用作骨干网络，指定要输出的特征的索引列表。可以是 0、1、2 等（取决于模型有多少个阶段）。如果未设置且 out_features 已设置，则将默认为相应的阶段。如果未设置且 out_features 未设置，则将默认为最后一个阶段。必须与 stage_names 属性中定义的顺序相同。

这是一个用于存储 ConvNextModel 配置的配置类。它根据指定的参数实例化一个 ConvNeXT 模型，定义模型架构。使用默认值实例化一个配置将产生一个与 ConvNeXT facebook/convnext-tiny-224 架构类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请阅读 PretrainedConfig 的文档。

示例

>>> from transformers import ConvNextConfig, ConvNextModel

>>> # Initializing a ConvNext convnext-tiny-224 style configuration
>>> configuration = ConvNextConfig()

>>> # Initializing a model (with random weights) from the convnext-tiny-224 style configuration
>>> model = ConvNextModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

ConvNextFeatureExtractor

class transformers.ConvNextFeatureExtractor

< 源代码 >

( *args **kwargs )

ConvNextImageProcessor

class transformers.ConvNextImageProcessor

< 源代码 >

( do_resize: bool = True size: typing.Optional[dict[str, int]] = None crop_pct: typing.Optional[float] = None resample: Resampling = <Resampling.BILINEAR: 2> do_rescale: bool = True rescale_factor: typing.Union[int, float] = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None **kwargs )

参数

do_resize (bool, 可选, 默认为 True) — 控制是否将图像的（高度，宽度）尺寸调整为指定的 `size`。可以在 `preprocess` 方法中通过 `do_resize` 参数覆盖。
size (dict[str, int] 可选, 默认为 {"shortest_edge" -- 384}): 应用 `resize` 后的输出图像分辨率。如果 `size["shortest_edge"]` >= 384，图像将被调整为 `(size["shortest_edge"], size["shortest_edge"])`。否则，图像的较短边将匹配 `int(size["shortest_edge"]/crop_pct)`，然后图像将被裁剪为 `(size["shortest_edge"], size["shortest_edge"])`。仅当 `do_resize` 设置为 `True` 时有效。可以在 `preprocess` 方法中通过 `size` 参数覆盖。
crop_pct (float 可选, 默认为 224 / 256) — 裁剪图像的百分比。仅当 `do_resize` 为 `True` 且 size < 384 时有效。可以在 `preprocess` 方法中通过 `crop_pct` 参数覆盖。
resample (PILImageResampling, 可选, 默认为 Resampling.BILINEAR) — 如果调整图像大小，使用的重采样过滤器。可以在 `preprocess` 方法中通过 `resample` 参数覆盖。
do_rescale (bool, 可选, 默认为 True) — 是否通过指定的 `rescale_factor` 缩放图像。可以在 `preprocess` 方法中通过 `do_rescale` 参数覆盖。
rescale_factor (int or float, 可选, 默认为 1/255) — 如果缩放图像，使用的缩放因子。可以在 `preprocess` 方法中通过 `rescale_factor` 参数覆盖。
do_normalize (bool, 可选, 默认为 True) — 是否对图像进行归一化。可以在 `preprocess` 方法中通过 `do_normalize` 参数覆盖。
image_mean (float or list[float], 可选, 默认为 IMAGENET_STANDARD_MEAN) — 如果对图像进行归一化，使用的均值。这是一个浮点数或浮点数列表，其长度等于图像中的通道数。可以在 `preprocess` 方法中通过 `image_mean` 参数覆盖。
image_std (float or list[float], 可选, 默认为 IMAGENET_STANDARD_STD) — 如果对图像进行归一化，使用的标准差。这是一个浮点数或浮点数列表，其长度等于图像中的通道数。可以在 `preprocess` 方法中通过 `image_std` 参数覆盖。

构建一个 ConvNeXT 图像处理器。

预处理

< 源代码 >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] do_resize: typing.Optional[bool] = None size: typing.Optional[dict[str, int]] = None crop_pct: typing.Optional[float] = None resample: Resampling = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Optional[float] = None do_normalize: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None data_format: ChannelDimension = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None )

参数

images (ImageInput) — 要预处理的图像。需要单个或一批像素值在 0 到 255 之间的图像。如果传入像素值在 0 到 1 之间的图像，请设置 `do_rescale=False`。
do_resize (bool, 可选, 默认为 self.do_resize) — 是否调整图像大小。
size (dict[str, int], 可选, 默认为 self.size) — 应用 `resize` 后的输出图像大小。如果 `size["shortest_edge"]` >= 384，图像将被调整为 `(size["shortest_edge"], size["shortest_edge"])`。否则，图像的较短边将匹配 `int(size["shortest_edge"]/ crop_pct)`，然后图像将被裁剪为 `(size["shortest_edge"], size["shortest_edge"])`。仅当 `do_resize` 设置为 `True` 时有效。
crop_pct (float, 可选, 默认为 self.crop_pct) — 如果 size < 384，裁剪图像的百分比。
resample (int, 可选, 默认为 self.resample) — 如果调整图像大小，使用的重采样过滤器。可以是 `PILImageResampling` 过滤器之一。仅当 `do_resize` 设置为 `True` 时有效。
do_rescale (bool, 可选, 默认为 self.do_rescale) — 是否将图像值缩放到 [0 - 1] 之间。
rescale_factor (float, 可选, 默认为 self.rescale_factor) — 如果 `do_rescale` 设置为 `True`，用于缩放图像的缩放因子。
do_normalize (bool, 可选, 默认为 self.do_normalize) — 是否对图像进行归一化。
image_mean (float or list[float], 可选, 默认为 self.image_mean) — 图像均值。
image_std (float or list[float], 可选, 默认为 self.image_std) — 图像标准差。
return_tensors (str 或 TensorType, 可选) — 要返回的张量类型。可以是以下之一：
- 未设置：返回 np.ndarray 列表。
- TensorType.TENSORFLOW 或 'tf'：返回一个 tf.Tensor 类型的批次。
- TensorType.PYTORCH 或 'pt'：返回一个 torch.Tensor 类型的批次。
- TensorType.NUMPY 或 'np'：返回一个 np.ndarray 类型的批次。
- TensorType.JAX 或 'jax'：返回一个 jax.numpy.ndarray 类型的批次。
data_format (ChannelDimension 或 str, 可选, 默认为 ChannelDimension.FIRST) — 输出图像的通道维度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：图像格式为 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：图像格式为 (height, width, num_channels)。
- 未设置：使用输入图像的通道维度格式。
input_data_format (ChannelDimension 或 str, 可选) — 输入图像的通道维度格式。如果未设置，则从输入图像中推断通道维度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：图像格式为 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：图像格式为 (height, width, num_channels)。
- "none" 或 ChannelDimension.NONE：图像格式为 (height, width)。

预处理一张或一批图像。

ConvNextImageProcessorFast

class transformers.ConvNextImageProcessorFast

< source >

( **kwargs: typing_extensions.Unpack[transformers.models.convnext.image_processing_convnext_fast.ConvNextFastImageProcessorKwargs] )

构建一个快速的 Convnext 图像处理器。

预处理

< source >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] **kwargs: typing_extensions.Unpack[transformers.models.convnext.image_processing_convnext_fast.ConvNextFastImageProcessorKwargs] ) → <class 'transformers.image_processing_base.BatchFeature'>

参数

images (Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]) — 需要预处理的图像。需要单个或一批像素值在 0 到 255 范围内的图像。如果传入的图像像素值在 0 和 1 之间，请设置 do_rescale=False。
do_resize (bool, 可选) — 是否调整图像大小。
size (dict[str, int], 可选) — 描述模型最大输入尺寸。
default_to_square (bool, 可选) — 如果 `size` 是一个整数，在调整大小时是否默认为方形图像。
resample (Union[PILImageResampling, F.InterpolationMode, NoneType]) — 如果需要调整图像大小，使用的重采样过滤器。可以是 PILImageResampling 枚举之一。仅当 do_resize 设置为 True 时有效。
do_center_crop (bool, 可选) — 是否对图像进行中心裁剪。
crop_size (dict[str, int], 可选) — 应用 center_crop 后输出图像的大小。
do_rescale (bool, 可选) — 是否对图像进行缩放。
rescale_factor (Union[int, float, NoneType]) — 如果 do_rescale 设置为 True，用于缩放图像的缩放因子。
do_normalize (bool, 可选) — 是否对图像进行归一化。
image_mean (Union[float, list[float], NoneType]) — 用于归一化的图像均值。仅当 do_normalize 设置为 True 时有效。
image_std (Union[float, list[float], NoneType]) — 用于归一化的图像标准差。仅当 do_normalize 设置为 True 时有效。
do_convert_rgb (bool, 可选) — 是否将图像转换为 RGB。
return_tensors (Union[str, ~utils.generic.TensorType, NoneType]) — 如果设置为 `pt`，则返回堆叠的张量，否则返回张量列表。
data_format (~image_utils.ChannelDimension, 可选) — 仅支持 ChannelDimension.FIRST。为与慢速处理器兼容而添加。
input_data_format (Union[str, ~image_utils.ChannelDimension, NoneType]) — 输入图像的通道维度格式。如果未设置，则从输入图像中推断通道维度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：图像格式为 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：图像格式为 (height, width, num_channels)。
- "none" 或 ChannelDimension.NONE：图像格式为 (height, width)。
device (torch.device, 可选) — 处理图像的设备。如果未设置，则从输入图像中推断设备。
disable_grouping (bool, 可选) — 是否禁用按大小对图像进行分组，以便单独处理而不是分批处理。如果为 None，则当图像在 CPU 上时将设置为 True，否则为 False。此选择基于经验观察，详情见：https://github.com/huggingface/transformers/pull/38157
crop_pct (float, 可选) — 裁剪图像的百分比。仅当 size < 384 时有效。可在 `preprocess` 方法中通过 `crop_pct` 覆盖。

<class 'transformers.image_processing_base.BatchFeature'>

data (dict) — 由 call 方法返回的列表/数组/张量字典（“pixel_values”等）。
tensor_type (Union[None, str, TensorType], 可选) — 您可以在此处提供一个`tensor_type`，以便在初始化时将整数列表转换为PyTorch/TensorFlow/Numpy张量。

Pytorch

隐藏 Pytorch 内容

ConvNextModel

class transformers.ConvNextModel

< source >

( config )

参数

config (ConvNextModel) — 包含模型所有参数的模型配置类。使用配置文件进行初始化不会加载与模型相关的权重，只会加载配置。请查看 from_pretrained() 方法来加载模型权重。

一个基础的 Convnext 模型，输出原始的隐藏状态，顶部没有任何特定的头。

该模型继承自 PreTrainedModel。请查看超类文档以了解该库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、修剪头部等）。

该模型也是 PyTorch torch.nn.Module 的子类。可以像常规的 PyTorch Module 一样使用它，并参考 PyTorch 文档了解所有与通用用法和行为相关的事项。

forward

< source >

( pixel_values: typing.Optional[torch.FloatTensor] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPoolingAndNoAttention 或 tuple(torch.FloatTensor)

参数

pixel_values (torch.FloatTensor，形状为 (batch_size, num_channels, image_size, image_size), 可选) — 对应于输入图像的张量。像素值可以使用 {image_processor_class} 获取。详情请参阅 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 处理图像）。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通的元组。

transformers.modeling_outputs.BaseModelOutputWithPoolingAndNoAttention 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutputWithPoolingAndNoAttention 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或当 config.return_dict=False 时），包含各种元素，具体取决于配置（ConvNextConfig）和输入。

last_hidden_state (torch.FloatTensor, 形状为 (batch_size, num_channels, height, width)) — 模型最后一层输出的隐藏状态序列。
pooler_output (torch.FloatTensor, 形状为 (batch_size, hidden_size)) — 经过空间维度池化操作后的最后一层隐藏状态。
hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（一个用于嵌入层的输出（如果模型有嵌入层），再加上每个层的输出），形状为 (batch_size, num_channels, height, width)。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。

ConvNextModel 的前向方法，覆盖了 `__call__` 特殊方法。

尽管前向传递的逻辑需要在此函数内定义，但之后应调用 Module 实例而不是此函数，因为前者会处理预处理和后处理步骤，而后者会静默地忽略它们。

示例

ConvNextForImageClassification

class transformers.ConvNextForImageClassification

< source >

( config )

参数

config (ConvNextForImageClassification) — 包含模型所有参数的模型配置类。使用配置文件进行初始化不会加载与模型相关的权重，只会加载配置。请查看 from_pretrained() 方法来加载模型权重。

带有图像分类头的 ConvNext 模型（在池化特征之上加一个线性层），例如用于 ImageNet。

该模型继承自 PreTrainedModel。请查看超类文档以了解该库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、修剪头部等）。

该模型也是 PyTorch torch.nn.Module 的子类。可以像常规的 PyTorch Module 一样使用它，并参考 PyTorch 文档了解所有与通用用法和行为相关的事项。

forward

< source >

( pixel_values: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)

参数

pixel_values (torch.FloatTensor，形状为 (batch_size, num_channels, image_size, image_size), 可选) — 对应于输入图像的张量。像素值可以使用 {image_processor_class} 获取。详情请参阅 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 处理图像）。
labels (torch.LongTensor，形状为 (batch_size,), 可选) — 用于计算图像分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。如果 config.num_labels == 1，则计算回归损失（均方损失），如果 config.num_labels > 1，则计算分类损失（交叉熵）。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通的元组。

transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或当 config.return_dict=False 时），包含各种元素，具体取决于配置（ConvNextConfig）和输入。

loss (形状为 (1,) 的 torch.FloatTensor，可选，当提供 labels 时返回) — 分类损失（如果 config.num_labels==1，则为回归损失）。
logits (形状为 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分类（如果 config.num_labels==1，则为回归）分数（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（一个用于嵌入层的输出（如果模型有嵌入层），再加上每个阶段的输出），形状为 (batch_size, num_channels, height, width)。模型在每个阶段输出的隐藏状态（也称为特征图）。

ConvNextForImageClassification 的前向方法，覆盖了 `__call__` 特殊方法。

尽管前向传递的逻辑需要在此函数内定义，但之后应调用 Module 实例而不是此函数，因为前者会处理预处理和后处理步骤，而后者会静默地忽略它们。

示例

>>> from transformers import AutoImageProcessor, ConvNextForImageClassification
>>> import torch
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("facebook/convnext-tiny-224")
>>> model = ConvNextForImageClassification.from_pretrained("facebook/convnext-tiny-224")

>>> inputs = image_processor(image, return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...

TensorFlow

隐藏 TensorFlow 内容

TFConvNextModel

class transformers.TFConvNextModel

< source >

( config *inputs add_pooling_layer = True **kwargs )

参数

config (ConvNextConfig) — 包含模型所有参数的模型配置类。使用配置文件进行初始化不会加载与模型相关的权重，只会加载配置。请查看 from_pretrained() 方法来加载模型权重。

一个基础的 ConvNext 模型，输出原始特征，顶部没有任何特定的头。该模型继承自 TFPreTrainedModel。请查看超类文档以了解该库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、修剪头部等）。

该模型也是一个 keras.Model 子类。可以像常规的 TF 2.0 Keras 模型一样使用它，并参考 TF 2.0 文档了解所有与通用用法和行为相关的事项。

transformers 中的 TensorFlow 模型和层接受两种输入格式

所有输入作为关键字参数（如 PyTorch 模型），或
所有输入作为第一个位置参数中的列表、元组或字典。

支持第二种格式的原因是，Keras 方法在向模型和层传递输入时更偏好这种格式。由于这种支持，当使用像 model.fit() 这样的方法时，一切应该“正常工作”——只需以 model.fit() 支持的任何格式传递你的输入和标签即可！然而，如果你想在 Keras 方法（如 fit() 和 predict()）之外使用第二种格式，例如在使用 Keras Functional API 创建自己的层或模型时，有三种可能的方式可以将所有输入张量收集到第一个位置参数中。

一个只包含 pixel_values 的独立张量：model(pixel_values)
一个长度可变的列表，其中包含一个或多个输入张量，按文档字符串中给定的顺序排列：model([pixel_values, attention_mask]) 或 model([pixel_values, attention_mask, token_type_ids])
一个字典，包含一个或多个与文档字符串中给定的输入名称相关联的输入张量：model({"pixel_values": pixel_values, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，你无需担心任何这些问题，因为你可以像调用任何其他 Python 函数一样传递输入！

调用

< source >

( pixel_values: TFModelInputType | None = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或 tuple(tf.Tensor)

参数

pixel_values (np.ndarray, tf.Tensor, list[tf.Tensor]、`dict[str, tf.Tensor] 或 dict[str, np.ndarray]，并且每个样本的形状必须为 (batch_size, num_channels, height, width)) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息，请参阅 ConvNextImageProcessor.call()。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。此参数只能在 Eager 模式下使用，在图模式下将使用配置中的值。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通的元组。此参数可以在 Eager 模式下使用，在图模式下，该值将始终设置为 True。

transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或 tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或一个 tf.Tensor 的元组（如果传递了 return_dict=False 或 config.return_dict=False），根据配置（ConvNextConfig）和输入包含各种元素。

last_hidden_state (tf.Tensor of shape (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。
pooler_output (tf.Tensor，形状为 (batch_size, hidden_size)) — 序列的第一个标记（分类标记）的最后一层隐藏状态，经过线性层和 Tanh 激活函数进一步处理。线性层的权重是在预训练期间从下一句预测（分类）目标中训练的。

此输出通常不是输入语义内容的良好摘要，通常最好对整个输入序列的隐藏状态进行平均或池化。
hidden_states (tuple(tf.Tensor), optional, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — tf.Tensor 的元组（一个用于嵌入层的输出，一个用于每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor), optional, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — tf.Tensor 的元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

TFConvNextModel 的前向方法，覆盖了 __call__ 特殊方法。

尽管前向传递的逻辑需要在此函数内定义，但之后应调用 Module 实例而不是此函数，因为前者会处理预处理和后处理步骤，而后者会静默地忽略它们。

示例

>>> from transformers import AutoImageProcessor, TFConvNextModel
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("facebook/convnext-tiny-224")
>>> model = TFConvNextModel.from_pretrained("facebook/convnext-tiny-224")

>>> inputs = image_processor(images=image, return_tensors="tf")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state

TFConvNextForImageClassification

class transformers.TFConvNextForImageClassification

< 源代码 >

( config: ConvNextConfig *inputs **kwargs )

参数

config (ConvNextConfig) — 包含模型所有参数的模型配置类。使用配置文件进行初始化不会加载与模型相关的权重，只会加载配置。请查看 from_pretrained() 方法来加载模型权重。

带有图像分类头的 ConvNext 模型（在池化特征之上加一个线性层），例如用于 ImageNet。

该模型继承自 TFPreTrainedModel。请查看超类文档，了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、修剪头部等）。

该模型也是一个 keras.Model 子类。可以像常规的 TF 2.0 Keras 模型一样使用它，并参考 TF 2.0 文档了解所有与通用用法和行为相关的事项。

transformers 中的 TensorFlow 模型和层接受两种输入格式

所有输入作为关键字参数（如 PyTorch 模型），或
所有输入作为第一个位置参数中的列表、元组或字典。

一个只包含 pixel_values 的独立张量：model(pixel_values)
一个长度可变的列表，其中包含一个或多个输入张量，按文档字符串中给定的顺序排列：model([pixel_values, attention_mask]) 或 model([pixel_values, attention_mask, token_type_ids])
一个字典，包含一个或多个与文档字符串中给定的输入名称相关联的输入张量：model({"pixel_values": pixel_values, "token_type_ids": token_type_ids})

请注意，当使用子类化创建模型和层时，你无需担心任何这些问题，因为你可以像调用任何其他 Python 函数一样传递输入！

调用

< 源代码 >

( pixel_values: TFModelInputType | None = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或 tuple(tf.Tensor)

参数

pixel_values (np.ndarray, tf.Tensor, list[tf.Tensor]、`dict[str, tf.Tensor] 或 dict[str, np.ndarray]，并且每个样本的形状必须为 (batch_size, num_channels, height, width)) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息，请参阅 ConvNextImageProcessor.call()。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。此参数只能在 Eager 模式下使用，在图模式下将使用配置中的值。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通的元组。此参数可以在 Eager 模式下使用，在图模式下，该值将始终设置为 True。
labels (tf.Tensor 或 np.ndarray，形状为 (batch_size,), optional) — 用于计算图像分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。如果 config.num_labels == 1，则计算回归损失（均方损失），如果 config.num_labels > 1，则计算分类损失（交叉熵）。

transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或 tuple(tf.Tensor)

一个 transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或一个 tf.Tensor 的元组（如果传递了 return_dict=False 或 config.return_dict=False），根据配置（ConvNextConfig）和输入包含各种元素。

loss (tf.Tensor，形状为 (batch_size, )，可选，当提供 labels 时返回) — 分类损失（如果 config.num_labels==1，则为回归损失）。
logits (tf.Tensor，形状为 (batch_size, config.num_labels)) — 分类（或回归，如果 config.num_labels==1）分数（SoftMax 之前）。
hidden_states (tuple(tf.Tensor), optional, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — tf.Tensor 的元组（一个用于嵌入层的输出，一个用于每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层输出的隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor), optional, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — tf.Tensor 的元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

TFConvNextForImageClassification 的前向方法，覆盖了 __call__ 特殊方法。

尽管前向传递的逻辑需要在此函数内定义，但之后应调用 Module 实例而不是此函数，因为前者会处理预处理和后处理步骤，而后者会静默地忽略它们。

示例

>>> from transformers import AutoImageProcessor, TFConvNextForImageClassification
>>> import tensorflow as tf
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("facebook/convnext-tiny-224")
>>> model = TFConvNextForImageClassification.from_pretrained("facebook/convnext-tiny-224")

>>> inputs = image_processor(images=image, return_tensors="tf")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_class_idx = tf.math.argmax(logits, axis=-1)[0]
>>> print("Predicted class:", model.config.id2label[int(predicted_class_idx)])

< > 在 GitHub 上更新

Transformers

ConvNeXT

概述

资源

ConvNextConfig

class transformers.ConvNextConfig

ConvNextFeatureExtractor

class transformers.ConvNextFeatureExtractor

ConvNextImageProcessor

class transformers.ConvNextImageProcessor

预处理

ConvNextImageProcessorFast

class transformers.ConvNextImageProcessorFast

预处理

ConvNextModel

class transformers.ConvNextModel

forward

ConvNextForImageClassification

class transformers.ConvNextForImageClassification

forward

TFConvNextModel

class transformers.TFConvNextModel

调用

TFConvNextForImageClassification

class transformers.TFConvNextForImageClassification

调用