Transformers 文档
BEiT
并获得增强的文档体验
开始使用
BEiT
概述
BEiT 模型由 Hangbo Bao, Li Dong 和 Furu Wei 在论文 BEiT: BERT Pre-Training of Image Transformers 中提出。受 BERT 的启发,BEiT 是首篇使得 Vision Transformer (ViT) 的自监督预训练效果优于有监督预训练的论文。BEiT 模型不是像 原始 ViT 论文 那样预训练模型来预测图像的类别,而是预训练模型来预测来自 OpenAI 的 DALL-E 模型 代码簿中的视觉词元,给定的是被掩盖的图像块。
论文摘要如下:
我们引入了一种自监督视觉表示模型 BEiT,它是 Bidirectional Encoder representation from Image Transformers 的缩写。遵循自然语言处理领域中 BERT 的发展,我们提出了一种掩码图像建模任务来预训练视觉 Transformer。具体来说,在我们的预训练中,每张图像都有两个视图,即图像块(例如 16x16 像素)和视觉词元(即离散词元)。我们首先将原始图像“词元化”为视觉词元。然后我们随机掩盖一些图像块,并将它们输入到主干 Transformer 中。预训练的目标是根据损坏的图像块恢复原始的视觉词元。在预训练 BEiT 之后,我们通过在预训练的编码器上附加任务层来直接在下游任务上微调模型参数。在图像分类和语义分割上的实验结果表明,我们的模型与以前的预训练方法相比取得了有竞争力的结果。例如,基础尺寸的 BEiT 在 ImageNet-1K 上达到了 83.2% 的 top-1 准确率,显著优于在相同设置下从头开始训练的 DeiT (81.8%)。此外,大尺寸的 BEiT 仅使用 ImageNet-1K 就达到了 86.3%,甚至超过了在 ImageNet-22K 上进行有监督预训练的 ViT-L (85.2%)。
该模型由 nielsr 贡献。该模型的 JAX/FLAX 版本由 kamalkraj 贡献。原始代码可以在 这里 找到。
使用技巧
- BEiT 模型是常规的 Vision Transformer,但采用自监督而非有监督的方式进行预训练。当在 ImageNet-1K 和 CIFAR-100 上进行微调时,它们的性能优于 原始模型 (ViT) 以及 数据高效图像 Transformer (DeiT)。你可以在 这里 查看关于推理以及在自定义数据上进行微调的演示笔记本(你只需将 `ViTFeatureExtractor` 替换为 `BeitImageProcessor`,将 `ViTForImageClassification` 替换为 `BeitForImageClassification` 即可)。
- 还有一个演示笔记本,展示了如何将 DALL-E 的图像分词器与 BEiT 结合起来执行掩码图像建模。你可以在 这里 找到它。
- 由于 BEiT 模型期望每张图像具有相同的大小(分辨率),可以使用 `BeitImageProcessor` 来为模型调整图像大小(或缩放)和进行归一化。
- 预训练或微调期间使用的图像块分辨率和图像分辨率都反映在每个检查点的名称中。例如,`microsoft/beit-base-patch16-224` 指的是一个基础尺寸的架构,其图像块分辨率为 16x16,微调分辨率为 224x224。所有检查点都可以在 Hub 上找到。
- 可用的检查点可以是 (1) 仅在 ImageNet-22k(一个包含 1400 万张图像和 2.2 万个类别的数据集)上预训练的,(2) 也在 ImageNet-22k 上微调的,或者 (3) 也在 ImageNet-1k(也称为 ILSVRC 2012,一个包含 130 万张图像和 1000 个类别的数据集)上微调的。
- BEiT 使用了受 T5 模型启发的相对位置嵌入。在预训练期间,作者在多个自注意力层之间共享了相对位置偏置。在微调期间,每一层的相对位置偏置都使用预训练后获得的共享相对位置偏置进行初始化。请注意,如果想要从头开始预训练一个模型,需要将 `BeitConfig` 的 `use_relative_position_bias` 或 `use_absolute_position_embeddings` 属性设置为 `True`,以便添加位置嵌入。

使用缩放点积注意力 (SDPA)
PyTorch 包含一个原生的缩放点积注意力 (SDPA) 算子,作为 `torch.nn.functional` 的一部分。该函数包含多种实现,可根据输入和所用硬件进行应用。更多信息请参阅官方文档或GPU 推理页面。
当实现可用时,SDPA 默认用于 `torch>=2.1.1`,但你也可以在 `from_pretrained()` 中设置 `attn_implementation="sdpa"` 来明确请求使用 SDPA。
from transformers import BeitForImageClassification
model = BeitForImageClassification.from_pretrained("microsoft/beit-base-patch16-224", attn_implementation="sdpa", torch_dtype=torch.float16)
...
为了获得最佳加速效果,我们建议以半精度(例如 `torch.float16` 或 `torch.bfloat16`)加载模型。
在本地基准测试(NVIDIA GeForce RTX 2060-8GB, PyTorch 2.5.1, OS Ubuntu 20.04)中,使用 `float16` 和 `microsoft/beit-base-patch16-224` 模型,我们在训练和推理过程中观察到了以下改进:
训练
训练步数 | 批处理大小 | 图像尺寸 | is_cuda | 每批次时间(Eager - 秒) | 每批次时间(SDPA - 秒) | 加速(%) | Eager 峰值内存(MB) | SDPA 峰值内存(MB) | 内存节省(%) |
---|---|---|---|---|---|---|---|---|---|
50 | 2 | (1048, 640) | True | 0.984 | 0.746 | 31.975 | 6738.915 | 4319.886 | 55.998 |
推理
图像批次大小 | Eager (秒/迭代) | Eager 置信区间, % | Eager 内存 (MB) | SDPA (秒/迭代) | SDPA 置信区间, % | SDPA 内存 (MB) | SDPA 速度提升 | SDPA 内存节省 (%) |
---|---|---|---|---|---|---|---|---|
1 | 0.012 | ±0.3% | 3.76657e+08 | 0.011 | ±0.5% | 3.75739e+08 | 1.05 | 0.244 |
4 | 0.013 | ±0.1% | 4.03147e+08 | 0.011 | ±0.2% | 3.90554e+08 | 1.178 | 3.225 |
16 | 0.045 | ±0.1% | 4.96697e+08 | 0.035 | ±0.1% | 4.51232e+08 | 1.304 | 10.076 |
32 | 0.088 | ±0.1% | 6.24417e+08 | 0.066 | ±0.1% | 5.33488e+08 | 1.325 | 17.044 |
资源
一系列官方 Hugging Face 和社区(由 🌎 标识)资源可帮助你开始使用 BEiT。
- `BeitForImageClassification` 受此示例脚本和笔记本支持。
- 另请参阅:图像分类任务指南
语义分割
如果您有兴趣在此处提交资源,请随时开启 Pull Request,我们将对其进行审查!该资源最好能展示一些新内容,而不是重复现有资源。
BEiT 特定输出
class transformers.models.beit.modeling_beit.BeitModelOutputWithPooling
< 来源 >( last_hidden_state: typing.Optional[torch.FloatTensor] = None pooler_output: typing.Optional[torch.FloatTensor] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )
参数
- last_hidden_state (
torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
,可选) — 模型最后一层输出的隐藏状态序列。 - pooler_output (
torch.FloatTensor
,形状为(batch_size, hidden_size)
) — 如果 *config.use_mean_pooling* 设置为 True,则为图像块词元(不包括 *[CLS]* 词元)最后一层隐藏状态的平均值。如果设置为 False,则返回 *[CLS]* 词元的最终隐藏状态。 - hidden_states (
tuple[torch.FloatTensor, ...]
,可选,在传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) —torch.FloatTensor
的元组(如果模型有嵌入层,则第一个是嵌入层的输出,之后是每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
- attentions (
tuple[torch.FloatTensor, ...]
,可选,在传递 `output_attentions=True` 或 `config.output_attentions=True` 时返回) —torch.FloatTensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。经过注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
`BeitModel` 输出的类。
class transformers.models.beit.modeling_flax_beit.FlaxBeitModelOutputWithPooling
< 来源 >( last_hidden_state: typing.Optional[jax.Array] = None pooler_output: typing.Optional[jax.Array] = None hidden_states: typing.Optional[tuple[jax.Array]] = None attentions: typing.Optional[tuple[jax.Array]] = None )
参数
- last_hidden_state (
jnp.ndarray
,形状为(batch_size, sequence_length, hidden_size)
) — 模型最后一层输出的隐藏状态序列。 - pooler_output (
jnp.ndarray
,形状为(batch_size, hidden_size)
) — 如果 *config.use_mean_pooling* 设置为 True,则为图像块词元(不包括 *[CLS]* 词元)最后一层隐藏状态的平均值。如果设置为 False,则返回 *[CLS]* 词元的最终隐藏状态。 - hidden_states (
tuple(jnp.ndarray)
,可选,在传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) —jnp.ndarray
的元组(第一个是嵌入层的输出,之后是每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每一层输出的隐藏状态以及初始嵌入输出。 - attentions (
tuple(jnp.ndarray)
,可选,在传递 `output_attentions=True` 或 `config.output_attentions=True` 时返回) —jnp.ndarray
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。经过注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
`FlaxBeitModel` 输出的类。
BeitConfig
class transformers.BeitConfig
< 来源 >( vocab_size = 8192 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 initializer_range = 0.02 layer_norm_eps = 1e-12 image_size = 224 patch_size = 16 num_channels = 3 use_mask_token = False use_absolute_position_embeddings = False use_relative_position_bias = False use_shared_relative_position_bias = False layer_scale_init_value = 0.1 drop_path_rate = 0.1 use_mean_pooling = True pool_scales = [1, 2, 3, 6] use_auxiliary_head = True auxiliary_loss_weight = 0.4 auxiliary_channels = 256 auxiliary_num_convs = 1 auxiliary_concat_input = False semantic_loss_ignore_index = 255 out_features = None out_indices = None add_fpn = False reshape_hidden_states = True **kwargs )
参数
- vocab_size (
int
,可选,默认为 8192) — BEiT 模型的词汇表大小。定义了预训练期间可以使用的不同图像词元的数量。 - hidden_size (
int
,可选,默认为 768) — 编码器层和池化层的维度。 - num_hidden_layers (
int
,可选,默认为 12) — Transformer 编码器中的隐藏层数量。 - num_attention_heads (
int
,可选,默认为 12) — Transformer 编码器中每个注意力层的注意力头数量。 - intermediate_size (
int
,可选,默认为 3072) — Transformer 编码器中“中间”(即前馈)层的维度。 - hidden_act (
str
或function
,可选,默认为"gelu"
) — 编码器和池化层中的非线性激活函数(函数或字符串)。如果为字符串,支持 `"gelu"`、`"relu"`、`"selu"` 和 `"gelu_new"`。 - hidden_dropout_prob (
float
,可选,默认为 0.0) — 嵌入层、编码器和池化层中所有全连接层的 dropout 概率。 - attention_probs_dropout_prob (
float
,可选,默认为 0.0) — 注意力概率的 dropout 比率。 - initializer_range (
float
,可选,默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。 - layer_norm_eps (
float
,可选,默认为 1e-12) — 层归一化层使用的 epsilon 值。 - image_size (
int
,可选,默认为 224) — 每张图像的大小(分辨率)。 - patch_size (
int
,可选,默认为 16) — 每个图像块的大小(分辨率)。 - num_channels (
int
,可选,默认为 3) — 输入通道的数量。 - use_mask_token (
bool
,可选,默认为False
) — 是否在掩码图像建模中使用掩码词元。 - use_absolute_position_embeddings (
bool
,可选,默认为False
) — 是否使用 BERT 风格的绝对位置嵌入。 - use_relative_position_bias (
bool
,可选,默认为False
) — 是否在自注意力层中使用 T5 风格的相对位置嵌入。 - use_shared_relative_position_bias (
bool
, optional, defaults toFalse
) — 是否在 Transformer 的所有自注意力层中使用相同的相对位置嵌入。 - layer_scale_init_value (
float
, optional, defaults to 0.1) — 在自注意力层中使用的缩放值。base 模型为 0.1,large 模型为 1e-5。设为 0 可禁用层缩放。 - drop_path_rate (
float
, optional, defaults to 0.1) — 每个样本的随机深度率(应用于残差层的主路径时)。 - use_mean_pooling (
bool
, optional, defaults toTrue
) — 在应用分类头之前,是否对图像块的最终隐藏状态进行平均池化,而不是使用 CLS 令牌的最终隐藏状态。 - pool_scales (
tuple[int]
, optional, defaults to[1, 2, 3, 6]
) — 应用于最后一个特征图的池化金字塔模块中使用的池化尺度。 - use_auxiliary_head (
bool
, optional, defaults toTrue
) — 是否在训练期间使用辅助头。 - auxiliary_loss_weight (
float
, optional, defaults to 0.4) — 辅助头的交叉熵损失权重。 - auxiliary_channels (
int
, optional, defaults to 256) — 在辅助头中使用的通道数。 - auxiliary_num_convs (
int
, optional, defaults to 1) — 在辅助头中使用的卷积层数。 - auxiliary_concat_input (
bool
, optional, defaults toFalse
) — 是否在分类层之前将辅助头的输出与输入连接起来。 - semantic_loss_ignore_index (
int
, optional, defaults to 255) — 语义分割模型的损失函数所忽略的索引。 - out_features (
list[str]
, optional) — 当用作主干网络时,要输出的特征列表。可以是"stem"
、"stage1"
、"stage2"
等中的任何一个(取决于模型有多少个阶段)。如果未设置而out_indices
已设置,则将默认为相应的阶段。如果未设置且out_indices
也未设置,则将默认为最后一个阶段。必须与stage_names
属性中定义的顺序相同。 - out_indices (
list[int]
, optional) — 当用作主干网络时,要输出的特征索引列表。可以是 0、1、2 等中的任何一个(取决于模型有多少个阶段)。如果未设置而out_features
已设置,则将默认为相应的阶段。如果未设置且out_features
也未设置,则将默认为最后一个阶段。必须与stage_names
属性中定义的顺序相同。 - add_fpn (
bool
, optional, defaults toFalse
) — 是否将 FPN 作为主干网络的一部分添加。仅与BeitBackbone
相关。 - reshape_hidden_states (
bool
, optional, defaults toTrue
) — 在模型用作主干网络时,是否将特征图重塑为形状为 `(batch_size, hidden_size, height, width)` 的 4D 张量。如果为 `False`,特征图将是形状为 `(batch_size, seq_len, hidden_size)` 的 3D 张量。仅与 `BeitBackbone` 相关。
这是用于存储 BeitModel 配置的配置类。它用于根据指定的参数实例化一个 BEiT 模型,定义模型架构。使用默认值实例化配置将产生与 BEiT microsoft/beit-base-patch16-224-pt22k 架构类似的配置。
示例
>>> from transformers import BeitConfig, BeitModel
>>> # Initializing a BEiT beit-base-patch16-224-pt22k style configuration
>>> configuration = BeitConfig()
>>> # Initializing a model (with random weights) from the beit-base-patch16-224-pt22k style configuration
>>> model = BeitModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
BeitFeatureExtractor
post_process_semantic_segmentation
< 来源 >( outputs target_sizes: typing.Optional[list[tuple]] = None ) → semantic_segmentation
参数
- outputs (BeitForSemanticSegmentation) — 模型的原始输出。
- target_sizes (
list[Tuple]
of lengthbatch_size
, optional) — 与每个预测请求的最终尺寸(高度,宽度)相对应的元组列表。如果未设置,预测将不会被调整大小。
返回
语义分割
长度为 `batch_size` 的 `list[torch.Tensor]`,其中每个项目是形状为 (height, width) 的语义分割图,对应于 target_sizes 条目(如果指定了 `target_sizes`)。每个 `torch.Tensor` 的每个条目对应一个语义类别 ID。
将 BeitForSemanticSegmentation 的输出转换为语义分割图。仅支持 PyTorch。
BeitImageProcessor
class transformers.BeitImageProcessor
< 来源 >( do_resize: bool = True size: typing.Optional[dict[str, int]] = None resample: Resampling = <Resampling.BICUBIC: 3> do_center_crop: bool = True crop_size: typing.Optional[dict[str, int]] = None rescale_factor: typing.Union[int, float] = 0.00392156862745098 do_rescale: bool = True do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_reduce_labels: bool = False **kwargs )
参数
- do_resize (
bool
, optional, defaults toTrue
) — 是否将图像的(高度,宽度)尺寸调整为指定的 `size`。可在 `preprocess` 方法中通过 `do_resize` 参数覆盖。 - size (
dict[str, int]
optional, defaults to{"height" -- 256, "width": 256}
): 调整大小后输出图像的尺寸。可在 `preprocess` 方法中通过 `size` 参数覆盖。 - resample (
PILImageResampling
, optional, defaults toResampling.BICUBIC
) — 如果调整图像大小,要使用的重采样过滤器。可在 `preprocess` 方法中通过 `resample` 参数覆盖。 - do_center_crop (
bool
, optional, defaults toTrue
) — 是否对图像进行中心裁剪。如果输入的任一边缘尺寸小于 `crop_size`,图像将用 0 填充,然后进行中心裁剪。可在 `preprocess` 方法中通过 `do_center_crop` 参数覆盖。 - crop_size (
dict[str, int]
, optional, defaults to{"height" -- 224, "width": 224}
): 应用中心裁剪时期望的输出尺寸。仅当 `do_center_crop` 设置为 `True` 时有效。可在 `preprocess` 方法中通过 `crop_size` 参数覆盖。 - rescale_factor (
int
orfloat
, optional, defaults to1/255
) — 如果重缩放图像,要使用的缩放因子。可在 `preprocess` 方法中通过 `rescale_factor` 参数覆盖。 - do_rescale (
bool
, optional, defaults toTrue
) — 是否通过指定的 `rescale_factor` 缩放图像。可在 `preprocess` 方法中通过 `do_rescale` 参数覆盖。 - do_normalize (
bool
, optional, defaults toTrue
) — 是否对图像进行归一化。可在 `preprocess` 方法中通过 `do_normalize` 参数覆盖。 - image_mean (
float
orlist[float]
, optional, defaults toIMAGENET_STANDARD_MEAN
) — 如果对图像进行归一化,使用的均值。这是一个浮点数或长度等于图像通道数的浮点数列表。可在 `preprocess` 方法中通过 `image_mean` 参数覆盖。 - image_std (
float
orlist[float]
, optional, defaults toIMAGENET_STANDARD_STD
) — 如果对图像进行归一化,使用的标准差。这是一个浮点数或长度等于图像通道数的浮点数列表。可在 `preprocess` 方法中通过 `image_std` 参数覆盖。 - do_reduce_labels (
bool
, optional, defaults toFalse
) — 是否将分割图的所有标签值减 1。通常用于背景使用 0 且背景本身不包含在数据集所有类别中的数据集(例如 ADE20k)。背景标签将被替换为 255。可在 `preprocess` 方法中通过 `do_reduce_labels` 参数覆盖。
构建一个 BEiT 图像处理器。
preprocess
< 来源 >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] segmentation_maps: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor'], NoneType] = None do_resize: typing.Optional[bool] = None size: typing.Optional[dict[str, int]] = None resample: Resampling = None do_center_crop: typing.Optional[bool] = None crop_size: typing.Optional[dict[str, int]] = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Optional[float] = None do_normalize: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_reduce_labels: typing.Optional[bool] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None data_format: ChannelDimension = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None )
参数
- images (
ImageInput
) — 要预处理的图像。期望是单个或一批像素值在 0 到 255 范围内的图像。如果传入像素值在 0 到 1 之间的图像,请设置 `do_rescale=False`。 - segmentation_maps (
ImageInput
, optional) — 要预处理的分割图。期望是单个或一批像素值在 0 到 255 范围内的图像。如果传入像素值在 0 到 1 之间的图像,请设置 `do_rescale=False`。 - do_resize (
bool
, optional, defaults toself.do_resize
) — 是否调整图像大小。 - size (
dict[str, int]
, optional, defaults toself.size
) — 调整大小后的图像尺寸。 - resample (
int
, optional, defaults toself.resample
) — 如果调整图像大小,要使用的重采样过滤器。可以是枚举 `PILImageResampling` 中的一种,仅当 `do_resize` 设置为 `True` 时有效。 - do_center_crop (
bool
, optional, defaults toself.do_center_crop
) — 是否对图像进行中心裁剪。 - crop_size (
dict[str, int]
, optional, defaults toself.crop_size
) — 中心裁剪后图像的尺寸。如果图像的某个边缘小于 `crop_size`,它将被填充零然后进行裁剪。 - do_rescale (
bool
, optional, defaults toself.do_rescale
) — 是否将图像值重缩放到 [0 - 1] 之间。 - rescale_factor (
float
, optional, defaults toself.rescale_factor
) — 如果 `do_rescale` 设置为 `True`,用于重缩放图像的缩放因子。 - do_normalize (
bool
, optional, defaults toself.do_normalize
) — 是否对图像进行归一化。 - image_mean (
float
orlist[float]
, optional, defaults toself.image_mean
) — 图像均值。 - image_std (
float
orlist[float]
, optional, defaults toself.image_std
) — 图像标准差。 - do_reduce_labels (
bool
, optional, defaults toself.do_reduce_labels
) — 是否将分割图的所有标签值减 1。通常用于背景使用 0 且背景本身不包含在数据集所有类别中的数据集(例如 ADE20k)。背景标签将被替换为 255。 - return_tensors (
str
orTensorType
, optional) — 要返回的张量类型。可以是以下之一:- 未设置:返回一个 `np.ndarray` 列表。
- `TensorType.TENSORFLOW` 或 `'tf'`:返回一个 `tf.Tensor` 类型的批次。
- `TensorType.PYTORCH` 或 `'pt'`:返回一个 `torch.Tensor` 类型的批次。
- `TensorType.NUMPY` 或 `'np'`:返回一个 `np.ndarray` 类型的批次。
- `TensorType.JAX` 或 `'jax'`:返回一个 `jax.numpy.ndarray` 类型的批次。
- data_format (
ChannelDimension
orstr
, optional, defaults toChannelDimension.FIRST
) — 输出图像的通道维度格式。可以是以下之一:- `"channels_first"` 或 `ChannelDimension.FIRST`:图像格式为 (num_channels, height, width)。
- `"channels_last"` 或 `ChannelDimension.LAST`:图像格式为 (height, width, num_channels)。
- 未设置:使用输入图像的通道维度格式。
- input_data_format (
ChannelDimension
orstr
, optional) — 输入图像的通道维度格式。如果未设置,将从输入图像中推断通道维度格式。可以是以下之一:- `"channels_first"` 或 `ChannelDimension.FIRST`:图像格式为 (num_channels, height, width)。
- `"channels_last"` 或 `ChannelDimension.LAST`:图像格式为 (height, width, num_channels)。
- `"none"` 或 `ChannelDimension.NONE`:图像格式为 (height, width)。
预处理一张或一批图像。
post_process_semantic_segmentation
< 来源 >( outputs target_sizes: typing.Optional[list[tuple]] = None ) → semantic_segmentation
参数
- outputs (BeitForSemanticSegmentation) — 模型的原始输出。
- target_sizes (
list[Tuple]
of lengthbatch_size
, optional) — 与每个预测请求的最终尺寸(高度,宽度)相对应的元组列表。如果未设置,预测将不会被调整大小。
返回
语义分割
长度为 `batch_size` 的 `list[torch.Tensor]`,其中每个项目是形状为 (height, width) 的语义分割图,对应于 target_sizes 条目(如果指定了 `target_sizes`)。每个 `torch.Tensor` 的每个条目对应一个语义类别 ID。
将 BeitForSemanticSegmentation 的输出转换为语义分割图。仅支持 PyTorch。
BeitImageProcessorFast
class transformers.BeitImageProcessorFast
< 来源 >( **kwargs: typing_extensions.Unpack[transformers.models.beit.image_processing_beit_fast.BeitFastImageProcessorKwargs] )
构建一个快速的 Beit 图像处理器。
preprocess
< 来源 >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] segmentation_maps: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor'], NoneType] = None **kwargs: typing_extensions.Unpack[transformers.models.beit.image_processing_beit_fast.BeitFastImageProcessorKwargs] ) → <class 'transformers.image_processing_base.BatchFeature'>
参数
- images (
Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]
) — 待预处理的图像。需要单个或一批像素值范围在 0 到 255 之间的图像。如果传入的图像像素值在 0 到 1 之间,请设置 `do_rescale=False`。 - segmentation_maps (
ImageInput
, 可选) — 待预处理的分割图。 - do_resize (
bool
, 可选) — 是否调整图像大小。 - size (
dict[str, int]
, 可选) — 描述模型的最大输入尺寸。 - default_to_square (
bool
, 可选) — 当 size 是一个整数时,在调整大小时是否默认为正方形图像。 - resample (
Union[PILImageResampling, F.InterpolationMode, NoneType]
) — 如果调整图像大小,使用的重采样过滤器。可以是 `PILImageResampling` 枚举之一。仅当 `do_resize` 设置为 `True` 时有效。 - do_center_crop (
bool
, 可选) — 是否对图像进行中心裁剪。 - crop_size (
dict[str, int]
, 可选) — 应用 `center_crop` 后输出图像的尺寸。 - do_rescale (
bool
, 可选) — 是否对图像进行缩放。 - rescale_factor (
Union[int, float, NoneType]
) — 如果 `do_rescale` 设置为 `True`,用于缩放图像的比例因子。 - do_normalize (
bool
, 可选) — 是否对图像进行归一化。 - image_mean (
Union[float, list[float], NoneType]
) — 用于归一化的图像均值。仅当 `do_normalize` 设置为 `True` 时有效。 - image_std (
Union[float, list[float], NoneType]
) — 用于归一化的图像标准差。仅当 `do_normalize` 设置为 `True` 时有效。 - do_convert_rgb (
bool
, 可选) — 是否将图像转换为 RGB。 - return_tensors (
Union[str, ~utils.generic.TensorType, NoneType]
) — 如果设置为 `pt`,返回堆叠的张量,否则返回一个张量列表。 - data_format (
~image_utils.ChannelDimension
, 可选) — 仅支持 `ChannelDimension.FIRST`。为与慢速处理器兼容而添加。 - input_data_format (
Union[str, ~image_utils.ChannelDimension, NoneType]
) — 输入图像的通道维度格式。如果未设置,则从输入图像中推断通道维度格式。可以是以下之一:- `"channels_first"` 或 `ChannelDimension.FIRST`: 图像格式为 (num_channels, height, width)。
- `"channels_last"` 或 `ChannelDimension.LAST`: 图像格式为 (height, width, num_channels)。
- `"none"` 或 `ChannelDimension.NONE`: 图像格式为 (height, width)。
- device (
torch.device
, 可选) — 用于处理图像的设备。如果未设置,则从输入图像中推断设备。 - disable_grouping (
bool
, 可选) — 是否禁用按尺寸对图像进行分组,以便单独处理而不是批量处理。如果为 None,当图像在 CPU 上时将设置为 True,否则为 False。此选择基于经验观察,详情请见:https://github.com/huggingface/transformers/pull/38157 - do_reduce_labels (
bool
, 可选, 默认为 `self.do_reduce_labels`) — 是否将分割图的所有标签值减 1。通常用于 0 代表背景,且背景本身不包含在数据集所有类别中的数据集(例如 ADE20k)。背景标签将被替换为 255。
返回
<class 'transformers.image_processing_base.BatchFeature'>
- data (
dict
) — 由 call 方法返回的列表/数组/张量字典(“pixel_values”等)。 - tensor_type (
Union[None, str, TensorType]
, 可选) — 您可以在此处提供一个`tensor_type`,以便在初始化时将整数列表转换为PyTorch/TensorFlow/Numpy张量。
post_process_semantic_segmentation
< 源代码 >( outputs target_sizes: typing.Optional[list[tuple]] = None ) → semantic_segmentation
参数
- outputs (BeitForSemanticSegmentation) — 模型的原始输出。
- target_sizes (长度为 `batch_size` 的 `list[Tuple]`,可选) — 对应于每个预测请求的最终尺寸(高,宽)的元组列表。如果未设置,预测将不会被调整大小。
返回
语义分割
长度为 `batch_size` 的 `list[torch.Tensor]`,其中每个项目是形状为 (height, width) 的语义分割图,对应于 target_sizes 条目(如果指定了 `target_sizes`)。每个 `torch.Tensor` 的每个条目对应一个语义类别 ID。
将 BeitForSemanticSegmentation 的输出转换为语义分割图。仅支持 PyTorch。
BeitModel
class transformers.BeitModel
< 源代码 >( config: BeitConfig add_pooling_layer: bool = True )
参数
- config (BeitConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,仅加载配置。请查看 from_pretrained() 方法来加载模型权重。
- add_pooling_layer (
bool
, 可选, 默认为 `True`) — 是否添加池化层
裸的 Beit 模型,输出原始的隐藏状态,顶部没有任何特定的头。
该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
该模型也是 PyTorch torch.nn.Module 的子类。可以像常规 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与常规用法和行为相关的事项。
forward
< 源代码 >( pixel_values: Tensor bool_masked_pos: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False return_dict: typing.Optional[bool] = None ) → transformers.models.beit.modeling_beit.BeitModelOutputWithPooling 或 tuple(torch.FloatTensor)
参数
- pixel_values (`torch.Tensor`,形状为 `(batch_size, num_channels, image_size, image_size)`) — 对应输入图像的张量。像素值可以通过 `{image_processor_class}` 获得。详见 `{image_processor_class}.__call__`(`{processor_class}` 使用 `{image_processor_class}` 处理图像)。
- bool_masked_pos (`torch.BoolTensor`,形状为 `(batch_size, num_patches)`,可选) — 布尔掩码位置。指示哪些补丁被掩码(1),哪些没有(0)。
- head_mask (`torch.Tensor`,形状为 `(num_heads,)` 或 `(num_layers, num_heads)`,可选) — 用于使自注意力模块的选定头无效的掩码。掩码值在 `[0, 1]` 中选择:
- 1 表示头未被掩码,
- 0 表示头被掩码。
- output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。详见返回张量下的 `attentions`。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。详见返回张量下的 `hidden_states`。 - interpolate_pos_encoding (
bool
, 默认为 `False`) — 是否对预训练的位置编码进行插值。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
返回
transformers.models.beit.modeling_beit.BeitModelOutputWithPooling 或 tuple(torch.FloatTensor)
一个 transformers.models.beit.modeling_beit.BeitModelOutputWithPooling 或一个 `torch.FloatTensor` 的元组(如果传递了 `return_dict=False` 或 `config.return_dict=False`),根据配置 (BeitConfig) 和输入包含不同的元素。
-
last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
, 可选) — 模型最后一层输出的隐藏状态序列。 -
pooler_output (`torch.FloatTensor`,形状为 `(batch_size, hidden_size)`) — 如果 *config.use_mean_pooling* 设置为 True,则为补丁标记的最后一层隐藏状态的平均值(不包括 *[CLS]* 标记)。如果设置为 False,则返回 *[CLS]* 标记的最终隐藏状态。
-
hidden_states (`tuple[torch.FloatTensor, ...]`,可选,当传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(一个用于嵌入层的输出(如果模型有嵌入层),+ 每个层的输出一个),形状为 `(batch_size, sequence_length, hidden_size)`。
模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
-
attentions (`tuple[torch.FloatTensor, ...]`,可选,当传递 `output_attentions=True` 或 `config.output_attentions=True` 时返回) — `torch.FloatTensor` 的元组(每层一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。
注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
BeitModel 的 forward 方法重写了 `__call__` 特殊方法。
尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是这个函数,因为前者会处理前处理和后处理步骤,而后者会静默地忽略它们。
BeitForMaskedImageModeling
class transformers.BeitForMaskedImageModeling
< 源代码 >( config: BeitConfig )
参数
- config (BeitConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,仅加载配置。请查看 from_pretrained() 方法来加载模型权重。
Beit Transformer 模型,顶部带有“语言”建模头。BEiT 通过预测矢量量化变分自编码器(VQ-VAE)的视觉标记来进行掩码图像建模,而像 ViT 和 DeiT 这样的其他视觉模型则预测 RGB 像素值。因此,该类与 AutoModelForMaskedImageModeling 不兼容,因此如果您希望使用 BEiT 进行掩码图像建模,则需要直接使用 BeitForMaskedImageModeling。
该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
该模型也是 PyTorch torch.nn.Module 的子类。可以像常规 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与常规用法和行为相关的事项。
forward
< 源代码 >( pixel_values: typing.Optional[torch.Tensor] = None bool_masked_pos: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)
参数
- pixel_values (`torch.Tensor`,形状为 `(batch_size, num_channels, image_size, image_size)`,可选) — 对应输入图像的张量。像素值可以通过 `{image_processor_class}` 获得。详见 `{image_processor_class}.__call__`(`{processor_class}` 使用 `{image_processor_class}` 处理图像)。
- bool_masked_pos (`torch.BoolTensor`,形状为 `(batch_size, num_patches)`) — 布尔掩码位置。指示哪些补丁被掩码(1),哪些没有(0)。
- head_mask (`torch.Tensor`,形状为 `(num_heads,)` 或 `(num_layers, num_heads)`,可选) — 用于使自注意力模块的选定头无效的掩码。掩码值在 `[0, 1]` 中选择:
- 1 表示头未被掩码,
- 0 表示头被掩码。
- labels (`torch.LongTensor`,形状为 `(batch_size,)`,可选) — 用于计算图像分类/回归损失的标签。索引应在 `[0, ..., config.num_labels - 1]` 范围内。如果 `config.num_labels == 1`,则计算回归损失(均方损失),如果 `config.num_labels > 1`,则计算分类损失(交叉熵)。
- output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。详见返回张量下的 `attentions`。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。详见返回张量下的 `hidden_states`。 - interpolate_pos_encoding (
bool
, 默认为 `False`) — 是否对预训练的位置编码进行插值。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
返回
transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.MaskedLMOutput 或一个 `torch.FloatTensor` 的元组(如果传递了 `return_dict=False` 或 `config.return_dict=False`),根据配置 (BeitConfig) 和输入包含不同的元素。
-
loss (形状为
(1,)
的torch.FloatTensor
,可选,当提供labels
时返回) — 掩码语言建模 (MLM) 损失。 -
logits (形状为
(batch_size, sequence_length, config.vocab_size)
的torch.FloatTensor
) — 语言建模头部的预测分数(SoftMax 之前的每个词汇标记的分数)。 -
hidden_states (`tuple(torch.FloatTensor)`,可选,当传递 `output_hidden_states=True` 或 `config.output_hidden_states=True` 时返回) — `torch.FloatTensor` 的元组(一个用于嵌入层的输出(如果模型有嵌入层),+ 每个层的输出一个),形状为 `(batch_size, sequence_length, hidden_size)`。
模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
-
attentions (`tuple(torch.FloatTensor)`,可选,当传递 `output_attentions=True` 或 `config.output_attentions=True` 时返回) — `torch.FloatTensor` 的元组(每层一个),形状为 `(batch_size, num_heads, sequence_length, sequence_length)`。
注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
该 BeitForMaskedImageModeling forward 方法重写了 `__call__` 特殊方法。
尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是这个函数,因为前者会处理前处理和后处理步骤,而后者会静默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, BeitForMaskedImageModeling
>>> import torch
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/beit-base-patch16-224-pt22k")
>>> model = BeitForMaskedImageModeling.from_pretrained("microsoft/beit-base-patch16-224-pt22k")
>>> num_patches = (model.config.image_size // model.config.patch_size) ** 2
>>> pixel_values = image_processor(images=image, return_tensors="pt").pixel_values
>>> # create random boolean mask of shape (batch_size, num_patches)
>>> bool_masked_pos = torch.randint(low=0, high=2, size=(1, num_patches)).bool()
>>> outputs = model(pixel_values, bool_masked_pos=bool_masked_pos)
>>> loss, logits = outputs.loss, outputs.logits
>>> list(logits.shape)
[1, 196, 8192]
BeitForImageClassification
class transformers.BeitForImageClassification
< 源代码 >( config: BeitConfig )
参数
- config (BeitConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,仅加载配置。请查看 from_pretrained() 方法来加载模型权重。
Beit Transformer 模型,顶部带有图像分类头(在补丁标记的最终隐藏状态平均值之上加一个线性层),例如用于 ImageNet。
该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
该模型也是 PyTorch torch.nn.Module 的子类。可以像常规 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与常规用法和行为相关的事项。
forward
< 源代码 >( pixel_values: typing.Optional[torch.Tensor] = None head_mask: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.ImageClassifierOutput 或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.Tensor
,形状为(batch_size, num_channels, image_size, image_size)
,可选) — 对应于输入图像的张量。像素值可以使用{image_processor_class}
获取。有关详细信息,请参阅{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
处理图像)。 - head_mask (
torch.Tensor
,形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于使自注意力模块的选定头无效的掩码。掩码值在[0, 1]
中选择:- 1 表示头未被屏蔽,
- 0 表示头已被屏蔽。
- labels (
torch.LongTensor
,形状为(batch_size,)
,可选) — 用于计算图像分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
范围内。如果config.num_labels == 1
,则计算回归损失 (均方损失);如果config.num_labels > 1
,则计算分类损失 (交叉熵)。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - interpolate_pos_encoding (
bool
,默认为False
) — 是否对预训练的位置编码进行插值。 - return_dict (
bool
,可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
返回
transformers.modeling_outputs.ImageClassifierOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.ImageClassifierOutput 或一个 torch.FloatTensor
的元组(如果传递 return_dict=False
或 config.return_dict=False
),根据配置 (BeitConfig) 和输入包含不同的元素。
-
loss (形状为
(1,)
的torch.FloatTensor
,可选,当提供labels
时返回) — 分类损失(如果 config.num_labels==1,则为回归损失)。 -
logits (形状为
(batch_size, config.num_labels)
的torch.FloatTensor
) — 分类(如果 config.num_labels==1,则为回归)分数(SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组 (如果模型有嵌入层,则一个用于嵌入层的输出,+ 一个用于每个阶段的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每个阶段输出的隐藏状态 (也称为特征图)。 -
attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组 (每层一个),形状为(batch_size, num_heads, patch_size, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
BeitForImageClassification 的 forward 方法,覆盖了 __call__
特殊方法。
尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是这个函数,因为前者会处理前处理和后处理步骤,而后者会静默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, BeitForImageClassification
>>> import torch
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/beit-base-patch16-224-pt22k")
>>> model = BeitForImageClassification.from_pretrained("microsoft/beit-base-patch16-224-pt22k")
>>> inputs = image_processor(image, return_tensors="pt")
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...
BeitForSemanticSegmentation
class transformers.BeitForSemanticSegmentation
< 源 >( config: BeitConfig )
参数
- config (BeitConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
带有语义分割头的 Beit 模型,例如用于 ADE20K、CityScapes。
该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
该模型也是 PyTorch torch.nn.Module 的子类。可以像常规 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与常规用法和行为相关的事项。
forward
< 源 >( pixel_values: typing.Optional[torch.Tensor] = None head_mask: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None interpolate_pos_encoding: bool = False return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SemanticSegmenterOutput 或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.Tensor
,形状为(batch_size, num_channels, image_size, image_size)
,可选) — 对应于输入图像的张量。像素值可以使用{image_processor_class}
获取。有关详细信息,请参阅{image_processor_class}.__call__
({processor_class}
使用{image_processor_class}
处理图像)。 - head_mask (
torch.Tensor
,形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于使自注意力模块的选定头无效的掩码。掩码值在[0, 1]
中选择:- 1 表示头未被屏蔽,
- 0 表示头已被屏蔽。
- labels (
torch.LongTensor
,形状为(batch_size, height, width)
,可选) — 用于计算损失的真实语义分割图。索引应在[0, ..., config.num_labels - 1]
范围内。如果config.num_labels > 1
,则计算分类损失 (交叉熵)。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - interpolate_pos_encoding (
bool
,默认为False
) — 是否对预训练的位置编码进行插值。 - return_dict (
bool
,可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
返回
transformers.modeling_outputs.SemanticSegmenterOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.SemanticSegmenterOutput 或一个 torch.FloatTensor
的元组(如果传递 return_dict=False
或 config.return_dict=False
),根据配置 (BeitConfig) 和输入包含不同的元素。
-
loss (形状为
(1,)
的torch.FloatTensor
,可选,当提供labels
时返回) — 分类损失(如果 config.num_labels==1,则为回归损失)。 -
logits (形状为
(batch_size, config.num_labels, logits_height, logits_width)
的torch.FloatTensor
) — 每个像素的分类分数。返回的 logits 的大小不一定与作为输入的
pixel_values
相同。这是为了避免当用户需要将 logits 调整到原始图像大小作为后处理时进行两次插值而损失一些质量。您应该始终检查 logits 的形状并根据需要进行调整。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组 (如果模型有嵌入层,则一个用于嵌入层的输出,+ 一个用于每层的输出),形状为(batch_size, patch_size, hidden_size)
。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
的元组 (每层一个),形状为(batch_size, num_heads, patch_size, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
BeitForSemanticSegmentation 的 forward 方法,覆盖了 __call__
特殊方法。
尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是这个函数,因为前者会处理前处理和后处理步骤,而后者会静默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, BeitForSemanticSegmentation
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/beit-base-finetuned-ade-640-640")
>>> model = BeitForSemanticSegmentation.from_pretrained("microsoft/beit-base-finetuned-ade-640-640")
>>> inputs = image_processor(images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> # logits are of shape (batch_size, num_labels, height, width)
>>> logits = outputs.logits
FlaxBeitModel
class transformers.FlaxBeitModel
< 源 >( config: BeitConfig input_shape = None seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )
参数
- config (BeitConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
- dtype (
jax.numpy.dtype
,可选,默认为jax.numpy.float32
) — 计算的数据类型。可以是jax.numpy.float32
、jax.numpy.float16
(在 GPU 上) 和jax.numpy.bfloat16
(在 TPU 上) 之一。这可用于在 GPU 或 TPU 上启用混合精度训练或半精度推理。如果指定,所有计算都将使用给定的
dtype
执行。请注意,这只指定了计算的数据类型,并不影响模型参数的数据类型。
基础的 Beit 模型 Transformer,输出原始的隐藏状态,没有任何特定的头在其之上。
该模型继承自 FlaxPreTrainedModel。请查看超类的文档,了解该库为其所有模型实现的通用方法 (例如下载、保存和转换 PyTorch 模型权重)。
该模型也是 flax.linen.Module 的子类。请将其作为常规的 Flax linen Module 使用,并参考 Flax 文档了解所有与一般用法和行为相关的事项。
最后,此模型支持固有的 JAX 功能,例如
__call__
< 源 >( pixel_values bool_masked_pos = None params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None train: bool = False output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.beit.modeling_flax_beit.FlaxBeitModelOutputWithPooling 或 tuple(torch.FloatTensor)
返回
transformers.models.beit.modeling_flax_beit.FlaxBeitModelOutputWithPooling 或 tuple(torch.FloatTensor)
一个 transformers.models.beit.modeling_flax_beit.FlaxBeitModelOutputWithPooling 或一个 torch.FloatTensor
的元组(如果传递 return_dict=False
或 config.return_dict=False
),根据配置 (<class 'transformers.models.beit.configuration_beit.BeitConfig'>
) 和输入包含不同的元素。
- last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)
的jnp.ndarray
) — 模型最后一层输出的隐藏状态序列。 - pooler_output (
jnp.ndarray
,形状为(batch_size, hidden_size)
) — 如果 config.use_mean_pooling 设置为 True,则为 patch tokens 的最后一层隐藏状态的平均值 (不包括 [CLS] token)。如果设置为 False,则将返回 [CLS] token 的最终隐藏状态。 - hidden_states (
tuple(jnp.ndarray)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —jnp.ndarray
的元组 (一个用于嵌入层的输出 + 一个用于每层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每层输出的隐藏状态以及初始嵌入输出。 - attentions (
tuple(jnp.ndarray)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) —jnp.ndarray
的元组 (每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。在注意力 softmax 之后的注意力权重,用于在自注意力头中计算加权平均值。
FlaxBeitPreTrainedModel
的 forward 方法,覆盖了 __call__
特殊方法。
尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是这个函数,因为前者会处理前处理和后处理步骤,而后者会静默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, FlaxBeitModel
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/beit-base-patch16-224-pt22k-ft22k")
>>> model = FlaxBeitModel.from_pretrained("microsoft/beit-base-patch16-224-pt22k-ft22k")
>>> inputs = image_processor(images=image, return_tensors="np")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
FlaxBeitForMaskedImageModeling
class transformers.FlaxBeitForMaskedImageModeling
< 源 >( config: BeitConfig input_shape = None seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )
参数
- config (BeitConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
- dtype (
jax.numpy.dtype
,可选,默认为jax.numpy.float32
) — 计算的数据类型。可以是jax.numpy.float32
、jax.numpy.float16
(在 GPU 上) 和jax.numpy.bfloat16
(在 TPU 上) 之一。这可用于在 GPU 或 TPU 上启用混合精度训练或半精度推理。如果指定,所有计算都将使用给定的
dtype
执行。请注意,这只指定了计算的数据类型,并不影响模型参数的数据类型。
带有“语言”建模头的 Beit 模型 Transformer (用于预测视觉标记)。
该模型继承自 FlaxPreTrainedModel。请查看超类的文档,了解该库为其所有模型实现的通用方法 (例如下载、保存和转换 PyTorch 模型权重)。
该模型也是 flax.linen.Module 的子类。请将其作为常规的 Flax linen Module 使用,并参考 Flax 文档了解所有与一般用法和行为相关的事项。
最后,此模型支持固有的 JAX 功能,例如
__call__
< 源 >( pixel_values bool_masked_pos = None params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None train: bool = False output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_flax_outputs.FlaxMaskedLMOutput 或 tuple(torch.FloatTensor)
返回
transformers.modeling_flax_outputs.FlaxMaskedLMOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_flax_outputs.FlaxMaskedLMOutput 或一个 torch.FloatTensor
的元组(如果传递 return_dict=False
或 config.return_dict=False
),根据配置 (<class 'transformers.models.beit.configuration_beit.BeitConfig'>
) 和输入包含不同的元素。
-
logits (形状为
(batch_size, sequence_length, config.vocab_size)
的jnp.ndarray
) — 语言建模头的预测分数(SoftMax 之前每个词汇 token 的分数)。 -
hidden_states (
tuple(jnp.ndarray)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —jnp.ndarray
的元组 (一个用于嵌入层的输出 + 一个用于每层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每个层输出的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(jnp.ndarray)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) —jnp.ndarray
的元组 (每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
FlaxBeitPreTrainedModel
的 forward 方法,覆盖了 __call__
特殊方法。
尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是这个函数,因为前者会处理前处理和后处理步骤,而后者会静默地忽略它们。
bool_masked_pos (numpy.ndarray
,形状为 (batch_size, num_patches)
):布尔掩码位置。指示哪些 patch 被掩码 (1),哪些没有 (0)。
示例
>>> from transformers import AutoImageProcessor, BeitForMaskedImageModeling
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/beit-base-patch16-224-pt22k")
>>> model = BeitForMaskedImageModeling.from_pretrained("microsoft/beit-base-patch16-224-pt22k")
>>> inputs = image_processor(images=image, return_tensors="np")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
FlaxBeitForImageClassification
class transformers.FlaxBeitForImageClassification
< 源 >( config: BeitConfig input_shape = None seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )
参数
- config (BeitConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。
- dtype (
jax.numpy.dtype
,可选,默认为jax.numpy.float32
) — 计算的数据类型。可以是jax.numpy.float32
、jax.numpy.float16
(在 GPU 上) 和jax.numpy.bfloat16
(在 TPU 上) 之一。这可用于在 GPU 或 TPU 上启用混合精度训练或半精度推理。如果指定,所有计算都将使用给定的
dtype
执行。请注意,这只指定了计算的数据类型,并不影响模型参数的数据类型。
Beit Transformer 模型,顶部带有图像分类头(在补丁标记的最终隐藏状态平均值之上加一个线性层),例如用于 ImageNet。
该模型继承自 FlaxPreTrainedModel。请查看超类的文档,了解该库为其所有模型实现的通用方法 (例如下载、保存和转换 PyTorch 模型权重)。
该模型也是 flax.linen.Module 的子类。请将其作为常规的 Flax linen Module 使用,并参考 Flax 文档了解所有与一般用法和行为相关的事项。
最后,此模型支持固有的 JAX 功能,例如
__call__
< 源 >( pixel_values bool_masked_pos = None params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None train: bool = False output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_flax_outputs.FlaxSequenceClassifierOutput 或 tuple(torch.FloatTensor)
返回
transformers.modeling_flax_outputs.FlaxSequenceClassifierOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_flax_outputs.FlaxSequenceClassifierOutput 或一个 torch.FloatTensor
的元组(如果传递 return_dict=False
或 config.return_dict=False
),根据配置 (<class 'transformers.models.beit.configuration_beit.BeitConfig'>
) 和输入包含不同的元素。
-
logits (形状为
(batch_size, config.num_labels)
的jnp.ndarray
) — 分类(如果 config.num_labels==1,则为回归)分数(SoftMax 之前)。 -
hidden_states (
tuple(jnp.ndarray)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —jnp.ndarray
的元组 (一个用于嵌入层的输出 + 一个用于每层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每个层输出的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(jnp.ndarray)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) —jnp.ndarray
的元组 (每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
FlaxBeitPreTrainedModel
的 forward 方法,覆盖了 __call__
特殊方法。
尽管前向传递的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是这个函数,因为前者会处理前处理和后处理步骤,而后者会静默地忽略它们。
示例
>>> from transformers import AutoImageProcessor, FlaxBeitForImageClassification
>>> from PIL import Image
>>> import requests
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> image_processor = AutoImageProcessor.from_pretrained("microsoft/beit-base-patch16-224")
>>> model = FlaxBeitForImageClassification.from_pretrained("microsoft/beit-base-patch16-224")
>>> inputs = image_processor(images=image, return_tensors="np")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_class_idx = logits.argmax(-1).item()
>>> print("Predicted class:", model.config.id2label[predicted_class_idx])