Transformers 文档

特征提取器

Transformers

加入 Hugging Face 社区

并获取增强的文档体验

在模型、数据集和 Spaces 上协作

通过加速推理获得更快的示例

切换文档主题

开始使用

特征提取器

特征提取器负责为音频或视觉模型准备输入特征。这包括从序列中提取特征，例如，预处理音频文件以生成 Log-Mel 频谱图特征，从图像中提取特征，例如，裁剪图像文件，以及填充、归一化和转换为 NumPy、PyTorch 和 TensorFlow 张量。

FeatureExtractionMixin

class transformers.FeatureExtractionMixin

( **kwargs )

这是一个特征提取 mixin，用于为序列和图像特征提取器提供保存/加载功能。

from_pretrained

( pretrained_model_name_or_path: typing.Union[str, os.PathLike] cache_dir: typing.Union[str, os.PathLike, NoneType] = None force_download: bool = False local_files_only: bool = False token: typing.Union[str, bool, NoneType] = None revision: str = 'main' **kwargs )

参数

pretrained_model_name_or_path (str 或 os.PathLike) — 可以是以下之一：
- 一个字符串，托管在 huggingface.co 模型仓库中的预训练 feature_extractor 的模型 ID。
- 一个目录的路径，其中包含使用 save_pretrained() 方法保存的特征提取器文件，例如，./my_model_directory/。
- 保存的特征提取器 JSON 文件的路径或 URL，例如，./my_model_directory/preprocessor_config.json。
cache_dir (str 或 os.PathLike, 可选) — 缓存下载的预训练模型特征提取器的目录路径，如果不想使用标准缓存。
force_download (bool, 可选, 默认为 False) — 是否强制（重新）下载特征提取器文件，并覆盖缓存版本（如果存在）。
resume_download — 已弃用且被忽略。现在，所有下载在可能的情况下默认恢复。将在 Transformers v5 版本中移除。
proxies (Dict[str, str], 可选) — 按协议或端点使用的代理服务器字典，例如，{'http': 'foo.bar:3128', 'http://hostname': 'foo.bar:4012'}. 代理用于每个请求。
token (str 或 bool, 可选) — 用作远程文件 HTTP Bearer 授权的令牌。如果为 True，或未指定，将使用运行 huggingface-cli login 时生成的令牌（存储在 ~/.huggingface 中）。
revision (str, 可选, 默认为 "main") — 要使用的特定模型版本。它可以是分支名称、标签名称或提交 ID，因为我们使用基于 git 的系统来存储模型和 huggingface.co 上的其他工件，因此 revision 可以是 git 允许的任何标识符。

从特征提取器实例化 FeatureExtractionMixin 类型，例如 SequenceFeatureExtractor 的派生类。

示例

# We can't instantiate directly the base class *FeatureExtractionMixin* nor *SequenceFeatureExtractor* so let's show the examples on a
# derived class: *Wav2Vec2FeatureExtractor*
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(
    "facebook/wav2vec2-base-960h"
)  # Download feature_extraction_config from huggingface.co and cache.
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(
    "./test/saved_model/"
)  # E.g. feature_extractor (or model) was saved using *save_pretrained('./test/saved_model/')*
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained("./test/saved_model/preprocessor_config.json")
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(
    "facebook/wav2vec2-base-960h", return_attention_mask=False, foo=False
)
assert feature_extractor.return_attention_mask is False
feature_extractor, unused_kwargs = Wav2Vec2FeatureExtractor.from_pretrained(
    "facebook/wav2vec2-base-960h", return_attention_mask=False, foo=False, return_unused_kwargs=True
)
assert feature_extractor.return_attention_mask is False
assert unused_kwargs == {"foo": False}

save_pretrained

( save_directory: typing.Union[str, os.PathLike] push_to_hub: bool = False **kwargs )

参数

save_directory (str 或 os.PathLike) — 将在其中保存特征提取器 JSON 文件的目录（如果不存在将创建）。
push_to_hub (bool, 可选, 默认为 False) — 是否在保存模型后将其推送到 Hugging Face 模型中心。您可以使用 repo_id 指定要推送到的存储库（默认为命名空间中 save_directory 的名称）。
kwargs (Dict[str, Any], 可选) — 传递给 push_to_hub() 方法的其他关键字参数。

将 feature_extractor 对象保存到目录 save_directory，以便可以使用 from_pretrained() 类方法重新加载它。

SequenceFeatureExtractor

class transformers.SequenceFeatureExtractor

( feature_size: int sampling_rate: int padding_value: float **kwargs )

参数

feature_size (int) — 提取特征的特征维度。
sampling_rate (int) — 音频文件应数字化的采样率，以赫兹 (Hz) 表示。
padding_value (float) — 用于填充填充值/向量的值。

这是用于语音识别的通用特征提取类。

pad

( processed_features: typing.Union[transformers.feature_extraction_utils.BatchFeature, list[transformers.feature_extraction_utils.BatchFeature], dict[str, transformers.feature_extraction_utils.BatchFeature], dict[str, list[transformers.feature_extraction_utils.BatchFeature]], list[dict[str, transformers.feature_extraction_utils.BatchFeature]]] padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = True max_length: typing.Optional[int] = None truncation: bool = False pad_to_multiple_of: typing.Optional[int] = None return_attention_mask: typing.Optional[bool] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None )

参数

processed_features (BatchFeature, BatchFeature 列表, Dict[str, List[float]], Dict[str, List[List[float]] 或 List[Dict[str, List[float]]]) — 已处理的输入。可以表示单个输入 (BatchFeature 或 Dict[str, List[float]]) 或一批输入值/向量 (BatchFeature 列表, Dict[str, List[List[float]]] 或 List[Dict[str, List[float]]])，因此您可以在预处理期间以及在 PyTorch Dataloader 的 collate 函数中使用此方法。

您可以使用张量（numpy 数组、PyTorch 张量或 TensorFlow 张量）来代替 List[float]，有关返回类型，请参阅上面的注释。
padding (bool, str 或 PaddingStrategy, 可选, 默认为 True) — 选择一种策略来填充返回的序列（根据模型的填充侧和填充索引）：
- True 或 'longest': 填充到批次中最长的序列（如果仅提供单个序列，则不填充）。
- 'max_length': 填充到由参数 max_length 指定的最大长度，或者如果未提供该参数，则填充到模型可接受的最大输入长度。
- False 或 'do_not_pad' (默认): 不填充（即，可以输出具有不同长度序列的批次）。
max_length (int, 可选) — 返回列表的最大长度，以及可选的填充长度（见上文）。
truncation (bool) — 激活截断，将输入序列裁剪为不超过 max_length 的长度。
pad_to_multiple_of (int, 可选) — 如果设置，则将序列填充为提供值的倍数。

这对于在计算能力 >= 7.5 (Volta) 的 NVIDIA 硬件上启用 Tensor Cores 的使用，或者在受益于序列长度为 128 的倍数的 TPU 上特别有用。
return_attention_mask (bool, 可选) — 是否返回 attention mask。如果保留为默认值，将根据特定 feature_extractor 的默认值返回 attention mask。

什么是 attention masks?
return_tensors (str 或 TensorType, 可选) — 如果设置，将返回张量而不是 python 整数列表。可接受的值为：
- 'tf': 返回 TensorFlow tf.constant 对象。
- 'pt': 返回 PyTorch torch.Tensor 对象。
- 'np': 返回 Numpy np.ndarray 对象。

将输入值/输入向量或一批输入值/输入向量填充到预定义长度或批次中的最大序列长度。

填充侧（左/右）填充值在特征提取器级别定义（使用 self.padding_side, self.padding_value）

如果传递的 processed_features 是 numpy 数组、PyTorch 张量或 TensorFlow 张量的字典，则结果将使用相同的类型，除非您使用 return_tensors 提供不同的张量类型。在 PyTorch 张量的情况下，您将丢失张量的特定设备。

BatchFeature

class transformers.BatchFeature

( data: typing.Optional[typing.Dict[str, typing.Any]] = None tensor_type: typing.Union[NoneType, str, transformers.utils.generic.TensorType] = None )

参数

data (dict, 可选) — 由 call/pad 方法返回的列表/数组/张量的字典（‘input_values’、‘attention_mask’ 等）。
tensor_type (Union[None, str, TensorType], 可选) — 您可以在此处指定 tensor_type，以便在初始化时将整数列表转换为 PyTorch/TensorFlow/Numpy 张量。

保存 pad() 和特征提取器特定的 __call__ 方法的输出。

此类派生自 python 字典，可以用作字典。

convert_to_tensors

( tensor_type: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None )

参数

tensor_type (str 或 TensorType, 可选) — 要使用的张量类型。如果为 str，则应为枚举 TensorType 的值之一。如果为 None，则不进行修改。

将内部内容转换为张量。

to

( *args **kwargs ) → BatchFeature

参数

args (Tuple) — 将传递给张量的 to(...) 函数。
kwargs (Dict, 可选) — 将传递给张量的 to(...) 函数。要启用异步数据传输，请在 kwargs 中设置 non_blocking 标志（默认为 False）。

返回值

修改后的相同实例。

通过调用 v.to(*args, **kwargs) (仅限 PyTorch) 将所有值发送到设备。这应支持以不同的 dtypes 进行类型转换，并将 BatchFeature 发送到不同的 device。

ImageFeatureExtractionMixin

class transformers.ImageFeatureExtractionMixin

( )

包含用于准备图像特征的实用程序的 Mixin。

center_crop

( image size ) → new_image

参数

image (PIL.Image.Image 或 np.ndarray 或形状为 (n_channels, height, width) 或 (height, width, n_channels) 的 torch.Tensor) — 要调整大小的图像。
size (int 或 Tuple[int, int]) — 要将图像裁剪到的尺寸。

返回值

new_image

中心裁剪后的 PIL.Image.Image 或 np.ndarray 或形状为: (n_channels, height, width) 的 torch.Tensor。

使用中心裁剪将 image 裁剪为给定尺寸。请注意，如果图像太小而无法裁剪为给定尺寸，则会对其进行填充（因此返回的结果具有要求的尺寸）。

convert_rgb

( image )

参数

image (PIL.Image.Image) — 要转换的图像。

将 PIL.Image.Image 转换为 RGB 格式。

expand_dims

( image )

参数

image (PIL.Image.Image or np.ndarray or torch.Tensor) — 要扩展维度的图像。

将 2 维 image 扩展到 3 维。

flip_channel_order

( image )

参数

image (PIL.Image.Image or np.ndarray or torch.Tensor) — 要翻转颜色通道的图像。如果为 np.ndarray 或 torch.Tensor，则通道维度应在最前面。

将 image 的通道顺序从 RGB 翻转为 BGR，反之亦然。请注意，如果 image 是 PIL 图像，这将触发将其转换为 NumPy 数组。

normalize

( image mean std rescale = False )

参数

image (PIL.Image.Image or np.ndarray or torch.Tensor) — 要归一化的图像。
mean (List[float] or np.ndarray or torch.Tensor) — 用于归一化的均值（每个通道）。
std (List[float] or np.ndarray or torch.Tensor) — 用于归一化的标准差（每个通道）。
rescale (bool, optional, defaults to False) — 是否将图像重新缩放到 0 和 1 之间。如果提供 PIL 图像，则会自动进行缩放。

使用 mean 和 std 归一化 image。请注意，如果 image 是 PIL 图像，这将触发将其转换为 NumPy 数组。

rescale

( image: ndarray scale: typing.Union[float, int] )

按比例缩放量重新缩放 numpy 图像

resize

( image size resample = None default_to_square = True max_size = None ) → image

参数

image (PIL.Image.Image or np.ndarray or torch.Tensor) — 要调整大小的图像。
size (int or Tuple[int, int]) — 用于调整图像大小的尺寸。如果 size 是像 (h, w) 这样的序列，则输出大小将与此匹配。

如果 size 是一个整数且 default_to_square 为 True，则图像将调整为 (size, size)。如果 size 是一个整数且 default_to_square 为 False，则图像的较小边缘将与此数字匹配。即，如果高度 > 宽度，则图像将重新缩放到 (size * height / width, size)。
resample (int, optional, defaults to PILImageResampling.BILINEAR) — 用于重采样的过滤器。
default_to_square (bool, optional, defaults to True) — 当 size 为单个整数时，如何转换 size。如果设置为 True，则 size 将转换为正方形 (size,size)。如果设置为 False，将复制 torchvision.transforms.Resize，仅支持调整最小边缘的大小并提供可选的 max_size。
max_size (int, optional, defaults to None) — 调整大小后的图像的较长边缘允许的最大尺寸：如果在根据 size 调整大小后，图像的较长边缘大于 max_size，则再次调整图像大小，使较长边缘等于 max_size。因此，size 可能会被覆盖，即较小的边缘可能比 size 短。仅当 default_to_square 为 False 时使用。

返回值

image

调整大小后的 PIL.Image.Image。

调整 image 的大小。强制将输入转换为 PIL.Image。

rotate

( image angle resample = None expand = 0 center = None translate = None fillcolor = None ) → image

参数

image (PIL.Image.Image or np.ndarray or torch.Tensor) — 要旋转的图像。如果为 np.ndarray 或 torch.Tensor，则在旋转前将其转换为 PIL.Image.Image。

返回值

image

旋转后的 PIL.Image.Image。

返回 image 的旋转副本。此方法返回 image 的副本，该副本围绕其中心逆时针旋转给定的度数。

to_numpy_array

( image rescale = None channel_first = True )

参数

image (PIL.Image.Image or np.ndarray or torch.Tensor) — 要转换为 NumPy 数组的图像。
rescale (bool, optional) — 是否应用缩放因子（使像素值成为介于 0. 和 1. 之间的浮点数）。如果图像是 PIL 图像或整数数组/张量，则默认为 True，否则为 False。
channel_first (bool, optional, defaults to True) — 是否置换图像的维度以将通道维度放在最前面。

将 image 转换为 numpy 数组。可以选择重新缩放它并将通道维度作为第一个维度。

to_pil_image

( image rescale = None )

参数

image (PIL.Image.Image or numpy.ndarray or torch.Tensor) — 要转换为 PIL 图像格式的图像。
rescale (bool, optional) — 是否应用缩放因子（使像素值成为介于 0 和 255 之间的整数）。如果图像类型为浮点类型，则默认为 True，否则为 False。

将 image 转换为 PIL 图像。可以选择重新缩放它，并在需要时将通道维度放回最后一个轴。

< > 在 GitHub 上更新

←ExecuTorch 图像处理器→