图像处理器实用程序
此页面列出了图像处理器使用的所有实用函数,主要是用于处理图像的函数变换。
如果您正在研究库中图像处理器的代码,那么大多数这些函数才有用。
图像变换
transformers.image_transforms.center_crop
< 源代码 >( image: ndarray size: Tuple data_format: Union = None input_data_format: Union = None return_numpy: Optional = None ) → np.ndarray
参数
- image (
np.ndarray
) — 要裁剪的图像。 - size (
Tuple[int, int]
) — 裁剪后图像的目标尺寸。 - data_format (
str
或ChannelDimension
, 可选) — 输出图像的通道维度格式。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
: 图像采用 (num_channels, height, width) 格式。"channels_last"
或ChannelDimension.LAST
: 图像采用 (height, width, num_channels) 格式。如果未设置,将使用输入图像的推断格式。
- input_data_format (
str
或ChannelDimension
, 可选) — 输入图像的通道维度格式。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
: 图像采用 (num_channels, height, width) 格式。"channels_last"
或ChannelDimension.LAST
: 图像采用 (height, width, num_channels) 格式。如果未设置,将使用输入图像的推断格式。
- return_numpy (
bool
,可选) — 是否将裁剪后的图像作为 numpy 数组返回。用于与之前的 ImageFeatureExtractionMixin 方法向后兼容。- 未设置:将返回与输入图像相同的类型。
True
:将返回一个 numpy 数组。False
:将返回一个PIL.Image.Image
对象。
返回值
np.ndarray
裁剪后的图像。
使用中心裁剪将 image
裁剪到指定的 size
。请注意,如果图像太小而无法裁剪到给定的大小,它将被填充(因此返回的结果将始终为 size
大小)。
将边界框从中心格式转换为角点格式。
中心格式:包含框中心的坐标及其宽度、高度尺寸(center_x、center_y、width、height) 角点格式:包含框左上角和右下角的坐标(top_left_x、top_left_y、bottom_right_x、bottom_right_y)
将边界框从角点格式转换为中心格式。
角点格式:包含框左上角和右下角的坐标(top_left_x、top_left_y、bottom_right_x、bottom_right_y) 中心格式:包含框中心的坐标及其宽度、高度尺寸(center_x、center_y、width、height)
将唯一 ID 转换为 RGB 颜色。
transformers.image_transforms.normalize
< 源代码 >( image: ndarray mean: Union std: Union data_format: Optional = None input_data_format: Union = None )
使用 mean
和 std
指定的均值和标准差对 image
进行归一化。
image = (image - mean) / std
transformers.image_transforms.pad
< 源代码 >( image: ndarray padding: Union mode: PaddingMode = <PaddingMode.CONSTANT: 'constant'> constant_values: Union = 0.0 data_format: Union = None input_data_format: Union = None ) → np.ndarray
参数
- image (
np.ndarray
) — 需要填充的图像。 - padding (
int
或Tuple[int, int]
或Iterable[Tuple[int, int]]
) — 应用于高度和宽度轴边缘的填充。可以是以下三种格式之一:((before_height, after_height), (before_width, after_width))
每个轴的唯一填充宽度。((before, after),)
对高度和宽度产生相同的之前和之后填充。(pad,)
或 int 是所有轴之前 = 之后 = 填充宽度的快捷方式。
- mode (
PaddingMode
) — 要使用的填充模式。可以是以下之一:"constant"
:使用常量值填充。"reflect"
:使用沿每个轴在向量的第一个和最后一个值上镜像的向量的反射进行填充。"replicate"
:使用沿每个轴数组边缘的最后一个值的复制进行填充。"symmetric"
:使用沿数组边缘镜像的向量的反射进行填充。
- constant_values (
float
或Iterable[float]
, 可选) — 如果mode
为"constant"
,则用于填充的值。 - data_format (
str
或ChannelDimension
, 可选) — 输出图像的通道维度格式。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
:图像采用 (num_channels, height, width) 格式。"channels_last"
或ChannelDimension.LAST
:图像采用 (height, width, num_channels) 格式。如果未设置,将使用与输入图像相同的格式。
- input_data_format (
str
或ChannelDimension
, 可选) — 输入图像的通道维度格式。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
:图像采用 (num_channels, height, width) 格式。"channels_last"
或ChannelDimension.LAST
:图像采用 (height, width, num_channels) 格式。如果未设置,将使用推断的输入图像格式。
返回值
np.ndarray
填充后的图像。
使用指定的(高度,宽度)padding
和 mode
填充 image
。
将 RGB 颜色转换为唯一 ID。
transformers.image_transforms.rescale
< 源代码 >( image: ndarray scale: float data_format: Optional = None dtype: dtype = <class 'numpy.float32'> input_data_format: Union = None ) → np.ndarray
按 scale
重新缩放 image
。
transformers.image_transforms.resize
< 源代码 >( image: ndarray size: Tuple resample: PILImageResampling = None reducing_gap: Optional = None data_format: Optional = None return_numpy: bool = True input_data_format: Union = None ) → np.ndarray
参数
- image (
np.ndarray
) — 要调整大小的图像。 - size (
Tuple[int, int]
) — 用于调整图像大小的尺寸。 - resample (
int
, 可选, 默认为PILImageResampling.BILINEAR
) — 用于重采样的过滤器。 - reducing_gap (
int
, 可选) — 通过分两步调整图像大小来应用优化。reducing_gap
越大,结果越接近公平重采样。有关更多详细信息,请参阅相应的 Pillow 文档。 - data_format (
ChannelDimension
, 可选) — 输出图像的通道维度格式。如果未设置,将使用从输入推断出的格式。 - return_numpy (
bool
, 可选, 默认为True
) — 是否将调整大小后的图像作为 numpy 数组返回。如果为 False,则返回PIL.Image.Image
对象。 - input_data_format (
ChannelDimension
, 可选) — 输入图像的通道维度格式。如果未设置,将使用从输入推断的格式。
返回值
np.ndarray
调整大小后的图像。
使用 PIL 库将 image
调整大小到 size
指定的 (height, width)
。
transformers.image_transforms.to_pil_image
< source >( image: Union do_rescale: Optional = None input_data_format: Union = None ) → PIL.Image.Image
参数
- image (
PIL.Image.Image
或numpy.ndarray
或torch.Tensor
或tf.Tensor
) — 要转换为PIL.Image
格式的图像。 - do_rescale (
bool
, 可选) — 是否应用缩放因子(使像素值介于 0 和 255 之间的整数)。如果图像类型是浮点型并且转换为int
会导致精度损失,则默认为True
,否则默认为False
。 - input_data_format (
ChannelDimension
, 可选) — 输入图像的通道维度格式。如果未设置,将使用从输入推断的格式。
返回值
PIL.Image.Image
转换后的图像。
将 image
转换为 PIL 图像。可以选择调整其大小,并在需要时将通道维度放回最后一个轴。
ImageProcessingMixin
这是一个图像处理器混合类,用于为序列和图像特征提取器提供保存/加载功能。
将单个或多个 URL 转换为对应的 PIL.Image
对象。
如果传递单个 URL,则返回值将是单个对象。如果传递列表,则返回对象列表。
from_dict
< 源代码 >( image_processor_dict: Dict **kwargs ) → ImageProcessingMixin
参数
- image_processor_dict (
Dict[str, Any]
) — 将用于实例化图像处理器对象的字典。可以通过利用 to_dict() 方法从预训练的检查点检索此类字典。 - kwargs (
Dict[str, Any]
) — 用于初始化图像处理器对象的附加参数。
根据这些参数实例化的图像处理器对象。
从 Python 参数字典实例化 ImageProcessingMixin 的一种类型。
from_json_file
< 源代码 >( json_file: Union ) → 一个类型为 ImageProcessingMixin 的图像处理器
从参数的 JSON 文件路径实例化一个类型为 ImageProcessingMixin 的图像处理器。
from_pretrained
< source >( pretrained_model_name_or_path: Union cache_dir: Union = None force_download: bool = False local_files_only: bool = False token: Union = None revision: str = 'main' **kwargs )
参数
- pretrained_model_name_or_path (
str
或os.PathLike
) — 这可以是:- 一个字符串,表示 huggingface.co 上模型仓库中托管的预训练 image_processor 的模型 ID。
- 一个目录的路径,其中包含使用 save_pretrained() 方法保存的 image_processor 文件,例如
./my_model_directory/
。 - 已保存的 image_processor JSON 文件的路径或 URL,例如
./my_model_directory/preprocessor_config.json
。
- cache_dir (
str
或os.PathLike
,可选) — 如果不应使用标准缓存,则为下载的预训练模型图像处理器应缓存到的目录的路径。 - force_download (
bool
,可选,默认为False
) — 是否强制(重新)下载图像处理器文件并覆盖缓存版本(如果存在)。 resume_download — 已弃用并被忽略。现在,所有下载都将在可能的情况下默认恢复。将在 Transformers 的 v5 版本中删除。 - proxies (
Dict[str, str]
, 可选) — 按协议或端点使用的代理服务器字典,例如,{'http': 'foo.bar:3128', 'http://hostname': 'foo.bar:4012'}.
代理服务器会在每个请求中使用。 - token (
str
或bool
, 可选) — 用作远程文件 HTTP Bearer 授权的令牌。如果为True
或未指定,将使用运行huggingface-cli login
时生成的令牌(存储在~/.huggingface
中)。 - revision (
str
, 可选, 默认为"main"
) — 要使用的特定模型版本。它可以是分支名称、标签名称或提交 ID,因为我们使用基于 git 的系统在 huggingface.co 上存储模型和其他工件,因此revision
可以是 git 允许的任何标识符。
从图像处理器实例化 ImageProcessingMixin 的一种类型。
示例
# We can't instantiate directly the base class *ImageProcessingMixin* so let's show the examples on a
# derived class: *CLIPImageProcessor*
image_processor = CLIPImageProcessor.from_pretrained(
"openai/clip-vit-base-patch32"
) # Download image_processing_config from huggingface.co and cache.
image_processor = CLIPImageProcessor.from_pretrained(
"./test/saved_model/"
) # E.g. image processor (or model) was saved using *save_pretrained('./test/saved_model/')*
image_processor = CLIPImageProcessor.from_pretrained("./test/saved_model/preprocessor_config.json")
image_processor = CLIPImageProcessor.from_pretrained(
"openai/clip-vit-base-patch32", do_normalize=False, foo=False
)
assert image_processor.do_normalize is False
image_processor, unused_kwargs = CLIPImageProcessor.from_pretrained(
"openai/clip-vit-base-patch32", do_normalize=False, foo=False, return_unused_kwargs=True
)
assert image_processor.do_normalize is False
assert unused_kwargs == {"foo": False}
get_image_processor_dict
< 源代码 >( pretrained_model_name_or_path: Union **kwargs ) → Tuple[Dict, Dict]
从 pretrained_model_name_or_path
解析为参数字典,用于使用 from_dict
实例化 ~image_processor_utils.ImageProcessingMixin
类型的图像处理器。
push_to_hub
< source >( repo_id: str use_temp_dir: Optional = None commit_message: Optional = None private: Optional = None token: Union = None max_shard_size: Union = '5GB' create_pr: bool = False safe_serialization: bool = True revision: str = None commit_description: str = None tags: Optional = None **deprecated_kwargs )
参数
- repo_id (
str
) — 您要将图像处理器推送到哪个仓库的名称。当推送到给定组织时,它应该包含您的组织名称。 - use_temp_dir (
bool
, 可选) — 是否使用临时目录来存储保存的文件,然后再将它们推送到 Hub。如果不存在名为repo_id
的目录,则默认为True
,否则为False
。 - commit_message (
str
, 可选) — 推送时提交的信息。默认为"Upload image processor"
。 - private (
bool
, 可选) — 创建的仓库是否应该是私有的。 - token (
bool
或str
, 可选) — 用于远程文件的 HTTP Bearer 授权的令牌。如果为True
,将使用运行huggingface-cli login
时生成的令牌(存储在~/.huggingface
中)。如果未指定repo_url
,则默认为True
。 - max_shard_size (
int
或str
, 可选, 默认为"5GB"
) — 仅适用于模型。检查点分片前的最大大小。然后,每个检查点分片的大小都将小于此大小。如果表示为字符串,则需要是数字后跟一个单位(例如"5MB"
)。我们将其默认为"5GB"
,以便用户可以在免费层的 Google Colab 实例上轻松加载模型,而不会出现任何 CPU 内存不足问题。 - create_pr (
bool
, 可选, 默认为False
) — 是否使用上传的文件创建 PR 或直接提交。 - safe_serialization (
bool
, 可选, 默认为True
) — 是否将模型权重转换为 safetensors 格式以实现更安全的序列化。 - revision (
str
, 可选) — 要将上传的文件推送到哪个分支。 - commit_description (
str
, 可选) — 将要创建的提交的描述 - tags (
List[str]
, 可选) — 要在 Hub 上推送的标签列表。
将图像处理器文件上传到 🤗 模型中心。
示例
from transformers import AutoImageProcessor
image processor = AutoImageProcessor.from_pretrained("google-bert/bert-base-cased")
# Push the image processor to your namespace with the name "my-finetuned-bert".
image processor.push_to_hub("my-finetuned-bert")
# Push the image processor to an organization with the name "my-finetuned-bert".
image processor.push_to_hub("huggingface/my-finetuned-bert")
register_for_auto_class
< 来源 >( auto_class = 'AutoImageProcessor' )
将此类注册到给定的自动类。这应该只用于自定义图像处理器,因为库中的图像处理器已经映射到 AutoImageProcessor
。
此 API 处于实验阶段,在下一版本中可能会有一些轻微的突破性变化。
save_pretrained
< source >( save_directory: Union push_to_hub: bool = False **kwargs )
参数
- save_directory (
str
或os.PathLike
) — 将保存图像处理器 JSON 文件的目录(如果不存在,将创建该目录)。 - push_to_hub (
bool
,可选,默认为False
) — 是否在保存模型后将其推送到 Hugging Face 模型中心。您可以使用repo_id
指定要推送到的存储库(默认为您的命名空间中的save_directory
的名称)。 - kwargs (
Dict[str, Any]
,可选) — 传递给 push_to_hub() 方法的附加关键字参数。
将图像处理器对象保存到目录 save_directory
,以便可以使用 from_pretrained() 类方法重新加载它。
将此实例序列化为 Python 字典。
to_json_file
< 源代码 >( json_file_path: Union )
将此实例保存到 JSON 文件。
将此实例序列化为 JSON 字符串。