数据

timm.data.create_dataset

( name: str root: typing.Optional[str] = None split: str = 'validation' search_split: bool = True class_map: dict = None load_bytes: bool = False is_training: bool = False download: bool = False batch_size: int = 1 num_samples: typing.Optional[int] = None seed: int = 42 repeats: int = 0 input_img_mode: str = 'RGB' trust_remote_code: bool = False **kwargs )

参数

name — 数据集名称，对于基于文件夹的数据集可以为空
root — 数据集的根目录（所有类型）
split — 数据集划分（所有类型）
search_split — 从根目录搜索特定划分的子文件夹，这样就可以在命令行/配置中指定 `imagenet/` 而不是 `/imagenet/val` 等。（Folder、Torch 类型）
class_map — 通过文本文件或字典指定类别 -> 索引的映射。（Folder 类型）
load_bytes — 加载数据，以未解码的字节形式返回图像。（Folder 类型）
download — 如果数据集不存在且受支持，则下载数据集。（HFIDS、TFDS、Torch 类型）
is_training — 在训练模式下创建数据集，这与 `split` 不同。对于可迭代数据集/TFDS，它会启用数据打乱；对于其他数据集，则忽略此参数。（TFDS、WDS、HFIDS 类型）
batch_size — 可迭代数据集的批次大小提示。（TFDS、WDS、HFIDS 类型）
seed — 可迭代数据集的随机种子。（TFDS、WDS、HFIDS 类型）
repeats — 每次迭代（即 epoch）中数据集的重复次数。（TFDS、WDS、HFIDS 类型）
input_img_mode — 输入图像的颜色转换模式，例如 ‘RGB’、‘L’。（folder、TFDS、WDS、HFDS、HFIDS 类型）
trust_remote_code — 如果为 True，则信任 Hugging Face Datasets 中的远程代码。（HFDS、HFIDS 类型）
**kwargs — 其他传递给底层 Dataset 和/或 Reader 类的参数

数据集工厂方法

每个参数后的括号内是该参数支持的数据集类型，可以是以下之一：

Folder - 默认类型，基于 timm 文件夹（或 tar）的 ImageDataset
Torch - 基于 torchvision 的数据集
HFDS - Hugging Face Datasets
HFIDS - Hugging Face Datasets Iterable (流式模式，使用 IterableDataset)
TFDS - 通过 IterableImageDataset 在 IterabeDataset 接口中对 Tensorflow-datasets 进行的封装
WDS - Webdataset
All - 以上任何一种

timm.data.create_loader

< 源代码 >

( dataset: typing.Union[timm.data.dataset.ImageDataset, timm.data.dataset.IterableImageDataset] input_size: typing.Union[int, typing.Tuple[int, int], typing.Tuple[int, int, int]] batch_size: int is_training: bool = False no_aug: bool = False re_prob: float = 0.0 re_mode: str = 'const' re_count: int = 1 re_split: bool = False train_crop_mode: typing.Optional[str] = None scale: typing.Optional[typing.Tuple[float, float]] = None ratio: typing.Optional[typing.Tuple[float, float]] = None hflip: float = 0.5 vflip: float = 0.0 color_jitter: float = 0.4 color_jitter_prob: typing.Optional[float] = None grayscale_prob: float = 0.0 gaussian_blur_prob: float = 0.0 auto_augment: typing.Optional[str] = None num_aug_repeats: int = 0 num_aug_splits: int = 0 interpolation: str = 'bilinear' mean: typing.Tuple[float, ...] = (0.485, 0.456, 0.406) std: typing.Tuple[float, ...] = (0.229, 0.224, 0.225) num_workers: int = 1 distributed: bool = False crop_pct: typing.Optional[float] = None crop_mode: typing.Optional[str] = None crop_border_pixels: typing.Optional[int] = None collate_fn: typing.Optional[typing.Callable] = None pin_memory: bool = False fp16: bool = False img_dtype: dtype = torch.float32 device: device = device(type='cuda') use_prefetcher: bool = True use_multi_epochs_loader: bool = False persistent_workers: bool = True worker_seeding: str = 'all' tf_preprocessing: bool = False )

参数

dataset — 要加载的图像数据集。
input_size — 目标输入尺寸，可以是（通道数, 高, 宽）元组或单个尺寸值。
batch_size — 一个批次中的样本数量。
is_training — 返回训练（随机）变换。
no_aug — 禁用训练时的数据增强（用于调试）。
re_prob — 随机擦除的概率。
re_mode — 随机擦除的填充模式。
re_count — 随机擦除的区域数量。
re_split — 控制随机擦除在批次大小上的划分。
scale — 随机调整大小的缩放范围（裁剪区域，< 1.0 表示放大）。
ratio — 随机宽高比范围（RRC 的裁剪比例，RKR 的比例调整因子）。
hflip — 水平翻转的概率。
vflip — 垂直翻转的概率。
color_jitter — 随机颜色抖动的分量因子（亮度、对比度、饱和度、色调）。单个标量值将被应用于 (标量,) * 3（不含色调）。
color_jitter_prob — 如果不为 None，则以此概率应用颜色抖动（用于类似 SimCLR 的增强）
grayscale_prob — 将图像转换为灰度的概率（用于类似 SimCLR 的增强）。
gaussian_blur_prob — 应用高斯模糊的概率（用于类似 SimCLR 的增强）。
auto_augment — 自动增强配置字符串（参见 auto_augment.py）。
num_aug_repeats — 启用特殊的采样器，以便在分布式 GPU 之间重复相同的增强。
num_aug_splits — 启用可以将增强操作在批次中进行划分的模式。
interpolation — 图像插值模式。
mean — 图像归一化均值。
std — 图像归一化标准差。
num_workers — 每个 DataLoader 的工作进程数量。
distributed — 为分布式训练启用数据加载。
crop_pct — 推理时的裁剪百分比（输出尺寸 / 调整后尺寸）。
crop_mode — 推理时的裁剪模式。可选值为 [‘squash’, ‘border’, ‘center’] 之一。当为 None 时，默认为 ‘center’。
crop_border_pixels — 推理时在原始图像边缘周围裁剪指定像素数的边界。
collate_fn — 覆盖默认的 collate_fn。
pin_memory — 为设备传输锁定内存。
fp16 — 已弃用的参数，用于半精度输入数据类型。请使用 img_dtype。
img_dtype — 输入图像的数据类型。
device — 输入和目标要传输到的设备。
use_prefetcher — 使用高效的预取器将样本加载到设备上。
use_multi_epochs_loader —
persistent_workers — 启用持久的工作进程。
worker_seeding — 控制工作进程在初始化时的随机种子。
tf_preprocessing — 使用 TF 1.0 的推理预处理，用于测试模型移植。

timm.data.create_transform

< 源代码 >

( input_size: typing.Union[int, typing.Tuple[int, int], typing.Tuple[int, int, int]] = 224 is_training: bool = False no_aug: bool = False train_crop_mode: typing.Optional[str] = None scale: typing.Optional[typing.Tuple[float, float]] = None ratio: typing.Optional[typing.Tuple[float, float]] = None hflip: float = 0.5 vflip: float = 0.0 color_jitter: typing.Union[float, typing.Tuple[float, ...]] = 0.4 color_jitter_prob: typing.Optional[float] = None grayscale_prob: float = 0.0 gaussian_blur_prob: float = 0.0 auto_augment: typing.Optional[str] = None interpolation: str = 'bilinear' mean: typing.Tuple[float, ...] = (0.485, 0.456, 0.406) std: typing.Tuple[float, ...] = (0.229, 0.224, 0.225) re_prob: float = 0.0 re_mode: str = 'const' re_count: int = 1 re_num_splits: int = 0 crop_pct: typing.Optional[float] = None crop_mode: typing.Optional[str] = None crop_border_pixels: typing.Optional[int] = None tf_preprocessing: bool = False use_prefetcher: bool = False normalize: bool = True separate: bool = False naflex: bool = False patch_size: typing.Union[int, typing.Tuple[int, int]] = 16 max_seq_len: int = 576 patchify: bool = False )

参数

input_size — 目标输入尺寸（通道、高度、宽度）元组或尺寸标量。
is_training — 返回训练（随机）变换。
no_aug — 禁用训练时的数据增强（便于调试）。
train_crop_mode — 训练时随机裁剪模式（“rrc”、“rkrc”、“rkrr”）。
scale — 随机调整大小的缩放范围（裁剪区域，< 1.0 表示放大）。
ratio — 随机宽高比范围（RRC 的裁剪比例，RKR 的比例调整因子）。
hflip — 水平翻转的概率。
vflip — 垂直翻转的概率。
color_jitter — 随机颜色抖动分量因子（亮度、对比度、饱和度、色相）。标量将作为 (scalar,) * 3 应用（无色相）。
color_jitter_prob — 如果不为 None，则以此概率应用颜色抖动（用于类似 SimCLR 的增强）。
grayscale_prob — 将图像转换为灰度的概率（用于类似 SimCLR 的增强）。
gaussian_blur_prob — 应用高斯模糊的概率（用于类似 SimCLR 的增强）。
auto_augment — AutoAugment 配置字符串（见 auto_augment.py）。
interpolation — 图像插值模式。
mean — 图像归一化均值。
std — 图像归一化标准差。
re_prob — 随机擦除的概率。
re_mode — 随机擦除的填充模式。
re_count — 随机擦除的区域数量。
re_num_splits — 控制随机擦除在批次大小上的分割。
crop_pct — 推理时裁剪百分比（输出尺寸 / 调整后尺寸）。
crop_mode — 推理时裁剪模式。可选值为 [‘squash’, ‘border’, ‘center’]。若为 None，则默认为 ‘center’。
crop_border_pixels — 推理时在原始图像边缘周围裁剪指定像素数的边界。
tf_preprocessing — 使用 TF 1.0 推理预处理来测试模型移植
use_prefetcher — 启用预取器。不将图像转换为张量或进行归一化。
normalize — 使用提供的均值/标准差进行归一化张量输出（如果未使用预取器）。
separate — 以三阶段元组形式输出变换。

timm.data.resolve_data_config

< 源码 >

( args = None pretrained_cfg = None model = None use_test_size = False verbose = False )

< > 在 GitHub 上更新