AutoTrain 文档

目标检测

您正在查看版本,需要从源安装如果您希望进行常规的 pip 安装,则签出最新的稳定版本 (v0.8.24)。
Hugging Face's logo
加入 Hugging Face 社区

并获取增强文档体验

开始使用

目标检测

目标检测是一种监督式学习形式,其中模型被训练来识别和分类图像中的物体。AutoTrain 简化了此过程,让你只需上传带标签的示例图片,就可以训练一个最先进的目标检测模型。

准备你的数据

为了确保你的目标检测模型得到有效的训练,请遵循以下准备数据的准则

Archive.zip
├── 0001.png
├── 0002.png
├── 0003.png
├── .
├── .
├── .
└── metadata.jsonl

metadata.jsonl 的示例

{"file_name": "0001.png", "objects": {"bbox": [[302.0, 109.0, 73.0, 52.0]], "category": [0]}}
{"file_name": "0002.png", "objects": {"bbox": [[810.0, 100.0, 57.0, 28.0]], "category": [1]}}
{"file_name": "0003.png", "objects": {"bbox": [[160.0, 31.0, 248.0, 616.0], [741.0, 68.0, 202.0, 401.0]], "category": [2, 2]}}

请注意,边界框必须采用 COCO 格式 [x, y, width, height]

图像要求

  • 格式:确保所有图像均采用 JPEG、JPG 或 PNG 格式。

  • 数量:至少包含 5 张图像,为模型提供足够的学习范例。

  • 独占性:zip 文件应仅包含图像和 metadata.jsonl。不得包含任何其他文件或嵌套文件夹。

需要谨记的一些要点

  • 图像必须采用 jpeg、jpg 或 png 格式。
  • 每个 split 应有至少 5 张图像。
  • zip 文件中不得包含任何其他文件。
  • zip 文件夹中不得包含任何其他文件夹。

当 decompress train.zip 时,它不会创建任何文件夹:只创建图像和 metadata.jsonl。

参数

class autotrain.trainers.object_detection.params.ObjectDetectionParams

< >

( data_path: str = None model: str = 'google/vit-base-patch16-224' username: Optional = None lr: float = 5e-05 epochs: int = 3 batch_size: int = 8 warmup_ratio: float = 0.1 gradient_accumulation: int = 1 optimizer: str = 'adamw_torch' scheduler: str = 'linear' weight_decay: float = 0.0 max_grad_norm: float = 1.0 seed: int = 42 train_split: str = 'train' valid_split: Optional = None logging_steps: int = -1 project_name: str = 'project-name' auto_find_batch_size: bool = False mixed_precision: Optional = None save_total_limit: int = 1 token: Optional = None push_to_hub: bool = False eval_strategy: str = 'epoch' image_column: str = 'image' objects_column: str = 'objects' log: str = 'none' image_square_size: Optional = 600 early_stopping_patience: int = 5 early_stopping_threshold: float = 0.01 )

参数

  • data_path (str) — 数据集路径。
  • username (可选[str]) — Hugging Face 用户名。
  • lr (float) — 学习率。默认为 5e-5。
  • batch_size (int) — 训练批大小。默认为 8。
  • warmup_ratio (float) — 预热比例。默认为 0.1。
  • 训练器 (str) — 要使用的训练器。默认为 “adamw_torch”。
  • 调度程序 (str) — 要使用的调度程序。默认为 “linear”。
  • max_grad_norm (浮点型) — 最大梯度范数。默认为 1.0。
  • seed (整型) — 随机种子。默认为 42。
  • valid_split (可选项[str]) — 验证数据拆分的名称。
  • logging_steps (int) — 记录之间的步数。默认为 -1。
  • auto_find_batch_size (bool) — 是否自动查找批大小。默认值为 False。
  • mixed_precision (Optional[str]) — 混合精度类型 (fp16、bf16 或 None)。
  • token (Optional[str]) — Hub 身份验证令牌。
  • push_to_hub (bool) — 是否将模型推送到 Hugging Face Hub。默认值为 False。
  • image_column (str) — 数据集中图像列的名称。默认为“图像”。
  • objects_column (str) — 数据集中目标列的名称。默认为“objects”。
  • image_square_size (可选项[int]) — 将图像调整为指定大小,然后填充为正方形。默认为 600。
  • early_stopping_patience (int) — 未提升的训练轮数,之后将停止训练。默认为 5。
< > 在 GitHub 上更新