Hub 文档

数据文件配置

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

数据文件配置

对于如何组织数据集仓库,没有约束。

但是,如果您希望数据集查看器显示特定的数据文件,或将数据集分为训练/验证/测试拆分,则需要相应地组织数据集。通常,这就像根据拆分名称命名数据文件一样简单,例如 train.csvtest.csv

什么是拆分和子集?

机器学习数据集通常有拆分,也可能有子集。一个数据集通常由拆分(例如 traintest)组成,这些拆分在模型训练和评估的不同阶段使用。子集(也称为配置)是包含在较大数据集中的子数据集。子集在多语言语音数据集中尤其常见,因为每种语言都可能有不同的子集。如果您有兴趣了解更多关于拆分和子集的信息,请查看 拆分和子集 指南!

split-configs-server

自动拆分检测

拆分会根据文件和目录名称自动检测。例如,这是一个包含 traintestvalidation 拆分的数据集

my_dataset_repository/
├── README.md
├── train.csv
├── test.csv
└── validation.csv

要通过根据拆分名称命名数据文件或目录来组织数据集,请参阅文件名和拆分文档以及示例数据集的配套集合

手动拆分和子集配置

您可以使用 YAML 选择要在数据集查看器中显示的数据文件。如果您想手动指定哪个文件进入哪个拆分,这将非常有用。

您还可以为数据集定义多个子集,并传递数据集构建参数(例如,用于 CSV 文件的分隔符)。

这是一个配置示例,定义了一个名为“benchmark”的子集,其中包含一个 test 拆分。

configs:
- config_name: benchmark
  data_files:
  - split: test
    path: benchmark.csv

有关更多信息,请参阅关于手动配置的文档。另请查看示例数据集

支持的文件格式

请参阅文件格式文档页面,查找支持的格式列表以及数据集的建议。如果您的数据集使用 CSV 或 TSV 文件,您可以在示例数据集中找到更多信息。

图像、音频和视频数据集

对于图像/音频/视频分类数据集,您还可以使用目录来命名图像/音频/视频类别。如果您的图像/音频/视频文件有元数据(例如,字幕、边界框、转录等),您可以将元数据文件放在它们旁边。

我们提供了两个指南供您查看

< > 在 GitHub 上更新