Hub 文档

数据文件配置

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

数据文件配置

数据集仓库的结构没有限制。

但是,如果您希望数据集查看器显示某些数据文件,或者将数据集分为训练/验证/测试拆分,则需要相应地构建数据集。通常,只需根据拆分名称命名数据文件即可,例如 `train.csv` 和 `test.csv`。

什么是拆分和子集?

机器学习数据集通常有拆分,也可能有子集。数据集通常由在模型训练和评估的不同阶段使用的**拆分**(例如 `train` 和 `test`)组成。**子集**(也称为**配置**)是较大数据集中包含的子数据集。子集在多语言语音数据集中特别常见,其中每种语言可能都有一个不同的子集。如果您有兴趣了解有关拆分和子集的更多信息,请查阅拆分和子集指南!

split-configs-server

自动拆分检测

拆分是根据文件和目录名称自动检测的。例如,这是一个包含 `train`、`test` 和 `validation` 拆分的数据集。

my_dataset_repository/
├── README.md
├── train.csv
├── test.csv
└── validation.csv

要通过根据拆分名称命名数据文件或目录来构建数据集,请参阅文件名和拆分文档以及示例数据集的配套集合

手动拆分和子集配置

您可以使用 YAML 选择要在数据集查看器中显示的数据文件。如果您想手动指定哪个文件属于哪个拆分,这会很有用。

您还可以为数据集定义多个子集,并传递数据集构建参数(例如,CSV 文件要使用的分隔符)。

这是一个配置示例,定义了一个名为“benchmark”的子集,其中包含一个 `test` 拆分。

configs:
- config_name: benchmark
  data_files:
  - split: test
    path: benchmark.csv

有关更多信息,请参阅手动配置文档。另请参阅示例数据集

支持的文件格式

请参阅文件格式文档页面以查找支持的格式列表和数据集建议。如果您的数据集使用 CSV 或 TSV 文件,您可以在示例数据集中找到更多信息。

图像、音频和视频数据集

对于图像/音频/视频分类数据集,您还可以使用目录来命名图像/音频/视频类别。如果您的图像/音频/视频文件有元数据(例如标题、边界框、转录等),您可以将元数据文件放在它们旁边。

我们提供两个指南供您参考

< > 在 GitHub 上更新