数据文件配置

数据集仓库的结构没有限制。

但是，如果您希望数据集查看器显示某些数据文件，或者将数据集分为训练/验证/测试拆分，则需要相应地构建数据集。通常，只需根据拆分名称命名数据文件即可，例如 `train.csv` 和 `test.csv`。

什么是拆分和子集？

机器学习数据集通常有拆分，也可能有子集。数据集通常由在模型训练和评估的不同阶段使用的**拆分**（例如 `train` 和 `test`）组成。**子集**（也称为**配置**）是较大数据集中包含的子数据集。子集在多语言语音数据集中特别常见，其中每种语言可能都有一个不同的子集。如果您有兴趣了解有关拆分和子集的更多信息，请查阅拆分和子集指南！

split-configs-server

自动拆分检测

拆分是根据文件和目录名称自动检测的。例如，这是一个包含 `train`、`test` 和 `validation` 拆分的数据集。

my_dataset_repository/
├── README.md
├── train.csv
├── test.csv
└── validation.csv

要通过根据拆分名称命名数据文件或目录来构建数据集，请参阅文件名和拆分文档以及示例数据集的配套集合。

手动拆分和子集配置

您可以使用 YAML 选择要在数据集查看器中显示的数据文件。如果您想手动指定哪个文件属于哪个拆分，这会很有用。

您还可以为数据集定义多个子集，并传递数据集构建参数（例如，CSV 文件要使用的分隔符）。

这是一个配置示例，定义了一个名为“benchmark”的子集，其中包含一个 `test` 拆分。

configs:
- config_name: benchmark
  data_files:
  - split: test
    path: benchmark.csv

有关更多信息，请参阅手动配置文档。另请参阅示例数据集。

支持的文件格式

请参阅文件格式文档页面以查找支持的格式列表和数据集建议。如果您的数据集使用 CSV 或 TSV 文件，您可以在示例数据集中找到更多信息。

图像、音频和视频数据集

对于图像/音频/视频分类数据集，您还可以使用目录来命名图像/音频/视频类别。如果您的图像/音频/视频文件有元数据（例如标题、边界框、转录等），您可以将元数据文件放在它们旁边。

我们提供两个指南供您参考

< > 在 GitHub 上更新