Hub 文档
数据文件配置
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
数据文件配置
数据集仓库的结构没有限制。
但是,如果您希望数据集查看器显示某些数据文件,或者将数据集分为训练/验证/测试拆分,则需要相应地构建数据集。通常,只需根据拆分名称命名数据文件即可,例如 `train.csv` 和 `test.csv`。
什么是拆分和子集?
机器学习数据集通常有拆分,也可能有子集。数据集通常由在模型训练和评估的不同阶段使用的**拆分**(例如 `train` 和 `test`)组成。**子集**(也称为**配置**)是较大数据集中包含的子数据集。子集在多语言语音数据集中特别常见,其中每种语言可能都有一个不同的子集。如果您有兴趣了解有关拆分和子集的更多信息,请查阅拆分和子集指南!
自动拆分检测
拆分是根据文件和目录名称自动检测的。例如,这是一个包含 `train`、`test` 和 `validation` 拆分的数据集。
my_dataset_repository/
├── README.md
├── train.csv
├── test.csv
└── validation.csv
要通过根据拆分名称命名数据文件或目录来构建数据集,请参阅文件名和拆分文档以及示例数据集的配套集合。
手动拆分和子集配置
您可以使用 YAML 选择要在数据集查看器中显示的数据文件。如果您想手动指定哪个文件属于哪个拆分,这会很有用。
您还可以为数据集定义多个子集,并传递数据集构建参数(例如,CSV 文件要使用的分隔符)。
这是一个配置示例,定义了一个名为“benchmark”的子集,其中包含一个 `test` 拆分。
configs:
- config_name: benchmark
data_files:
- split: test
path: benchmark.csv
支持的文件格式
请参阅文件格式文档页面以查找支持的格式列表和数据集建议。如果您的数据集使用 CSV 或 TSV 文件,您可以在示例数据集中找到更多信息。
图像、音频和视频数据集
对于图像/音频/视频分类数据集,您还可以使用目录来命名图像/音频/视频类别。如果您的图像/音频/视频文件有元数据(例如标题、边界框、转录等),您可以将元数据文件放在它们旁边。
我们提供两个指南供您参考
< > 在 GitHub 上更新