Hub 文档
数据文件配置
并获得增强的文档体验
开始使用
数据文件配置
对于如何组织数据集仓库,没有约束。
但是,如果您希望数据集查看器显示特定的数据文件,或将数据集分为训练/验证/测试拆分,则需要相应地组织数据集。通常,这就像根据拆分名称命名数据文件一样简单,例如 train.csv
和 test.csv
。
什么是拆分和子集?
机器学习数据集通常有拆分,也可能有子集。一个数据集通常由拆分(例如 train
和 test
)组成,这些拆分在模型训练和评估的不同阶段使用。子集(也称为配置)是包含在较大数据集中的子数据集。子集在多语言语音数据集中尤其常见,因为每种语言都可能有不同的子集。如果您有兴趣了解更多关于拆分和子集的信息,请查看 拆分和子集 指南!
自动拆分检测
拆分会根据文件和目录名称自动检测。例如,这是一个包含 train
、test
和 validation
拆分的数据集
my_dataset_repository/
├── README.md
├── train.csv
├── test.csv
└── validation.csv
要通过根据拆分名称命名数据文件或目录来组织数据集,请参阅文件名和拆分文档以及示例数据集的配套集合。
手动拆分和子集配置
您可以使用 YAML 选择要在数据集查看器中显示的数据文件。如果您想手动指定哪个文件进入哪个拆分,这将非常有用。
您还可以为数据集定义多个子集,并传递数据集构建参数(例如,用于 CSV 文件的分隔符)。
这是一个配置示例,定义了一个名为“benchmark”的子集,其中包含一个 test
拆分。
configs:
- config_name: benchmark
data_files:
- split: test
path: benchmark.csv
有关更多信息,请参阅关于手动配置的文档。另请查看示例数据集。
支持的文件格式
请参阅文件格式文档页面,查找支持的格式列表以及数据集的建议。如果您的数据集使用 CSV 或 TSV 文件,您可以在示例数据集中找到更多信息。
图像、音频和视频数据集
对于图像/音频/视频分类数据集,您还可以使用目录来命名图像/音频/视频类别。如果您的图像/音频/视频文件有元数据(例如,字幕、边界框、转录等),您可以将元数据文件放在它们旁边。
我们提供了两个指南供您查看
< > 在 GitHub 上更新