Hugging Face's logo
加入 Hugging Face 社区

并获取增强文档体验

开始使用

数据文件配置

数据集存储库的结构没有限制。

但是,如果您希望数据集查看器显示某些数据文件,或者将您的数据集分为训练/验证/测试集,您需要相应地构建您的数据集。通常,这与根据它们的拆分名称命名数据文件一样简单,例如 train.csvtest.csv

什么是拆分和子集?

机器学习数据集通常具有拆分,并且也可能具有子集。数据集通常由拆分(例如 traintest)组成,这些拆分在训练和评估模型的不同阶段使用。子集(也称为配置)是包含在更大数据集中的子数据集。子集在多语言语音数据集中特别常见,在多语言语音数据集中,每种语言可能都有不同的子集。如果您有兴趣了解有关拆分和子集的更多信息,请查看拆分和子集指南!

split-configs-server

文件名和拆分

要通过根据拆分名称命名数据文件或目录来构建数据集,请参阅文件名和拆分文档以及配套的示例数据集集合

手动配置

您可以使用 YAML 选择要显示在数据集查看器中的数据集数据文件。如果您想手动指定哪个文件进入哪个拆分,它很有用。

您还可以为数据集定义多个子集,并传递数据集构建参数(例如 CSV 文件要使用的分隔符)。

有关更多信息,请参阅关于手动配置的文档。也可以参考示例数据集

支持的文件格式

请参阅文件格式文档页面,查找支持的格式列表和数据集的建议。如果您的数据集使用 CSV 或 TSV 文件,您可以在示例数据集中找到更多信息。

图像和音频数据集

对于图像和音频分类数据集,您也可以使用目录来命名图像和音频类。如果您的图像/音频文件具有元数据(例如字幕、边界框、转录等),您可以在它们旁边放置元数据文件。

我们提供两个您可以查看的指南

< > 更新 在 GitHub 上