数据集查看器文档

拆分和子集

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始

拆分和子集

机器学习数据集通常以拆分的形式组织,它们也可能具有子集(也称为配置)。这些内部结构为构建数据集提供了支架,并确定了数据集应如何拆分和组织。了解数据集的结构可以帮助您创建自己的数据集,并了解在模型训练和评估期间应使用哪个数据集子集。

split-configs-server

拆分

每个处理和清理后的数据集都包含拆分,即为特定需求保留的数据的特定部分。最常见的拆分是

  • train:用于训练模型的数据;这些数据会被模型暴露
  • validation:保留用于评估和改进模型超参数的数据;这些数据对模型隐藏
  • test:保留仅用于评估的数据;这些数据完全对模型和我们自己隐藏

validationtest 集尤其重要,以确保模型真正学习而不是过拟合,或者只是记住数据。

子集

子集(也称为配置)是比拆分更高级别的内部结构,并且子集包含拆分。您可以将子集视为包含在更大数据集中的子数据集。它是一个有用的结构,用于向数据集添加其他组织层。例如,如果您查看多语言LibriSpeech (MLS)数据集,您会注意到有八种不同的语言。虽然您可以创建一个包含所有八种语言的数据集,但创建每个语言作为子集的数据集可能更整洁。这样,用户可以立即加载他们感兴趣的语言的数据集,而不是预处理数据集以过滤特定语言。

子集很灵活,可以用于根据您想要的任何目标来组织数据集。例如,SceneParse150数据集使用子集按任务组织数据集。一个子集专门用于分割整个图像,而另一个子集则用于实例分割。

< > 在 GitHub 上更新