数据集查看器文档
拆分和子集
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
拆分和子集
机器学习数据集通常以拆分来组织,并且它们也可能具有子集(也称为配置)。这些内部结构为构建数据集提供了支架,并确定了数据集应如何拆分和组织。了解数据集的结构可以帮助您创建自己的数据集,并了解在模型训练和评估期间应使用哪个数据子集。
拆分
每个经过处理和清理的数据集都包含拆分,即为特定需求保留的数据的特定部分。最常见的拆分是
train
:用于训练模型的数据;此数据暴露给模型validation
:为评估和改进模型超参数而保留的数据;此数据对模型隐藏test
:仅为评估而保留的数据;此数据对模型和我们自己完全隐藏
validation
和 test
集对于确保模型实际上是在学习而不是过拟合或只是记住数据尤为重要。
子集
子集(也称为配置)是比拆分更高级别的内部结构,一个子集包含多个拆分。您可以将子集视为包含在较大数据集中的子数据集。这是一种有用的结构,可为数据集添加额外的组织层。例如,如果您查看 Multilingual LibriSpeech (MLS) 数据集,您会注意到有八种不同的语言。虽然您可以创建一个包含所有八种语言的数据集,但最好为每种语言创建一个数据集作为子集。这样,用户可以立即加载包含他们感兴趣的语言的数据集,而无需预处理数据集以过滤特定语言。
子集非常灵活,可以用于根据您想要的任何目标组织数据集。例如,SceneParse150 数据集使用子集按任务组织数据集。一个子集专门用于分割整个图像,而另一个子集用于实例分割。
< > 在 GitHub 上更新