列出拆分和子集

数据集通常有拆分，也可能有子集。*拆分*是数据集的一个子集，如`train`和`test`，它们用于模型训练和评估的不同阶段。*子集*（也称为*配置*）是包含在更大数据集中的子数据集。子集在多语言语音数据集中尤为常见，其中每种语言可能有一个不同的子集。如果您有兴趣了解更多关于拆分和子集的信息，请查看“拆分和子集”概念指南！

split-configs-server

本指南将向您展示如何使用数据集查看器的/splits端点以编程方式检索数据集的拆分和子集。您也可以尝试使用Postman、RapidAPI或ReDoc

/splits端点接受数据集名称作为其查询参数

Python

JavaScript

cURL

端点响应是一个 JSON，其中包含数据集的拆分和子集列表。例如，ibm/duorc数据集有六个拆分和两个子集

{
  "splits": [
    { "dataset": "ibm/duorc", "config": "ParaphraseRC", "split": "train" },
    { "dataset": "ibm/duorc", "config": "ParaphraseRC", "split": "validation" },
    { "dataset": "ibm/duorc", "config": "ParaphraseRC", "split": "test" },
    { "dataset": "ibm/duorc", "config": "SelfRC", "split": "train" },
    { "dataset": "ibm/duorc", "config": "SelfRC", "split": "validation" },
    { "dataset": "ibm/duorc", "config": "SelfRC", "split": "test" }
  ],
  "pending": [],
  "failed": []
}

< > 在 GitHub 上更新