Dataset viewer 文档

列出 splits 和 subsets

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

列出 splits 和 subsets

数据集通常有 splits,也可能有 subsets。 *split* 是数据集的子集,例如 traintest,用于模型训练和评估的不同阶段。 *subset*(也称为 *configuration*)是包含在较大数据集中的子数据集。 Subsets 在多语言语音数据集中尤其常见,其中每种语言可能有一个不同的 subset。 如果您有兴趣了解更多关于 splits 和 subsets 的信息,请查看关于“Splits and subsets”的概念指南!

split-configs-server

本指南向您展示如何使用 dataset viewer 的 /splits 终端节点以编程方式检索数据集的 splits 和 subsets。 您也可以尝试使用 Postman, RapidAPI, 或 ReDoc

/splits 终端节点接受数据集名称作为其查询参数。

Python
JavaScript
cURL
import requests
headers = {"Authorization": f"Bearer {API_TOKEN}"}
API_URL = "https://datasets-server.huggingface.co/splits?dataset=ibm/duorc"
def query():
    response = requests.get(API_URL, headers=headers)
    return response.json()
data = query()

终端节点响应是一个 JSON,其中包含数据集的 splits 和 subsets 列表。 例如,ibm/duorc 数据集有六个 splits 和两个 subsets。

{
  "splits": [
    { "dataset": "ibm/duorc", "config": "ParaphraseRC", "split": "train" },
    { "dataset": "ibm/duorc", "config": "ParaphraseRC", "split": "validation" },
    { "dataset": "ibm/duorc", "config": "ParaphraseRC", "split": "test" },
    { "dataset": "ibm/duorc", "config": "SelfRC", "split": "train" },
    { "dataset": "ibm/duorc", "config": "SelfRC", "split": "validation" },
    { "dataset": "ibm/duorc", "config": "SelfRC", "split": "test" }
  ],
  "pending": [],
  "failed": []
}
< > 在 GitHub 上更新