数据集查看器文档
列出拆分和子集
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
列出拆分和子集
数据集通常有拆分,也可能有子集。*拆分*是数据集的一个子集,如`train`和`test`,它们用于模型训练和评估的不同阶段。*子集*(也称为*配置*)是包含在更大数据集中的子数据集。子集在多语言语音数据集中尤为常见,其中每种语言可能有一个不同的子集。如果您有兴趣了解更多关于拆分和子集的信息,请查看“拆分和子集”概念指南!
本指南将向您展示如何使用数据集查看器的/splits
端点以编程方式检索数据集的拆分和子集。您也可以尝试使用Postman、RapidAPI或ReDoc
/splits
端点接受数据集名称作为其查询参数
Python
JavaScript
cURL
import requests
headers = {"Authorization": f"Bearer {API_TOKEN}"}
API_URL = "https://datasets-server.huggingface.co/splits?dataset=ibm/duorc"
def query():
response = requests.get(API_URL, headers=headers)
return response.json()
data = query()
端点响应是一个 JSON,其中包含数据集的拆分和子集列表。例如,ibm/duorc数据集有六个拆分和两个子集
{
"splits": [
{ "dataset": "ibm/duorc", "config": "ParaphraseRC", "split": "train" },
{ "dataset": "ibm/duorc", "config": "ParaphraseRC", "split": "validation" },
{ "dataset": "ibm/duorc", "config": "ParaphraseRC", "split": "test" },
{ "dataset": "ibm/duorc", "config": "SelfRC", "split": "train" },
{ "dataset": "ibm/duorc", "config": "SelfRC", "split": "validation" },
{ "dataset": "ibm/duorc", "config": "SelfRC", "split": "test" }
],
"pending": [],
"failed": []
}