数据集查看器文档
检查数据集有效性
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
检查数据集有效性
在您从 Hub 下载数据集之前,了解您感兴趣的特定数据集是否可用会很有帮助。数据集查看器提供了 /is-valid
端点来检查特定数据集是否能正常工作而没有错误。
如果数据集无法使用 🤗 Datasets 库加载(例如,因为数据尚未上传或格式不受支持),API 端点将返回错误。
最大的数据集部分受数据集查看器支持。如果它们是 可流式传输的,Datasets Server 可以提取前 100 行,而无需下载整个数据集。这对于预览大型数据集特别有用,因为下载整个数据集可能需要数小时!请参阅
/is-valid
响应中的 preview
字段,以检查数据集是否部分受支持。本指南向您展示如何以编程方式检查数据集有效性,但您可以随意使用 Postman、RapidAPI 或 ReDoc 进行尝试。
检查数据集是否有效
/is-valid
检查特定数据集是否能正常加载而没有错误。此端点的查询参数要求您指定数据集的名称
Python
JavaScript
cURL
import requests
headers = {"Authorization": f"Bearer {API_TOKEN}"}
API_URL = "https://datasets-server.huggingface.co/is-valid?dataset=cornell-movie-review-data/rotten_tomatoes"
def query():
response = requests.get(API_URL, headers=headers)
return response.json()
data = query()
如果数据集有效,响应如下所示
{
"viewer": true,
"preview": true,
"search": true,
"filter": true,
"statistics": true,
}
如果数据集有效但其 /search 不可用,响应如下所示
{
"viewer": true,
"preview": true,
"search": false,
"filter": true,
"statistics": true,
}
如果数据集有效但其 /filter 不可用,响应如下所示
{
"viewer": true,
"preview": true,
"search": true,
"filter": false,
"statistics": true,
}
同样,如果统计数据不可用
{
"viewer": true,
"preview": true,
"search": true,
"filter": true,
"statistics": false,
}
如果只可获得数据集的前几行,则响应如下
{
"viewer": false,
"preview": true,
"search": true,
"filter": true,
"statistics": true,
}
最后,如果数据集根本无效,则响应为
{
"viewer": false,
"preview": false,
"search": false,
"filter": false,
"statistics": false,
}
数据集无效的一些情况是
- 数据集查看器已禁用
- 数据集受限,但未授予访问权限:未传递令牌或传递的令牌未授权
- 数据集是私有的,但所有者不是 PRO 用户或企业 Hub 组织
- 数据集不包含数据或数据格式不受支持
请记住,如果数据集是受限的,您需要提供您的用户令牌才能成功提交查询!
< > 在 GitHub 上更新