数据集查看器文档

检查数据集有效性

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

检查数据集有效性

在您从 Hub 下载数据集之前,了解您感兴趣的特定数据集是否可用会很有帮助。数据集查看器提供了 /is-valid 端点来检查特定数据集是否可以正常工作而不会出现任何错误。

对于无法使用 🤗 Datasets 库加载的数据集,API 端点将返回错误,例如,因为数据尚未上传或格式不受支持。

数据集查看器部分支持最大的数据集。如果它们是 可流式传输的,则 Datasets Server 可以提取前 100 行,而无需下载整个数据集。这对于预览大型数据集尤其有用,因为下载整个数据集可能需要数小时!请参阅 preview 字段在 /is-valid 的响应中,以检查数据集是否部分受支持。

本指南向您展示如何以编程方式检查数据集有效性,但您可以随意使用 PostmanRapidAPIReDoc 试用。

检查数据集是否有效

/is-valid 检查特定数据集是否加载时没有错误。此端点的查询参数要求您指定数据集的名称

Python
JavaScript
cURL
import requests
headers = {"Authorization": f"Bearer {API_TOKEN}"}
API_URL = "https://datasets-server.huggingface.co/is-valid?dataset=cornell-movie-review-data/rotten_tomatoes"
def query():
    response = requests.get(API_URL, headers=headers)
    return response.json()
data = query()

如果数据集有效,则响应如下所示

{
  "viewer": true,
  "preview": true,
  "search": true,
  "filter": true,
  "statistics": true,
}

如果数据集有效,但 /search 不适用于它,则响应如下所示

{
  "viewer": true,
  "preview": true,
  "search": false,
  "filter": true,
  "statistics": true,
}

如果数据集有效,但 /filter 不适用于它,则响应如下所示

{
  "viewer": true,
  "preview": true,
  "search": true,
  "filter": false,
  "statistics": true,
}

同样,如果统计信息不可用

{
  "viewer": true,
  "preview": true,
  "search": true,
  "filter": true,
  "statistics": false,
}

如果仅数据集的第一行可用,则响应如下所示

{
  "viewer": false,
  "preview": true,
  "search": true,
  "filter": true,
  "statistics": true,
}

最后,如果数据集完全无效,则响应为

{
  "viewer": false,
  "preview": false,
  "search": false,
  "filter": false,
  "statistics": false,
}

数据集无效的一些情况是

  • 数据集查看器被禁用
  • 数据集是门控的,但未授予访问权限:未传递令牌或传递的令牌未获得授权
  • 数据集是私有的,但所有者不是 PRO 用户或 Enterprise Hub 组织
  • 数据集不包含数据或数据格式不受支持
请记住,如果数据集是 门控的,您需要提供您的用户令牌才能提交成功的查询!
< > 在 GitHub 上更新