检查数据集有效性

在您从 Hub 下载数据集之前，了解您感兴趣的特定数据集是否可用会很有帮助。数据集查看器提供了 /is-valid 端点来检查特定数据集是否能正常工作而没有错误。

如果数据集无法使用 🤗 Datasets 库加载（例如，因为数据尚未上传或格式不受支持），API 端点将返回错误。

最大的数据集部分受数据集查看器支持。如果它们是可流式传输的，Datasets Server 可以提取前 100 行，而无需下载整个数据集。这对于预览大型数据集特别有用，因为下载整个数据集可能需要数小时！请参阅 /is-valid 响应中的 preview 字段，以检查数据集是否部分受支持。

本指南向您展示如何以编程方式检查数据集有效性，但您可以随意使用 Postman、RapidAPI 或 ReDoc 进行尝试。

检查数据集是否有效

/is-valid 检查特定数据集是否能正常加载而没有错误。此端点的查询参数要求您指定数据集的名称

Python

JavaScript

cURL

如果数据集有效，响应如下所示

{
  "viewer": true,
  "preview": true,
  "search": true,
  "filter": true,
  "statistics": true,
}

如果数据集有效但其 /search 不可用，响应如下所示

{
  "viewer": true,
  "preview": true,
  "search": false,
  "filter": true,
  "statistics": true,
}

如果数据集有效但其 /filter 不可用，响应如下所示

{
  "viewer": true,
  "preview": true,
  "search": true,
  "filter": false,
  "statistics": true,
}

同样，如果统计数据不可用

{
  "viewer": true,
  "preview": true,
  "search": true,
  "filter": true,
  "statistics": false,
}

如果只可获得数据集的前几行，则响应如下

{
  "viewer": false,
  "preview": true,
  "search": true,
  "filter": true,
  "statistics": true,
}

最后，如果数据集根本无效，则响应为

{
  "viewer": false,
  "preview": false,
  "search": false,
  "filter": false,
  "statistics": false,
}

数据集无效的一些情况是

请记住，如果数据集是受限的，您需要提供您的用户令牌才能成功提交查询！