数据集查看器文档

🤗 数据集查看器

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

🤗 数据集查看器

数据集页面包含一个表格,其中包含数据集内容,按每页 100 行排列。您可以使用表格底部的按钮在页面之间导航、进行筛选、搜索、查看基本统计信息等等。

OpenBookQA 数据集 的数据集查看器

文档目录

这些文档页面主要关注**数据集查看器的后端**(代码位于 https://github.com/huggingface/dataset-viewer),它通过 API 为 Hub 上的所有数据集提供带有预计算数据的表格。如果您想为您的应用程序使用 API 或了解我们如何预处理数据集,可以浏览这些部分。

否则,如果您想了解如何通过 Hub 的基于 Web 的界面创建数据集,**配置数据集查看器** 以处理数据、图像 或音频,或修复错误,您可能更喜欢阅读 数据集 Hub 文档页面。还可以查看 示例数据集 集合:拆分配置子集配置CSV 数据文件图像数据集

数据集查看器后端

数据集查看器后端提供了一个 API,用于可视化和探索存储在 Hugging Face Hub 上的所有类型数据集 - 计算机视觉、语音、文本和表格。

数据集查看器后端的主要功能是将所有 Hub 数据集 自动转换为 Parquet 格式。请阅读 Parquet 部分 了解更多信息。

随着数据集大小和数据类型丰富度的增加,预处理这些数据集的成本(存储和计算)可能具有挑战性且耗时。为了帮助用户访问这些现代数据集,数据集查看器在后台运行一个服务器,提前生成 API 响应并将其存储在数据库中,以便在您通过 API 进行查询时立即返回。

让数据集查看器处理繁重的工作,这样您就可以对 Hugging Face 上超过 **100,000 个数据集**中的任何一个使用简单的 **REST API** 来实现:

  • 列出**数据集拆分、列名和数据类型**
  • 获取**数据集大小**(行数或字节数)
  • 下载并查看数据集**任意索引处的行**
  • 在数据集中**搜索**单词
  • 根据查询字符串**过滤**行
  • 获取有关数据的**有见地的统计信息**
  • 以 **Parquet 文件**形式访问数据集,以便在您喜欢的**处理或分析框架**中使用

立即加入 论坛Discord 上不断壮大的社区,如果您对最新更新感兴趣,请给 数据集查看器仓库 加星!

< > 在 GitHub 上更新