数据集查看器文档
🤗 数据集查看器
并获得增强的文档体验
开始使用
🤗 数据集查看器
数据集页面包含一个表格,其中包含数据集的内容,每 100 行排列成一页。您可以使用表格底部的按钮在页面之间导航、筛选、搜索、查看基本统计信息等。


OpenBookQA 数据集的数据集查看器
文档目录
这些文档页面侧重于数据集查看器的后端(代码位于 https://github.com/huggingface/dataset-viewer),它通过 API 为 Hub 上的所有数据集提供包含预计算数据的表格。如果您想为您的应用程序使用 API 或了解我们如何预处理数据集,您可以浏览这些部分。
否则,如果您想了解如何从 Hub 的基于 Web 的界面创建数据集、配置数据集查看器 以处理数据、图像或音频,或修复错误,您可能更喜欢阅读 Datasets Hub 文档页面。还可以查看示例数据集集合:拆分配置、子集配置、CSV 数据文件和 图像数据集。
数据集查看器的后端
数据集查看器的后端提供了一个 API,用于可视化和探索存储在 Hugging Face Hub 上的所有类型的数据集 - 计算机视觉、语音、文本和表格数据。
数据集查看器后端的主要功能是将所有 Hub 数据集自动转换为 Parquet。请阅读Parquet 部分了解更多信息。
随着数据集大小和数据类型丰富度的增加,预处理(存储和计算)这些数据集的成本可能具有挑战性且耗时。为了帮助用户访问这些现代数据集,数据集查看器在后台运行服务器以提前生成 API 响应,并将它们存储在数据库中,以便在您通过 API 发出查询时立即返回它们。
让数据集查看器处理繁重的工作,这样您就可以在 Hugging Face 上的任何 100,000 多个数据集上使用简单的 REST API 来
- 列出数据集拆分、列名和数据类型
- 获取数据集大小(以行数或字节为单位)
- 下载并查看数据集中任何索引处的行
- 在数据集中搜索单词
- 根据查询字符串筛选行
- 获取关于数据的有见地的统计信息
- 以 parquet 文件形式访问数据集,以便在您喜欢的处理或分析框架中使用
立即加入 论坛 或 Discord 上不断壮大的社区,如果您对最新更新感兴趣,请给 数据集查看器存储库 一个 ⭐️!
< > 在 GitHub 上更新