🤗 数据集查看器
数据集页面包含一个表格,其中包含数据集的内容,按每 100 行一页的方式排列。您可以使用表格底部的按钮在页面之间导航、过滤、搜索、查看基本统计信息等。
数据集查看器 OpenBookQA 数据集
文档内容
这些文档页面重点介绍了**数据集查看器的后端**(代码在 https://github.com/huggingface/dataset-viewer),它通过 API 为集线器上的所有数据集提供包含预计算数据的表格。如果您想为您的应用程序使用 API 或了解我们如何预处理数据集,可以浏览这些部分。
否则,如果您想了解如何从集线器的基于 Web 的界面创建数据集、配置数据集查看器以获取数据、图像或音频,或修复错误,您可能更喜欢阅读数据集集线器文档页面。还可以查看示例数据集集合:拆分配置、子集配置、CSV 数据文件和图像数据集。
数据集查看器后端
数据集查看器的后端提供了一个 API,用于可视化和探索存储在 Hugging Face 集线器上的所有类型的数据集 - 计算机视觉、语音、文本和表格型。
数据集查看器后端的主要功能是自动将所有集线器数据集转换为Parquet。在Parquet 部分中了解更多信息。
随着数据集规模和数据类型丰富度的增加,预处理(存储和计算)这些数据集的成本可能具有挑战性且耗时。为了帮助用户访问这些现代数据集,数据集查看器在后台运行一个服务器,以便提前生成 API 响应并将它们存储在数据库中,以便在您通过 API 进行查询时立即返回它们。
让数据集查看器处理繁重的工作,以便您可以对**Hugging Face 上的 100,000 多个数据集**中的任何一个使用简单的**REST API**来
- 列出**数据集拆分、列名和数据类型**
- 获取**数据集大小**(以行数或字节为单位)
- 下载和查看数据集中**任何索引处的行**
- 在数据集中**搜索**一个单词
- 根据查询字符串**过滤**行
- 获取有关数据的有见地的**统计信息**
- 将数据集作为**parquet 文件**访问,以便在您最喜欢的**处理或分析框架**中使用
立即加入论坛或Discord上不断壮大的社区,如果您对最新更新感兴趣,请为数据集查看器存储库点赞⭐️!
< > 在 GitHub 上更新