Hub 文档
Data Studio
并获得增强的文档体验
开始使用
Data Studio
每个数据集页面都包含一个表格,其中包含数据集的内容,每页排列 100 行。您可以使用表格底部的按钮在页面之间导航。


检查数据分布
在列的顶部,您可以看到表示其数据分布的图表。这使您可以快速了解您的类别的平衡程度、数值数据的范围和分布以及文本长度,以及列数据中缺失的部分。
按值筛选
如果您单击数值列中直方图的条形,数据集查看器将筛选数据,并且仅显示值落在所选范围内的行。同样,如果您从分类列中选择一个类别,它将仅显示来自所选类别的行。


在数据集中搜索单词
您可以通过在表格顶部的搜索栏中键入单词来在数据集中搜索单词。搜索不区分大小写,并将匹配包含该单词的任何行。文本在 string
列中搜索,即使值嵌套在字典或列表中也是如此。
在数据集上运行 SQL 查询
您可以使用 SQL 控制台在浏览器中对数据集运行 SQL 查询。此功能还利用了我们的 自动转换为 Parquet。


有关更多信息,请参阅我们的 SQL 控制台指南。
分享特定行
您可以通过单击特定行,然后复制浏览器地址栏中的 URL 来分享特定行。例如 https://huggingface.co/datasets/nyu-mll/glue/viewer/mrpc/test?p=2&row=241 将在 MRPC 数据集的测试拆分和第 241 行上打开数据集工作室。


大规模数据集
数据集查看器支持大规模数据集,但根据数据格式,它可能仅显示数据集的前 5GB
- 对于 Parquet 数据集:数据集查看器显示完整数据集,但排序、筛选和搜索仅在前 5GB 上启用。
- 对于其他格式(例如 WebDataset 或 JSON Lines)的 >5GB 数据集:数据集查看器仅显示前 5GB,并且排序、筛选和搜索在这些前 5GB 上启用。
在这种情况下,信息性消息会通知您查看器是部分的。这应该是一个足够大的样本来准确表示完整数据集,如果您需要更大的样本,请告知我们。
访问 parquet 文件
为了支持数据集查看器,每个数据集的前 5GB 都会自动转换为 Parquet 格式(除非它已经是 Parquet 数据集)。在数据集查看器中(例如,请参阅 GLUE),您可以单击 “自动转换为 Parquet” 以访问 Parquet 文件。请参阅 数据集查看器文档,了解如何使用 Polars、Pandas 或 DuckDB 等库查询数据集 parquet 文件。
Parquet 是一种列式存储格式,针对查询和处理大型数据集进行了优化。Parquet 是大数据处理和分析的热门选择,并广泛用于数据处理和机器学习。您可以在 文档中了解有关与此格式关联的优势的更多信息。
转换机器人
当您创建新的数据集时,parquet-converter
机器人会在将数据集转换为 Parquet 后通知您。它在存储库中打开的讨论提供了有关 Parquet 格式的详细信息以及指向 Parquet 文件的链接。


程序化访问
您还可以使用 Hub API 以编程方式访问 Parquet 文件列表;例如,端点 https://huggingface.co/api/datasets/nyu-mll/glue/parquet
列出了 nyu-mll/glue
数据集的 parquet 文件。
我们还有关于 Dataset Viewer API 的特定文档,您可以直接调用它。该 API 使您可以访问所有 Hugging Face Hub 数据集的内容、元数据和基本统计信息,并为 Dataset viewer 前端提供支持。
数据集预览
对于最大的数据集,页面显示前 100 行的预览,而不是功能齐全的查看器。此限制仅适用于大于 5GB 且并非原生 Parquet 格式或尚未自动转换为 Parquet 的数据集。


在网页中嵌入数据集查看器
您可以使用 iframe 将数据集查看器嵌入到您自己的网页中。要使用的 URL 是 https://huggingface.co/datasets/<namespace>/<dataset-name>/embed/viewer
,其中 <namespace>
是数据集的所有者,而 <dataset-name>
是数据集的名称。您还可以传递其他参数,例如 subset、split、filter、search 或 selected row。
有关更多信息,请参阅我们的指南:如何在网页中嵌入数据集查看器。
配置数据集查看器
为了使您的数据集的数据集查看器正常工作,请确保您的数据集采用受支持的格式和结构。还可以选择使用 YAML 配置您的数据集。
对于私有数据集,数据集查看器对 PRO 用户 和 Enterprise Hub 组织启用。
有关更多信息,请参阅我们的指南:如何配置数据集查看器。
< > 在 GitHub 上更新