数据集查看器
每个数据集页面都包含一个表格,其中包含数据集的内容,按 100 行一页进行排列。您可以使用表格底部的按钮在页面之间导航。
检查数据分布
在列的顶部,您可以看到表示其数据分布的图表。这使您可以快速了解您的类别是否平衡、数值数据的范围和分布以及文本的长度,以及列数据中缺少的部分。
按值筛选
如果您点击数值列的直方图中的一个条形,数据集查看器将过滤数据,并且仅显示值落在选定范围内的行。类似地,如果您从分类列中选择一个类别,它将仅显示来自所选类别的行。
在数据集中搜索单词
您可以通过在表格顶部的搜索栏中键入单词来搜索数据集中的单词。搜索不区分大小写,并将匹配包含该单词的任何行。即使值嵌套在字典或列表中,文本也会在string
类型的列中进行搜索。
在数据集中运行 SQL 查询
您可以使用 SQL 控制台在浏览器中对数据集运行 SQL 查询。此功能还利用了我们的自动转换为 Parquet。有关更多信息,请参阅我们关于SQL 控制台的指南。
共享特定行
您可以通过点击特定行,然后复制浏览器地址栏中的 URL 来共享该行。例如https://huggingface.co/datasets/nyu-mll/glue/viewer/mrpc/test?p=2&row=241将在 MRPC 数据集的测试拆分上打开数据集查看器,并在第 241 行。
大型数据集
数据集查看器支持大型数据集,但根据数据格式,它可能只显示数据集的前 5GB。
- 对于 Parquet 数据集:数据集查看器显示完整的数据集,但筛选和搜索仅在第一个 5GB 上启用。
- 对于其他格式(例如WebDataset或 JSON Lines)中大于 5GB 的数据集:数据集查看器仅显示前 5GB,并且筛选和搜索在这些前 5GB 上启用。
在这种情况下,一条信息消息会让您知道查看器是不完整的。这应该是一个足够大的样本,可以准确地表示完整的数据集,如果您需要更大的样本,请告知我们。
访问 Parquet 文件
为了支持数据集查看器,每个数据集的前 5GB 会自动转换为 Parquet 格式(除非它已经是 Parquet 数据集)。在数据集查看器中(例如,请参阅GLUE),您可以点击“自动转换为 Parquet”以访问 Parquet 文件。请参阅数据集查看器文档,了解如何使用 Polars、Pandas 或 DuckDB 等库查询数据集 Parquet 文件。
Parquet 是一种面向列的存储格式,针对查询和处理大型数据集进行了优化。Parquet 是大数据处理和分析的热门选择,广泛用于数据处理和机器学习。您可以在文档中了解有关此格式相关优势的更多信息。
转换机器人
当您创建新的数据集时,parquet-converter
机器人 会在将数据集转换为 Parquet 后通知您。它在存储库中打开的讨论提供了有关 Parquet 格式的详细信息以及指向 Parquet 文件的链接。
编程访问
您还可以使用Hub API以编程方式访问 Parquet 文件列表;例如,端点https://huggingface.co/api/datasets/nyu-mll/glue/parquet
列出了nyu-mll/glue
数据集的 parquet 文件。
我们还提供了关于数据集查看器 API的特定文档,您可以直接调用该 API。该 API 允许您访问所有 Hugging Face Hub 数据集的内容、元数据和基本统计信息,并为数据集查看器前端提供支持。
数据集预览
对于最大的数据集,页面会显示前 100 行的预览,而不是完整功能的查看器。此限制仅适用于超过 5GB 且不是原生 Parquet 格式或尚未自动转换为 Parquet 的数据集。
在网页中嵌入数据集查看器
您可以使用 iframe 将数据集查看器嵌入到您自己的网页中。要使用的 URL 为https://huggingface.co/datasets/<namespace>/<dataset-name>/embed/viewer
,其中<namespace>
是数据集的所有者,<dataset-name>
是数据集的名称。您还可以传递其他参数,例如子集、拆分、过滤器、搜索或选定的行。
有关更多信息,请参阅我们关于如何在网页中嵌入数据集查看器的指南。
配置数据集查看器
要使您的数据集拥有正常工作的数据集查看器,请确保您的数据集采用受支持的格式和结构。还可以使用 YAML 配置数据集。
对于**私有**数据集,数据集查看器对PRO 用户和企业中心组织启用。
有关更多信息,请参阅我们关于如何配置数据集查看器的指南。
< > 更新 在 GitHub 上