Hub 文档

数据工作室

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

数据工作室

每个数据集页面都包含一个表格,其中按每页 100 行的方式排列了数据集内容。您可以使用表格底部的按钮在页面之间导航。

检查数据分布

在列的顶部,您可以看到表示其数据分布的图表。这使您可以快速了解您的类别是否平衡、数值数据的范围和分布、文本的长度以及列数据中缺失的部分。

按值过滤

如果您点击数值列直方图的条形,数据集查看器将过滤数据并仅显示所选范围内值的行。同样,如果您从分类列中选择一个类别,它将仅显示所选类别中的行。

在数据集中搜索单词

您可以通过在表格顶部的搜索栏中输入单词来搜索数据集中的单词。搜索不区分大小写,并将匹配包含该单词的任何行。即使值嵌套在字典或列表中,也会在 `string` 列中搜索文本。

在数据集上运行 SQL 查询

您可以使用 SQL 控制台在浏览器中对数据集运行 SQL 查询。此功能还利用了我们的自动转换为 Parquet

有关更多信息,请参阅我们的 SQL 控制台指南。

分享特定行

您可以通过单击特定行,然后复制浏览器地址栏中的 URL 来共享该行。例如,https://huggingface.co/datasets/nyu-mll/glue/viewer/mrpc/test?p=2&row=241 将打开 MRPC 数据集、测试拆分和第 241 行的数据工作室。

大规模数据集

数据集查看器支持大规模数据集,但根据数据格式,它可能只显示数据集的前 5GB。

  • 对于 Parquet 数据集:数据集查看器显示完整数据集,但排序、过滤和搜索仅在最初的 5GB 上启用。
  • 对于其他格式(例如 WebDataset 或 JSON Lines)大于 5GB 的数据集:数据集查看器仅显示最初的 5GB,并且排序、过滤和搜索在此最初的 5GB 上启用。

在这种情况下,会有一条信息消息告知您查看器是部分的。这应该是一个足够大的样本,可以准确地代表整个数据集,如果您需要更大的样本,请告诉我们。

访问 Parquet 文件

为了支持数据集查看器,每个数据集的前 5GB 会自动转换为 Parquet 格式(除非它已经是 Parquet 数据集)。在数据集查看器中(例如,参见 GLUE),您可以单击 “自动转换为 Parquet” 来访问 Parquet 文件。请参阅数据集查看器文档,了解如何使用 Polars、Pandas 或 DuckDB 等库查询数据集 Parquet 文件。

Parquet 是一种面向列的存储格式,针对查询和处理大型数据集进行了优化。Parquet 是大数据处理和分析的流行选择,广泛用于数据处理和机器学习。您可以在文档中了解与此格式相关的更多优点。

转换机器人

当您创建新数据集时,`parquet-converter` 机器人会在将数据集转换为 Parquet 后通知您。它在仓库中打开的讨论提供了有关 Parquet 格式的详细信息以及指向 Parquet 文件的链接。

编程访问

您还可以使用 Hub API 以编程方式访问 Parquet 文件列表;例如,端点 `https://huggingface.co/api/datasets/nyu-mll/glue/parquet` 列出了 `nyu-mll/glue` 数据集的 Parquet 文件。

我们还有关于 数据集查看器 API 的特定文档,您可以直接调用它。该 API 允许您访问所有 Hugging Face Hub 数据集的内容、元数据和基本统计信息,并为数据集查看器前端提供支持。

数据集预览

对于最大的数据集,页面会显示前 100 行的预览,而不是功能齐全的查看器。此限制仅适用于大于 5GB 且非原生 Parquet 格式或未自动转换为 Parquet 的数据集。

在网页中嵌入数据集查看器

您可以使用 iframe 将数据集查看器嵌入到您自己的网页中。要使用的 URL 是 `https://huggingface.co/datasets/<namespace>/<dataset-name>/embed/viewer`,其中 `<namespace>` 是数据集的所有者,`<dataset-name>` 是数据集的名称。您还可以传递其他参数,例如子集、拆分、筛选或选定行。

有关更多信息,请参阅我们的 如何在网页中嵌入数据集查看器指南。

配置数据集查看器

为了使数据集查看器正常工作,请确保您的数据集采用受支持的格式和结构。您还可以选择使用 YAML 配置数据集。

对于私有数据集,数据集查看器对PRO 用户企业 Hub 组织启用。

有关更多信息,请参阅我们的 如何配置数据集查看器指南。

< > 在 GitHub 上更新