数据工作室

每个数据集页面都包含一个表格，其中按每页 100 行的方式排列了数据集内容。您可以使用表格底部的按钮在页面之间导航。

检查数据分布

在列的顶部，您可以看到表示其数据分布的图表。这使您可以快速了解您的类别是否平衡、数值数据的范围和分布、文本的长度以及列数据中缺失的部分。

按值过滤

如果您点击数值列直方图的条形，数据集查看器将过滤数据并仅显示所选范围内值的行。同样，如果您从分类列中选择一个类别，它将仅显示所选类别中的行。

在数据集中搜索单词

您可以通过在表格顶部的搜索栏中输入单词来搜索数据集中的单词。搜索不区分大小写，并将匹配包含该单词的任何行。即使值嵌套在字典或列表中，也会在 `string` 列中搜索文本。

在数据集上运行 SQL 查询

您可以使用 SQL 控制台在浏览器中对数据集运行 SQL 查询。此功能还利用了我们的自动转换为 Parquet。

有关更多信息，请参阅我们的 SQL 控制台指南。

分享特定行

您可以通过单击特定行，然后复制浏览器地址栏中的 URL 来共享该行。例如，https://huggingface.co/datasets/nyu-mll/glue/viewer/mrpc/test?p=2&row=241 将打开 MRPC 数据集、测试拆分和第 241 行的数据工作室。

大规模数据集

数据集查看器支持大规模数据集，但根据数据格式，它可能只显示数据集的前 5GB。

对于 Parquet 数据集：数据集查看器显示完整数据集，但排序、过滤和搜索仅在最初的 5GB 上启用。
对于其他格式（例如 WebDataset 或 JSON Lines）大于 5GB 的数据集：数据集查看器仅显示最初的 5GB，并且排序、过滤和搜索在此最初的 5GB 上启用。

在这种情况下，会有一条信息消息告知您查看器是部分的。这应该是一个足够大的样本，可以准确地代表整个数据集，如果您需要更大的样本，请告诉我们。

访问 Parquet 文件

为了支持数据集查看器，每个数据集的前 5GB 会自动转换为 Parquet 格式（除非它已经是 Parquet 数据集）。在数据集查看器中（例如，参见 GLUE），您可以单击 “自动转换为 Parquet” 来访问 Parquet 文件。请参阅数据集查看器文档，了解如何使用 Polars、Pandas 或 DuckDB 等库查询数据集 Parquet 文件。

Parquet 是一种面向列的存储格式，针对查询和处理大型数据集进行了优化。Parquet 是大数据处理和分析的流行选择，广泛用于数据处理和机器学习。您可以在文档中了解与此格式相关的更多优点。

转换机器人

当您创建新数据集时，`parquet-converter` 机器人会在将数据集转换为 Parquet 后通知您。它在仓库中打开的讨论提供了有关 Parquet 格式的详细信息以及指向 Parquet 文件的链接。

编程访问

您还可以使用 Hub API 以编程方式访问 Parquet 文件列表；例如，端点 `https://huggingface.co/api/datasets/nyu-mll/glue/parquet` 列出了 `nyu-mll/glue` 数据集的 Parquet 文件。

我们还有关于数据集查看器 API 的特定文档，您可以直接调用它。该 API 允许您访问所有 Hugging Face Hub 数据集的内容、元数据和基本统计信息，并为数据集查看器前端提供支持。

数据集预览

对于最大的数据集，页面会显示前 100 行的预览，而不是功能齐全的查看器。此限制仅适用于大于 5GB 且非原生 Parquet 格式或未自动转换为 Parquet 的数据集。

在网页中嵌入数据集查看器

您可以使用 iframe 将数据集查看器嵌入到您自己的网页中。要使用的 URL 是 `https://huggingface.co/datasets/<namespace>/<dataset-name>/embed/viewer`，其中 `<namespace>` 是数据集的所有者，`<dataset-name>` 是数据集的名称。您还可以传递其他参数，例如子集、拆分、筛选或选定行。

有关更多信息，请参阅我们的如何在网页中嵌入数据集查看器指南。

配置数据集查看器

为了使数据集查看器正常工作，请确保您的数据集采用受支持的格式和结构。您还可以选择使用 YAML 配置数据集。

对于私有数据集，数据集查看器对PRO 用户和企业 Hub 组织启用。

有关更多信息，请参阅我们的如何配置数据集查看器指南。

< > 在 GitHub 上更新