宣布新的数据集搜索功能

发布日期：2024年7月8日

AI和ML社区已在 Hugging Face数据集中心上共享了超过18万个公共数据集。研究人员和工程师正在使用这些数据集执行各种任务，从训练LLM与用户聊天，到评估自动语音识别或计算机视觉系统。数据集的可发现性和可视化是让AI构建者找到、探索和转换数据集以适应其用例的关键挑战。

在Hugging Face，我们将数据集中心建设成为社区协作开放数据集的场所。因此，我们构建了数据集搜索和数据集查看器等工具，以及丰富的开源工具生态系统。今天，我们宣布四项新功能，这些功能将把中心的数据集搜索提升到一个新的水平。

按模态搜索

数据集的模态对应于数据集内的数据类型。例如，Hugging Face上最常见的数据类型是文本、图像、音频和表格数据。

我们发布了一组筛选器，允许您根据此列表中的一个或多个模态筛选数据集

每个数据集的模态是根据文件内容和扩展名自动检测的。

我们最近在界面中发布了一项新功能，用于显示每个数据集的行数

在此之后，现在可以通过指定最小和最大行数来按行数搜索数据集。这将允许您查找从小尺寸到最大尺寸的数据集（例如，用于预训练LLM的数据集）。

有关行数的信息适用于所有支持格式的数据集。即使对于元数据中未包含行数的最大数据集，总行数也会根据前5GB的内容准确估算。

例如，如果您正在查找Hugging Face上行数最多的数据集，您可以查找超过10B (10¹⁰) 行的数据集

相同的数据集可以存储在许多不同的格式中。例如，文本数据集通常采用Parquet或JSON Lines格式，但也可以是文本文件；图像数据集通常是单个图像目录，但也可以是WebDataset格式（一种基于TAR归档的格式）。

每种格式都有其优缺点。例如，Parquet提供嵌套数据支持（与CSV不同）、高效的筛选/分析和良好的压缩比，但访问特定行需要解码整个行组。另一个例子是WebDataset，它提供最高的数据流传输速度，但缺少一些元数据，例如每文件的行数，这通常是在多节点训练设置中有效分发数据所必需的。

因此，数据集格式表明了哪些用例是首选的，以及您是否需要重新格式化数据以满足您的需求。

有许多优秀的库和工具可以加载数据集并为训练做准备，例如Pandas、Dask或🤗 Datasets库。该中心允许您使用自己喜欢的工具，并筛选与任何库兼容的数据集，例如，您可以查找与Pandas兼容的数据集

数据集兼容性基于数据集格式和大小（例如，Dask可以加载大型JSON Lines数据集，而Pandas需要将整个数据集加载到内存中）。除此之外，我们还提供了代码片段，以便您在喜欢的工具中加载任何数据集

如果您希望您的库出现在支持的库列表中，请随时在huggingface.js上发起讨论！

这四种新的数据集搜索工具可以与现有筛选器（如语言、任务和许可证）结合使用。通过将这些筛选器与文本搜索栏结合使用，您可以查找所需特定数据集

更多博客文章

作者： 2025年8月8日 • 26

作者： 2025年7月25日 • 54

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以评论