宣布新的数据集搜索功能

发布日期:2024年7月8日
在 GitHub 上更新

AI和ML社区已在 Hugging Face数据集中心 上共享了超过18万个公共数据集。研究人员和工程师正在使用这些数据集执行各种任务,从训练LLM与用户聊天,到评估自动语音识别或计算机视觉系统。数据集的可发现性和可视化是让AI构建者找到、探索和转换数据集以适应其用例的关键挑战。

在Hugging Face,我们将数据集中心建设成为社区协作开放数据集的场所。因此,我们构建了数据集搜索和数据集查看器等工具,以及丰富的开源工具生态系统。今天,我们宣布四项新功能,这些功能将把中心的数据集搜索提升到一个新的水平。

按模态搜索

数据集的模态对应于数据集内的数据类型。例如,Hugging Face上最常见的数据类型是文本、图像、音频和表格数据。

我们发布了一组筛选器,允许您根据此列表中的一个或多个模态筛选数据集

  • 文本
  • 图像
  • 音频
  • 表格
  • 时间序列
  • 3D
  • 视频
  • 地理空间

例如,可以查找同时包含文本和图像数据的数据集

search by modality example

每个数据集的模态是根据文件内容和扩展名自动检测的。

按大小搜索

我们最近在界面中发布了一项新功能,用于显示每个数据集的行数

number of rows of each dataset

在此之后,现在可以通过指定最小和最大行数来按行数搜索数据集。这将允许您查找从小尺寸到最大尺寸的数据集(例如,用于预训练LLM的数据集)。

有关行数的信息适用于所有支持格式的数据集。即使对于元数据中未包含行数的最大数据集,总行数也会根据前5GB的内容准确估算。

例如,如果您正在查找Hugging Face上行数最多的数据集,您可以查找超过10B (1010) 行的数据集

biggest datasets

按格式搜索

相同的数据集可以存储在许多不同的格式中。例如,文本数据集通常采用Parquet或JSON Lines格式,但也可以是文本文件;图像数据集通常是单个图像目录,但也可以是WebDataset格式(一种基于TAR归档的格式)。

每种格式都有其优缺点。例如,Parquet提供嵌套数据支持(与CSV不同)、高效的筛选/分析和良好的压缩比,但访问特定行需要解码整个行组。另一个例子是WebDataset,它提供最高的数据流传输速度,但缺少一些元数据,例如每文件的行数,这通常是在多节点训练设置中有效分发数据所必需的。

因此,数据集格式表明了哪些用例是首选的,以及您是否需要重新格式化数据以满足您的需求。

您可以在这里看到WebDataset格式的数据集

webdatasets

按库搜索

有许多优秀的库和工具可以加载数据集并为训练做准备,例如Pandas、Dask或🤗 Datasets库。该中心允许您使用自己喜欢的工具,并筛选与任何库兼容的数据集,例如,您可以查找与Pandas兼容的数据集

pandas compatible datasets

数据集兼容性基于数据集格式和大小(例如,Dask可以加载大型JSON Lines数据集,而Pandas需要将整个数据集加载到内存中)。除此之外,我们还提供了代码片段,以便您在喜欢的工具中加载任何数据集

load fineweb-edu in dask

如果您希望您的库出现在支持的库列表中,请随时在huggingface.js上发起讨论!

组合筛选器

这四种新的数据集搜索工具可以与现有筛选器(如语言、任务和许可证)结合使用。通过将这些筛选器与文本搜索栏结合使用,您可以查找所需特定数据集

search for a webdataset of images of pdf

社区

注册登录 以评论