宣布新的数据集搜索功能
AI和ML社区已在 Hugging Face数据集中心 上共享了超过18万个公共数据集。研究人员和工程师正在使用这些数据集执行各种任务,从训练LLM与用户聊天,到评估自动语音识别或计算机视觉系统。数据集的可发现性和可视化是让AI构建者找到、探索和转换数据集以适应其用例的关键挑战。
在Hugging Face,我们将数据集中心建设成为社区协作开放数据集的场所。因此,我们构建了数据集搜索和数据集查看器等工具,以及丰富的开源工具生态系统。今天,我们宣布四项新功能,这些功能将把中心的数据集搜索提升到一个新的水平。
按模态搜索
数据集的模态对应于数据集内的数据类型。例如,Hugging Face上最常见的数据类型是文本、图像、音频和表格数据。
我们发布了一组筛选器,允许您根据此列表中的一个或多个模态筛选数据集
- 文本
- 图像
- 音频
- 表格
- 时间序列
- 3D
- 视频
- 地理空间
例如,可以查找同时包含文本和图像数据的数据集
每个数据集的模态是根据文件内容和扩展名自动检测的。
按大小搜索
我们最近在界面中发布了一项新功能,用于显示每个数据集的行数
在此之后,现在可以通过指定最小和最大行数来按行数搜索数据集。这将允许您查找从小尺寸到最大尺寸的数据集(例如,用于预训练LLM的数据集)。
有关行数的信息适用于所有支持格式的数据集。即使对于元数据中未包含行数的最大数据集,总行数也会根据前5GB的内容准确估算。
例如,如果您正在查找Hugging Face上行数最多的数据集,您可以查找超过10B (1010) 行的数据集
按格式搜索
相同的数据集可以存储在许多不同的格式中。例如,文本数据集通常采用Parquet或JSON Lines格式,但也可以是文本文件;图像数据集通常是单个图像目录,但也可以是WebDataset格式(一种基于TAR归档的格式)。
每种格式都有其优缺点。例如,Parquet提供嵌套数据支持(与CSV不同)、高效的筛选/分析和良好的压缩比,但访问特定行需要解码整个行组。另一个例子是WebDataset,它提供最高的数据流传输速度,但缺少一些元数据,例如每文件的行数,这通常是在多节点训练设置中有效分发数据所必需的。
因此,数据集格式表明了哪些用例是首选的,以及您是否需要重新格式化数据以满足您的需求。
您可以在这里看到WebDataset格式的数据集
按库搜索
有许多优秀的库和工具可以加载数据集并为训练做准备,例如Pandas、Dask或🤗 Datasets库。该中心允许您使用自己喜欢的工具,并筛选与任何库兼容的数据集,例如,您可以查找与Pandas兼容的数据集
数据集兼容性基于数据集格式和大小(例如,Dask可以加载大型JSON Lines数据集,而Pandas需要将整个数据集加载到内存中)。除此之外,我们还提供了代码片段,以便您在喜欢的工具中加载任何数据集
如果您希望您的库出现在支持的库列表中,请随时在huggingface.js上发起讨论!
组合筛选器
这四种新的数据集搜索工具可以与现有筛选器(如语言、任务和许可证)结合使用。通过将这些筛选器与文本搜索栏结合使用,您可以查找所需特定数据集