使用 Nomic Atlas 探索、管理和向量搜索任何 Hugging Face 数据集

社区文章 发布于 2025 年 1 月 23 日

改进 AI 系统的最佳方法是探索和优化为其提供动力的数据。我们很高兴宣布 Nomic 正式推出 Hugging Face 数据集连接器。

AI 社区已将许多引人入胜的数据集上传到 Hugging Face,这些数据集由从事 AI 训练和评估的研究人员、开发人员和爱好者贡献。Nomic 的官方 Hugging Face 连接器让您只需点击几下即可导入、探索和管理 Hugging Face 中的任何这些数据集。这使得任何人都可以轻松查看这些数据集中的内容,从中创建嵌入,并以新的方式搜索和组织这些庞大而重要的数据集。

将 Hugging Face 数据集导入 Atlas

Atlas 中创建新数据集时,您可以选择 连接器 作为上传选项。

这将显示与 Atlas 数据上传管道直接集成的可用数据连接器列表。

image/png

这是一个视频,展示了如何使用集成直接连接 Hugging Face,从我们的一个示例数据集上传到 Atlas。

首先,选择要导入的数据集,可以点击我们推荐的示例数据集之一,或搜索 Hugging Face 上的任何数据集。

我们直接在 Atlas 上传页面加载 Hugging Face 的 数据集查看器 数据预览,以便您在上传前预览数据

接下来,需要从数据集中选择一个字段进行嵌入:这是数据集中用于确定数据如何在 Atlas 数据图中排列成语义相关聚类的列。我们会自动从您选择的数据集中选择最佳的嵌入字段,但您可以选择不同的字段。

然后,给数据集命名并添加可选描述。

最后,点击 创建数据集 - 就完成了!数据将被摄取到 Atlas 中,当您的数据图准备就绪时,您会收到一封电子邮件!

使用 Hugging Face 数据集连接器到 Nomic Atlas 能做什么?

使用 Atlas,您可以

• 在 数据图 中探索整个 Hugging Face 数据集。

• 从任何数据集 生成下载 嵌入。

• 使用 向量搜索主题建模 等强大工具分析数据集。

• 轻松 消除 Hugging Face 数据集中的重复数据。

• 通过标记数据协作并共享链接,实现多人协作。

以下是 Hugging Face 上可用的一些令人难以置信的公共数据集,您现在只需点击几下即可将其导入 Atlas 进行探索。

烂番茄电影评论

上面的视频展示了我们为 Atlas 准备 此数据集 的烂番茄电影评论。

一旦评论文本上传到 Atlas 并嵌入完成(这 5 万个点需要几分钟),探索此数据集的效果如下所示。

在此剪辑中,我们展示了对查询“这部电影本可以短得多”(因为,老实说,现在很多电影都可以短得多)执行向量搜索的效果。

然后,我们可以使用 Atlas UI 放大一个与我们的查询语义相关的评论集群!

美国公共领域报纸文章

此数据集是美国国会图书馆为《美国历史报纸》(Chronicling America)数字图书馆数字化的美国报纸档案样本,可在 Hugging Face 此处 获取。

截至 2024 年 1 月,该藏品包含近 2100 万份 1690 年至 1963 年出版的独特报纸和期刊!在这里,我们只探索 5 万行的一个子集

每个数据点的文本都是通过 OCR(光学字符识别)创建的。因此,报纸图像的扫描可能无法完美反映原始文章的文本——数据集中引入了一些错别字。

我们可以使用 Atlas 执行的聚类功能,轻松识别哪些点可能存在错别字,并在 Atlas 中使用标记

在这个片段中,我们正在放大 Atlas 标记为“住房”的聚类。仔细观察,我们可以看到每篇文章都来自报纸的分类广告版块,人们在那里刊登房屋和家用电器的出租或出售广告。

Atlas 根据每个文本中相似的语义内容将这些点分组在一起,即使其中一些点包含“Classified”的错别字。我们可以使用 OCR-typo 标签将它们标记出来,以便稍后进行数据清理。

OpenAssistant 对话

OpenAssistant 数据集 是由非营利组织 LAION 促成的一项大规模全球众包工作的成果,旨在 LLM 研究早期阶段(2023 年春季,相当于 AI 时代很久以前)收集并开源一个大型多语言数据集,用于微调聊天助手。您可以在 arXiv 上阅读他们的项目研究论文。

该数据集包含多种语言的对话,包括:英语、西班牙语、俄语、德语、中文、法语、泰语、葡萄牙语(巴西)、加泰罗尼亚语、韩语、乌克兰语、意大利语和日语!

因此,让我们选择一个多语言嵌入模型选项上传到 Atlas。这将使用阿里巴巴的 gte-multilingual-base 模型,为文本分配嵌入向量,该向量应该能够捕捉内容相似性,无论使用何种语言。

数据图准备就绪后,我们可以探索按语言分组的聊天对话,这些对话包含所有不同受支持语言中讨论相似概念的文本。

例如,我们可以对数学执行向量搜索,并找到一个包含英语、西班牙语、法语和俄语微积分讨论的聊天回复集群,它们都彼此靠近。

结论

Nomic Atlas 与 Hugging Face 的新集成让更多人只需点击几下即可从海量 AI 数据集中获得真正的价值。Atlas 使各种背景的用户能够轻松地在几分钟内完成重要的数据处理和分析工作流,例如

• 发现 Atlas 可视化聚类揭示的数据质量问题

• 通过语义去重和协同标记来管理数据

• 在数百万个点中搜索语义相关数据

• 无缝生成、探索和导出向量嵌入

• 与您的团队共享交互式数据图

前往 Atlas,注册一个免费帐户,亲自尝试 Hugging Face 集成。我们迫不及待地想看到您将发现的见解!

社区

MaxNomic @MaxNomic 和 rcl @rcl 干得真棒!

注册登录 以发表评论