数据共建,效果更佳:回顾与展望
发布于 2024 年 6 月 20 日
在 GitHub 上更新在过去的几个月里,我们一直致力于 Data Is Better Together 计划。通过 Hugging Face 和 Argilla 之间的合作以及开源机器学习社区的支持,我们的目标是赋能开源社区,共同创建有影响力的数据集。
现在,我们决定继续朝着同样的目标前进。为了概述我们取得的成就以及每个人都可以贡献的任务,我们将其分为两个部分:社区工作和 cookbook 工作。
社区工作
我们这项计划的第一步专注于 提示词排名 项目。我们的目标是创建一个包含 1 万个提示词的数据集,这些提示词包括合成生成和人工生成的,并按质量进行排名。社区的响应立竿见影!
- 几天之内,就有超过 385 人加入。
- 我们发布了 DIBT/10k_prompts_ranked 数据集,用于提示词排名任务或合成数据生成。
- 该数据集被用于构建新的模型,例如 SPIN。
看到来自全球社区的支持,我们认识到仅以英语为中心的数据是不够的,而且针对开放 LLM 的特定语言基准也不足。因此,我们创建了多语言提示词评估项目 (MPEP),旨在为多种语言开发一个排行榜。为此,我们从 DIBT/10k_prompts_ranked 中选取了 500 个高质量提示词的子集,并将其翻译成不同语言。
未来,我们将继续通过工具和文档支持社区专注于构建数据集的工作。
Cookbook 工作
作为 DIBT 的一部分,我们还创建了指南和工具,帮助社区自行构建有价值的数据集。
- 特定领域数据集:为了启动更多用于训练模型的特定领域数据集的创建,将工程师和领域专家聚集在一起。
- DPO/ORPO 数据集:为了帮助培养一个社区,为不同语言、领域和任务构建更多 DPO 风格的数据集。
- KTO 数据集:为了帮助社区创建自己的 KTO 数据集。
我们学到了什么?
- 社区渴望参与这些工作,并对共同致力于数据集感到兴奋。
- 为确保全面和包容的基准,必须克服现有的不平等。目前,某些语言、领域和任务的数据集在开源社区中的代表性不足。
- 我们拥有许多社区有效协作构建有价值数据集所需的工具。
你如何参与其中?
您仍然可以通过遵循您感兴趣项目的 README 中的说明,与社区分享您的数据集和结果,或者为每个人提供新的指南和工具,来为 cookbook 工作做出贡献。您的贡献对于帮助我们为所有人构建一个强大而全面的资源是无价的。
如果你想参与其中,请加入我们在 Hugging Face Discord 中的 #data-is-better-together
频道,告诉我们你想一起构建什么!
我们期待与您一起构建更好的数据集!