Hub 上的报告:开放源人工智能开发中自治的初步探索

社区文章 发布于 2024 年 6 月 12 日

Hugging Face 作为最广泛使用的开源 AI 模型平台,拥有独特的地位。与许多开源项目一样,社区的宝贵贡献之一是维护。在 Hugging Face,这项工作包括报告模型和数据集的问题、向上传者澄清问题以及帮助解决这些讨论。

在开源软件开发中,“只要有足够多的眼睛,所有 bug 都显而易见”。在 Hugging Face 和开源模型开发中,只要有足够多的眼睛,ML 模型就能变得更好,适应不同社区的需求,并减少意外错误的发生。

通过查看社区创建的报告,我们发现了关于 Hugging Face 社区自治的有趣见解。虽然报告是讨论和拉取请求的子集,但它们侧重于非技术问题,即模型正常工作,但报告可能侧重于道德、法律或其他问题。

数据集的报告界面。这会创建一个公开报告,可以在社区选项卡中找到。
报告在那里用 🚩 报告标记,它们是讨论和拉取请求的子集。

以社区为中心,社区选项卡与数据集/模型文档和文件并存。

Hub 的许多部分都可以通过 API 访问,包括社区选项卡上的讨论和报告。对于 Hub 上报告的这项初步调查,列出了所有模型和数据集仓库,并通过 🚩 报告标记过滤讨论,以查找社区打开的所有报告。这些信息是公开可访问的,并为进一步调查社区治理、互动和自组织奠定了基础。目前,模型和数据集共有 565 个报告(包括开放和已关闭)。鉴于大量公共模型和数据集仓库(本报告中为 774,384 个),报告数量相对较低。

在有关模型仓库的报告中,在所有打开、评论和贡献这些报告的用户中,只有 4% 的用户拥有 Hugging Face 关联,即,96% 与模型报告交互的用户都是更广泛社区的一部分

在 436 个(模型仓库)和 129 个(数据集仓库)报告中,大多数报告由 Hugging Face 社区成员(即非员工)关闭,表明社区共同努力。许多报告不需要 Hugging Face 干预;它们由仓库所有者(即上传模型或数据集的人)或 Hugging Face 社区的其他成员处理和解决。

模型和数据集仓库中谁关闭报告的概述。两种仓库类型中的大多数报告都由社区成员而非 Hugging Face 员工关闭。

社区自行关闭的报告主题各不相同,展示了活跃的开源 ML 社区产生的广泛讨论主题。

社区关闭的报告主题,已移除描述过短(< 3 个单词)或隐藏的报告。

社区利用平台技术能力的一个很好的例子是NFAA 标签。Hugging Face 致力于支持模型和数据集创建者广泛而清晰地记录其模型和数据集,包括添加不适合所有受众 (NFAA) 内容的标签。当这些标签缺失时,社区成员会互相指出(来自报告:“不适合所有受众;请添加 NFAA 仓库标签”),模型所有者会迅速采纳建议(对同一报告的回复:“抱歉,已添加”)。

与许多开源项目一样,有少数主导者承担了大部分维护工作,而有许多一次性贡献者,这确保了从不同角度的宏观视角[Osborne 等人,2024]。在下面的用户网络图中,这种现象可以很好地理解;只交互一次的用户是指只在一个问题上交互的用户,而有一些用户集群交互更频繁(以及一些涉及多个用户的讨论集群)。

评论相同问题的用户网络,其中橙色是 Hugging Face 关联用户,浅蓝色是其他用户。

随着社区的发展,自治对于维持一个充满活力的机器学习创新环境和确保听到多元声音至关重要。目前 Hub 上的自治轨迹充满希望,并为开源机器学习的未来带来了激动人心的潜力。

社区

注册登录以评论