让 AI 的“开放性”范围更加清晰

社区文章 发布于2024年9月20日

AI 开放性的(非常)近期历史

谷歌上周高调发布了 Gemini 的演示,但除了与 Bard 的集成外,甚至无法进行测试。

Mistral AI 在推特上发布了其一个模型的磁力链接。没有大张旗鼓的宣传。没有新闻发布。任何具备良好 LLM 技能的人都可以下载、使用甚至微调该模型。对于开源爱好者来说,这比 Gemini 的发布要好得多。这种对神经网络预训练参数的访问性被称为开放权重。它允许用户使用该模型进行推理和微调。

毫无疑问,开放权重优于仅仅一个演示或对像 ChatGPT 这样的产品或 API 的访问。Mistral 的例子恰恰说明了,看似开源的东西,可能并非完全开源。The Register 上的一篇文章详细讨论了 Meta 的 Llama 2 尽管声称是开源的,但实际上并非完全开源。

其他模型则更加开放。BLOOM(BigScience 大型开放科学开放获取多语言语言模型)提供了完全可访问的源代码,并使用了负责任的训练数据,支持多种语言和文化。

我的主要论点是,每当 AI 模型发布供公众使用时,应该清楚地表达和理解该模型在开放性谱系中的位置,而不是将从冗长的许可协议中挖掘信息的负担强加给用户。作为一个实践社区,AI 应该更多地参与促成此事。

AI 开放性谱系

为了更容易理解开放性谱系的概念,让我们以软件开放性为例。开放性,或者说一个数字产品是“开放的”,通常被认为是二元的。是开放还是封闭。一个简单的例子是 Linux 是开放的,而 Windows 不是。OpenStreetMap 是开放的,而 Google Maps 不是。

开放性并非完全是二元的,它是一个谱系。通过开源软件的例子更容易理解,因为自由/开放/自由软件运动的历史为讨论数据、研究、科学等其他产品的开放性铺平了道路。软件可以是开源的,但其提供给用户的“自由度”仍然有所不同。

开源软件的自由度谱系可能如下所示

Freedom to modify source code and redistribute
Freedom to modify source code, but not to redistribute
Freedom to modify source code of core components, but additional features are proprietary
Freedom to view source code, but not to modify

这仅适用于被认为是开源的软件。一些免费增值软件可以免费使用,但源代码不可用,有时可能会被误认为是开源的。这种自由度只是我们讨论软件开放性的一个维度。还有其他维度需要考虑,例如:社区参与和治理、语言支持、文档、互操作性、商业参与等。

将相同的概念推断到 AI 的开放性,即使对于开放权重模型,以下(至少)最有可能保持封闭

Training dataset (with all potential bias and ethical issues, including legal compliance and copyright issues
Ethical guidelines and safety measures behind the creation of the model
Training code, methodology, hyperparameters, optimization techniques, post-training
Complete model architecture
Documentation
Objective evaluation following the norms of open, reproducible science
Organizational collaboration, governance
Finance, GPU, labor, and other resources necessary

为什么所有这些信息的开放性很重要?

主要是因为在使用 AI 之前我们应该能够信任它,就像在使用任何产品之前我们需要信任它一样。一些值得信赖的 AI 的例子可能包括:

Model architecture can be studied to make further developments. For example, the publication of the “Attention Is All You Need” paper with details on the attention mechanisms enabled much of the recent developments in Large Language Models.
An AI auditor can look at the training datasets and methodology to identify potential legal and ethical issues.
A startup developing an LLM-based app for their customers can understand potential security issues with the app and address those to save their customers from harm.
A lot of social bias and potential harm to underprivileged communities can be scrutinized so they can be avoided or remarkably mitigated.

然而,在所有关于开放性的讨论中,必须承认一定程度的隐私益处。可能影响利益相关者隐私或安全问题的信息,包括商标和版权问题,应保持私密。最终,这关乎找到合适的权衡,以最大限度地提高社会效益。

下一步是什么?

现在我们了解了开放性及其在 AI 中的重要性,以下是社区可以采取的一些行动。

我们应该制定一个框架来定义 AI 的开放性。

该框架涵盖了模型用户需要了解的所有信息。已经做出了一些努力。Sunil Ramlochan 区分了开源、开放权重和受限权重,并提出了一个简单的 AI 开放性框架。我们可以整合类似的努力,开发一个全面的 AI 开放性框架。

我们应该鼓励讨论 AI 模型/产品的开放性,而不仅仅是使用它们。

作为实践社区,AI 已经促成了对模型微调和基于其构建产品的讨论,推动了 AI 普及的极限。除此之外,我们也应该讨论开放性。开放性不仅是学术讨论的理想概念,也是可以促进或阻碍创新和有用性的模型属性。AI 创建者/公司在发布时应使开放性信息更易于访问。

创建者/公司不应将限制埋藏在许可协议中,而应以易懂的语言提供模型在开放性谱系中位置的信息,以帮助用户更容易理解可能性和限制,并有助于减少创建者执行条款的摩擦。

我们应该开发一个社区支持的索引来跟踪和讨论 AI 模型/产品的开放性。

排行榜最近在促进关于新发布模型性能的讨论方面非常有帮助。由于开放性比基准性能更具定性,因此可以设计一个索引,以定量或明确的定性术语表示模型在各个维度上的开放性。开放数据在使用索引评估开放性现状并找出改进领域方面有着悠久的历史。开放知识基金会的开放数据索引和万维网基金会的开放数据晴雨表可以作为 AI 模型开放性索引的良好参考。它可以在一个拥有良好社区支持的平台上托管,例如 HuggingFace。[我曾作为尼泊尔的国家评审员参与了开放数据索引和开放数据晴雨表项目。] 斯坦福大学最近推出了基础模型透明度指数,该指数对10个大型基础模型的开放性进行了评级。该项目可以为更积极、由社区管理的模型开放性评估和发布后比较项目提供经验。

我们应该增加社区参与 AI 模型许可的开发。

类似于知识共享许可协议使内容(文本、图像等)许可变得更容易,我们需要各种适合 AI 模型的、具有大量社区参与的许可。OpenRAIL 项目是一个值得注意的倡议,它已经取得了很好的开端,但仍然感觉小众。关于许可的讨论需要更加主流,为此我们需要更大的社区参与。作为十多年来一直参与开放数据、开源软件和 OpenStreetMap 社区的人,我深知活跃的社区支持对于使开放项目更广泛地普及是必不可少的。

总结

对 AI 研究的开放获取、公开可用的神经网络架构、开放权重以及大型科技公司对各种形式开源的普遍支持,使我们得以将强大的 AI 更广泛地普及。对溯源信息和来源的开放性,以及由此带来的自由,将有助于使 AI 的未来更加值得信赖。

社区

注册登录 发表评论