OpenRAIL: 迈向开放和负责任的AI许可框架

发布于2022年8月31日
在 GitHub 上更新

开放与负责任的AI许可证("OpenRAIL")是AI专属许可证,旨在开放AI构件的访问、使用和分发,同时要求对后者负责任地使用。OpenRAIL许可证可以像当前的开源软件许可证对代码和知识共享许可证对一般内容一样,成为开放和负责任机器学习的基石:一种广泛的社区许可工具。

近年来,机器学习和其他AI相关领域的进步蓬勃发展,部分归功于信息和通信技术(ICT)领域开源文化的普及,这种文化已经渗透到机器学习研发的动态中。尽管开放作为该领域创新的核心价值带来了诸多益处,但(近期不那么)近期与机器学习模型开发和使用相关的伦理和社会经济问题所引发的事件传递了一个明确的信息:开放性还不够。然而,封闭系统也不是答案,因为问题在公司私人AI开发过程的不透明性下依然存在。

开源许可证并非适用于所有情况

机器学习模型的访问、开发和使用深受开源许可方案的影响。例如,机器学习开发者在通过附加官方开源许可证或其他开放软件或内容许可证(如知识共享)来公开模型权重时,可能会口头上称之为“开源一个模型”。这就引出了一个问题:他们为什么要这样做?机器学习构件和源代码真的那么相似吗?从技术角度来看,它们是否共享足够多的特性,以至于为源代码设计的私人治理机制(例如开源许可证)也应该管理机器学习模型的开发和使用?

大多数当前的模型开发者似乎都这样认为,因为大多数公开发布的模型都带有开源许可证(例如Apache 2.0)。例如,请参阅Hugging Face的模型中心以及Muñoz Ferrandis & Duque Lizarralde (2022)

然而,经验证据也告诉我们,对开源和/或自由软件动态的僵化处理,以及对机器学习构件发布中“自由0”的公理式信仰,正在造成机器学习模型使用中的社会伦理扭曲(参见Widder 等人 (2022))。简单来说,开源许可证没有考虑模型作为不同于软件/源代码的构件的技术性质和能力,因此不适合促使机器学习模型更负责任地使用(例如开源定义的第6条标准),另请参见Widder 等人 (2022)Moran (2021)Contractor 等人 (2020)

如果致力于机器学习模型文档、透明度和道德使用的特定临时实践已经存在并日益完善(例如,模型卡片、评估基准),那么开放许可实践为何不应也适应机器学习模型所带来的特定能力和挑战呢?

同样的问题也出现在商业和政府的机器学习许可实践中。用Bowe & Martin (2022)的话来说:“Anduril Industries 的总法律顾问 Babak Siavoshy 问道,什么样的许可条款应该适用于一个为计算机视觉对象检测私下开发的AI算法,并将其用于军事目标识别或威胁评估?无论是商业软件许可还是标准的DFARS数据权利条款都不能充分回答这个问题,因为它们都不能适当保护开发者的利益,也不能使政府深入了解系统以负责任地部署它。

如果机器学习模型和软件/源代码确实是不同的构件,为什么前者要使用开源许可证发布呢?答案很简单,开源许可证已成为软件相关市场中在软件社区之间开放共享代码的实际标准。这种协作式软件开发的“开源”方法已经渗透并影响了人工智能的开发和许可实践,并带来了巨大的好处。开源和开放且负责任的人工智能许可证(“OpenRAIL”)很可能成为互补的倡议。

我们为什么不设计一套受开源等运动启发并以机器学习领域的实证方法为指导的许可机制呢? 事实上,有一套新的许可框架将成为开放和负责任的机器学习开发、使用和访问的载体:开放和负责任的人工智能许可证(OpenRAIL)。

许可范式的转变:OpenRAIL

RAIL 倡议采取并由 Hugging Face 支持的 OpenRAIL 方法,受到 BigScience、开源和知识共享等倡议的启发和影响。OpenRAIL 许可证的两个主要特点是:

  • 开放:这些许可证允许免费访问、灵活的下游使用和许可材料的再分发,以及其任何衍生品的再分发。

  • 负责任:OpenRAIL许可证包含一套针对已识别关键场景中AI构件使用的特定限制。基于使用的限制是根据对机器学习开发和使用限制的实证方法制定的,这种方法迫使人们在促进AI构件的广泛访问和使用与可能由公开许可AI构件的有害使用引起的潜在社会成本之间划清界限。因此,虽然用户可以从开放访问机器学习模型中受益,但将无法将模型用于指定的受限场景。

在开放式AI许可证中整合基于使用的限制条款,使得机器学习模型许可方能够更好地控制AI构件的使用,并增强了其执行能力,从而在模型被识别出滥用时,能够倡导对已发布AI构件的负责任使用。如果开放式AI许可证中不包含行为使用限制,那么许可方在公开其AI构件时,如何能够开始考虑与负责任使用相关的法律工具呢?OpenRAIL 和 RAIL 是实现伦理导向行为限制的第一步。

在考虑执行之前,基于使用的限制条款就可能对潜在用户滥用模型起到威慑作用(即,劝阻效应)。然而,仅仅存在基于使用的限制可能不足以确保已发布的AI构件不会发生潜在滥用。这就是为什么OpenRAIL要求后续重新分发和AI构件的衍生品也采纳基于使用的限制,以此来劝退AI构件衍生品的用户滥用后者。

Copyleft 风格的行为使用条款的效果在于,将原始许可方对其所许可构件负责任使用的愿望和信任传播开来。此外,行为使用条款的广泛采纳赋予了许可构件衍生版本后续分发者更好的使用控制能力。从社会角度来看,OpenRAIL 是巩固一种知情且尊重的人工智能构件共享文化的载体,这种文化承认其局限性以及模型许可方所持有的价值观。

OpenRAIL 可以像开源软件许可对于代码那样,成为优秀机器学习的基石

OpenRAIL 许可证的三个例子是最近发布的 BigScience OpenRAIL-M、StableDiffusion 的 CreativeML OpenRAIL-M,以及前两者的起源:BigSicence BLOOM RAIL v1.0(参见博客和常见问题解答 此处)。后者专门设计用于促进 BigScience 176B 参数模型 BLOOM(及相关检查点)的开放和负责任的访问和使用。该许可证在开放性和负责任的人工智能之间发挥作用,通过提出一套宽松的许可条款,并辅以基于使用的限制条款,其中根据大型语言模型(LLM)的潜在能力及其固有的风险和经过审查的局限性,设定了有限数量的受限制用途。RAIL 倡议所采取的 OpenRAIL 方法是 BigScience BLOOM RAIL v1.0 作为同类首个模型发布的结果,同时发布了其他具有行为使用条款的更受限制的模型,例如 OPT-175SEER

这些许可证是 BigScience 对许可领域中两个部分已解决的挑战的回应:(i) “模型”与“代码”是不同的事物;(ii) 模型的负责任使用。BigScience 更进一步,真正将许可证聚焦于特定场景和 BigScience 社区目标。事实上,所提出的解决方案在人工智能领域是全新的:BigScience 以一种使模型的负责任使用得以广泛传播(即促进负责任使用)的方式设计了许可证,因为模型的任何再分发或衍生品都必须遵守特定的基于使用的限制,同时在许可证的其余部分可以提出其他许可条款。

OpenRAIL 也与当前监管趋势保持一致,即针对人工智能系统的部署、使用和商业化提出特定行业的法规。随着人工智能法规(例如,欧盟人工智能法案;加拿大提案的人工智能与数据法案)的出现,受人工智能监管趋势和伦理关注启发的新的开放许可范式有可能在未来几年被大规模采用。不充分考虑其影响、使用和文档而开源一个模型,可能在新的人工智能监管趋势下引发担忧。因此,OpenRAIL 应被视为与当前人工智能监管趋势相协调并作为更广泛的人工智能治理工具体系一部分的工具,而不是唯一能够实现人工智能开放和负责任使用的解决方案。

开放许可 是人工智能创新的基石之一。许可证作为社会和法律机构,应得到妥善对待。它们不应被视为繁琐的法律技术机制,而应被视为人工智能社区之间的一种交流工具,通过共享关于许可构件如何使用的共同信息,将利益相关者聚集在一起。

让我们投资于一种健康的开放和负责任的人工智能许可文化,人工智能创新和未来的影响都取决于它,取决于我们所有人,取决于你。

作者:Carlos Muñoz Ferrandis

博客致谢:Yacine Jernite, Giada Pistilli, Irene Solaiman, Clementine Fourrier, Clément Délange

社区

注册登录 发表评论