🇪🇺✍️ 欧盟《人工智能法案》:初版行为准则草案评论中的系统性风险 ✍️🇪🇺

社群文章 发布于2024年12月12日

在我们探索不断演变的人工智能治理格局时,行为准则初稿在促进人工智能系统的透明度、问责制和安全部署方面迈出了重要一步。这份自愿性准则基于欧盟《人工智能法案》中概述的要求,旨在指导通用人工智能的负责任开发和使用。

作为人工智能模型、系统和数据集共享与协作的领先平台,Hugging Face 汇集了参与人工智能技术开发的多元化社群,从大型组织到中小企业、开源贡献者、技术用户和独立研究人员。通过参与行为准则的起草过程,我们旨在支持这些广泛的利益相关者,确保要求能够兼顾他们的不同需求,并促使更广泛地参与人工智能的塑造。为此,我们公开分享了对行为准则初稿的评论,以邀请讨论并支持该过程的透明度。您可以在此处找到完整的评论。

在这篇博客文章中,我们对这些评论进行了高层总结,并进一步阐述了系统性风险的概念,因为我们发现目前过度强调一些大型开发者提出的远程和投机性风险的定义,排斥了小型实体和外部利益相关者,并且不太可能有效防止损害。

关于一般透明度要求

人工智能办公室和下游提供商的透明度要求(措施1和2)总体上方向正确。足够透明和详细的文档、可追溯性以及准确呈现模型性能和局限性是负责任和安全部署技术的基础;包括模型一般架构和运行成本、训练数据组成以及基于可复现性和跨系统比较能力等科学原则的性能评估的基本信息。

我们提出了一些建议,以提高拟议措施的有效性。首先,由于目前仅向人工智能办公室披露的几类信息与下游提供商和外部利益相关者都直接相关,后续草案应将更多信息导向后者,包括鼓励提供面向公众的文档。此外,某些特定类别中的措辞可以进行调整,以更好地适应开放和协作的开发环境,并提出朝这个方向的建议。

关于版权相关要求

与版权相关的要求(措施3、4和5)总体上也朝着有希望的方向发展。子措施强调透明度,并通过不同类别利益相关者之间的协作来趋同标准和良好实践,这一点尤其值得欢迎。文本与数据挖掘(TDM)权利保留和版权相关投诉处理流程的分散化将带来普遍的损害;这不仅会阻碍人工智能系统的开放和协作开发,使得善意的小型参与者更难获取所需的工具和标准,还会损害个体版权所有者,他们将不得不应对一个复杂且难以理解的爬虫生态系统以及与各个通用人工智能开发者的关系。

然而,我们确实对该类别中的某些具体子措施存在担忧。子措施3.1要求开发者建立并实施版权政策。我们评估认为,这可能导致更多的碎片化,并排除开放和协作的人工智能系统开发者以及人工智能组件和数据集的开发者,因为他们比大型综合开发者更难承担合规成本,并且必须应对更多的用例。我们建议改为侧重于提供通用指南,说明在开发的不同阶段,何种版权政策是可接受的。我们还对与开放数据集的使用或开发在组织上不兼容的要求表示担忧,开放数据集在赋能小型参与者开发和提供所需清晰度以制定有益于所有利益相关者的知情版权实践方面都发挥着重要作用。此外,对于透明度要求和版权透明度措施(措施1、2和5),它们之间以及与“足够详细的训练数据摘要”模板的关系应予以澄清。

关于系统性风险的拟议分类

我们对当前草案的主要担忧在于措施6中提出的系统性风险分类。目前,该分类的总体侧重忽视了许多更可能出现的风险,而偏向于一小部分包含远程和不太可能发生的危害,这使得合作制定基于证据的解决方案来解决更紧迫的问题变得异常困难;因此对小型参与者和分布式开发者尤其不利。特别是,该分类几乎完全忽视了通用人工智能系统可能造成的系统性损害的主要载体:随着它们日益成为普遍的数字基础设施,“无意中”因不成熟或不适当的商业部署造成的损害正以空前的规模增长,变得更加令人担忧。

这种侧重对小型开发者和外部利益相关者都是不利的。一方面,开发者目前关注的损害类别与更可能影响技术开发链之外的利益相关者的损害类别之间缺乏科学共识或证据基础来指导共同努力,这使得中小型开发者更难依赖开放或协作解决方案来开发有效的风险缓解措施;而大型开发者更有可能将资源投入到更依赖绩效而非结果的合规要求上。另一方面,由于将大量精力投入到这些类别中,那些更基于近期证据的系统性风险缓解措施可能会资源不足,或者被完全脱离模型层面的、与上下文无关的方法不当处理。

在行为准则制定仍处于(相对)早期阶段,我们建议退后一步,充分重新考虑如何制定可持续有效的通用人工智能使用系统性风险缓解方法,优先考虑当前草案中促进透明度和基于证据的协作的要素。

当前分类体系缺少什么?

《人工智能法案》中的系统性风险被宽泛地定义为对公共健康、安全、整个社会或整个活动领域或社区因“高影响能力”而产生的风险。第110条特别提到了与“重大事故”或“关键部门中断”相关的风险,以及对民主进程和信息生态系统的影响。这让人联想到最近因CrowdStrike故障导致的全球性中断,或对欧盟公民获取基本服务等方面的重大威胁。这些风险类别源于“高影响能力”;即,那些被宣传为能够为关键系统生成安全软件代码,或能够充分总结个人全部历史和法律背景以分配失业金或其他福利的系统。这些系统得到了跨技术和社会科学领域的足够实质性证据支持,使其成为一个重要且紧迫的关注点。它们还可以通过设计选择模型在不同能力类别下的性能和局限性的稳健和透明文档,以及下游开发者足够的访问权限以支持情境内评估和缓解方法,由行为准则的签署方进行个体和协作缓解。

相比之下,拟议的分类——目前是一个没有进一步结构的列表——反映了对系统性风险和通用人工智能开发者在缓解这些风险中的作用的不同看法。在分类的六个类别中,有三个主要依赖于恶意用户利用模型特性(有时被称为“危险”而非“高影响”能力)的隐含模型。其中包括对CBRN(化学、生物、放射和核)风险的贡献——尽管最近的研究表明它们仍是遥远的担忧——以及大规模的“劝说和操纵”现象——尽管这些现象过于依赖情境,无法在模型层面进行有意义的评估或缓解。列表中有一个类别涵盖了“失控”——一个目前没有明确定义或威胁模型的投机性概念。关于“人工智能在研究中的自动使用”这一项本身并非风险甚至危害,充其量可被视为其他风险的风险因素。另外两个类别,网络攻击和大规模歧视,更植根于特定的损害模型;但仍对它们如何与可测量的模型特征相关联提出重大疑问,尤其是在特定部署情境之外。总的来说,这份初始列表充其量只是对该技术可能带来的风险的狭隘覆盖,最坏的情况是它是一个(部分)误导,旨在将重要的风险缓解努力引向建立在不适当基础上的工作。

在行为准则起草过程中,理解这些类别吸引力并不难,因为其任务是围绕开发者可能同意的措施达成共识:鉴于一些大型通用人工智能开发者已经发布了声明,描述了他们专注于这些主题的安全策略或准备框架,可以合理地假设他们更愿意继续优先考虑这些方面,而不是其他外部定义的类别。但是,采用这种方法会给除少数最大开发者之外的大多数相关方以及行为准则的科学基础带来代价。首先,开发者当前关注的损害类别与更可能影响技术开发链之外的利益相关者的损害类别之间存在脱节,这可能使制定过程对后者的声音不够包容,因为他们必须更努力地争取自己的关切得到认可。其次,关注那些由少数开发者选择、构建、操作和衡量,且缺乏外部审查或科学共识的类别——通常通过与实际当前条件几乎不符的复杂场景实现——对过程的完整性构成了风险,因为缺乏透明度、明确的合理危害机制或可证伪的主张,阻碍了不同优先级的利益相关者之间的知情讨论或观点交锋。

通用人工智能开发者行为准则中的系统性风险分类面临着一个严峻的挑战:它需要提供方向,以最有效的方式制定一套广泛的策略,帮助减轻潜在的大规模损害,同时又不会导致开发者觉得难以管理或过分繁重的要求。虽然将分类的初始版本基于一些开发者已表现出愿意讨论的风险类别,可能看起来是实现这些目标的一种有希望的策略,但其有效性受到迄今为止在定义这些风险方面缺乏科学共识或足够广泛的外部参与的限制。

行为准则如何向前推进?

通过侧重于支持独立第三方进行风险和风险缓解研究,通用人工智能开发者欧盟《人工智能法案》行为准则中的系统性风险分类可以在较低的实施成本下取得更大的进展。这种方法将开发者的主要角色视为透明、及时、可靠信息的提供者,以支持这项研究,并作为技术专家,负责在其各自的技术背景下调整和实施研究的普遍发现。基于共识的协作式风险缓解方法可以覆盖更广泛的案例,通过避免重复工作来降低开发风险缓解策略的成本,有助于平衡大型参与者和需要更多依赖开放协作研究的中小型参与者之间的竞争环境,并促进更优先处理更可能发生的系统性风险。它们还可以比内部开发更快地带来有效解决方案,同时利用更多相关的专业知识——只要及时共享足够的设计决策信息和模型属性早期信息,这应该是签署方承诺的重点。行为准则可以朝着更好地支持这种方法的方向发展,通过在下一个草案中侧重于以下几点:

过程:把马放回车前。 措施9和10中的一些子措施已经要求进行更扎实和经过科学验证的风险评估;不幸的是,这些评估受到围绕分类中当前概述类别的初始框架的阻碍。特别是,关于“模型无关证据”的子措施10.1应构成大多数系统性风险评估的基础,因为在大多数情况下,最有可能导致系统性风险的高影响能力是高层设计决策的产物,这些决策可以在不同模型实例之间讨论,而关于要包含哪些数据以及部署在何种情境中的选择通常比特定指标上的增量性能提升具有更强的影响。子措施9.1(方法论)、10.3(科学严谨性)、10.5(作为系统一部分的模型)、10.8(共享工具和最佳实践)以及10.9(共享结果)都同样说明了风险分类定义上游需要发生的事情。此外,为了使这些措施有效,风险评估和缓解研究需要由开发者组织外部指导和协调——例如,由拟议的人工智能办公室科学小组——以确保获得适当的专业知识并最大限度地减少利益冲突。开发者通过进行必要的大量工作来向合法方提供必要的信息,可以发挥重要作用。将这一努力导向满足足够的证据标准,以支持系统性风险评估和缓解的框架和范围界定——而不是导向在孤立和不稳定的基础上构建不确定价值的系统和人员安全及完整性缓解措施——将确保《人工智能法案》的实施确实具有前瞻性,并为其实现目标提供最佳机会。

框架:更好地平衡类别以支持不同的风险缓解方法。 在上述协作方法中,系统性风险分类可以通过提供共享语言来讨论系统性风险的不同特征,以及将不同类型的风险与特定干预类别联系起来的词汇,从而最大程度地支持多方利益相关者对有效系统性风险的研究。例如,这样的分类可以涵盖:

  • 由于在关键设置中不当部署人工智能而产生的系统性风险
    • 示例: 因人工智能生成代码故障导致的CrowdStrike式全球中断,多个由人工智能支持的基础设施故障对特定群体造成的复合效应。
    • 研究: 支持针对人工智能系统形式化验证的研究,重点关注新的高影响能力。支持研究通用人工智能不同用途产生的复合偏见对歧视性结果的影响。
  • 因规模而引发的与信息安全问题相关的系统性风险
    • 示例: 个人数据被普遍使用,使得商业模型更容易受到军事ISTAR(情报、监视、目标获取和侦察)利用,以及剑桥分析公司式的数据泄露和虚假信息宣传活动风险增加。
    • 研究: 制定训练数据管理标准和技术,以最大限度地减少个人数据的使用;评估系统在跨模态推断个人数据的能力;评估聊天机器人部署设置中的高影响力功能如何导致用户在与部署者共享的对话中分享更多个人详细信息;制定人工智能系统在训练数据源和模型之间的可追溯性标准。
  • 滥用急剧升级而产生的系统性风险
    • 示例: 使黑客能够筛选数TB的信息,以更高效地识别并自动利用漏洞和泄露的秘密。
    • 研究: 开发性能基准,联合衡量模型在目标范围内用例和对抗性使用中的性能,以评估权衡。利用这些相同系统来警告身份或信息已泄露的个人。

与行为准则初稿中提供的列表相比,上述提案更侧重于基于相关领域的证据来概述潜在系统性风险的底层机制。这种以经核实的危害载体为基础,有助于确保更可能发生的危害得到适当优先处理,同时保持灵活性以应对潜在的新通用人工智能特定问题;而不会将更具投机性的危害作为主要关注点。它还概述了需要解决从训练数据管理到部署环境的整个技术栈中的风险,而不仅仅是通用人工智能模型层面的风险。

欧盟通用人工智能开发者行为准则的接下来三份草案任重道远,它们既要促进有意义的磋商,又要更有可能形成一份切实的成果,鼓励签署方高效地进行负责任的开发实践。系统性风险的界定仍然比行为准则其他关注领域更模糊,因此,其框架问题尤其具有挑战性。为了以更有可能减轻法案中概述的风险的方式解决这个问题,同时又不给小型开发者和外部利益相关者造成不当负担,行为准则应着眼于可持续性,侧重于建立科学依据的流程以支持协作研究,即使这意味着要偏离大型开发者迄今为止提出的一些优先事项。

致谢:这篇博客文章基于我们提交的与布鲁娜·特雷维林(Bruna Trevelin)合著的行为准则草案回复。

社区

注册登录 发表评论