🇪🇺 欧盟《人工智能法案》:对第三版实践准则草案的评论 🇪🇺

社区文章 发布于 2025 年 3 月 13 日

昨天,欧盟通用人工智能(GPAI)开发者实践准则的第三版草案发布了。这是一段漫长的旅程,所有主席都付出了令人惊叹的努力,而且还有很长的路要走!因此,让我们回顾一下草案的当前状态、最新进展,并从Hugging Face的角度来看:它在人工智能系统的开放和协作开发及治理方面是如何发展的!

简而言之:一些有前景的更新,但选择将两类最具问题的系统性风险写入法律,同时整体降低透明度要求,这令各类利益相关者(包括但不限于开发者)中的小型参与者感到担忧,似乎与实践准则旨在保持前瞻性并支持通用人工智能系统负责任开发和使用的雄心背道而驰。

具有系统性风险的通用人工智能模型(GPAISR)

系统性风险部分的大部分更新都朝着积极的方向取得了实质性进展。我们特别赞赏为提高发布决策流程透明度(措施 II.1.2,关于风险接受标准)、定义具有强科学依据的证据标准(包括考虑过去的事件)(措施 II.4.1)、避免派生模型工作重复(II.4.2),以及更关注独立于模型的信息(认识到广泛设计决策,尤其是训练数据,在塑造风险中的作用)(II.4.3)所做的努力。关于如何尽最大努力评估作为系统一部分的模型(充分考虑中小企业的能力,并指出人工智能办公室的支持作用)的指导增加也很有帮助(II.4.7)。最重要的是,附录 2 的引入为实践准则的定期更新铺平了道路。我们认为这一过程至关重要,因为它应允许公司关注更紧迫的风险,而不是试图预测未来几年技术状况,而届时算法、部署、硬件和全球数据流可能会发生重大变化。

不幸的是,附录 1.1 中选定的系统性风险类型,我们在第一版草案中就已经表达了担忧,它**仍然是一个根本性问题**,并将把小型参与者和研究人员排除在技术开发之外。当前版本要求开发者系统性地评估与网络攻击、化学、生物、放射和核(CBRN)武器、"有害操纵"和"失控"相关的风险。在这四种风险中,网络攻击是迄今为止最具体的,对应于可以衡量和缓解的系统性风险,并有具体的、合理可信的危害场景来指导两者。虽然这样做的成本最初可能会给小型开发者带来障碍,但我们从经验中得知,协作和专注的效率努力可以使这些成本降至可控水平。相比之下,此时将其他三种风险纳入选定风险对开放开发者来说是一个不可能的挑战。根据最近一项关于生物风险的研究:“当前的LLMs和BTs不构成直接风险,需要做更多的工作来开发严谨的方法来理解未来的模型如何增加生物风险”。对于“有害操纵”,目前不仅没有令人信服的证据表明最先进的模型性能在平台促成的虚假信息等现象中发挥主要作用,而且“有害”和“操纵”的定义目前也留给了开发者自行决定;他们的商业利益有时可能与公众健康相悖。最后,“失控”的定义,据我们所知,仍然更接近科幻场景,而不是任何程度可信的危害。[1] 实际上,这意味着**无法证明对这些风险进行了有意义的尽职调查**,因为缺乏既定的科学共识。虽然资源充足且开发和评估实践不透明的开发者可能能够产出与描述这些风险的高度概括性担忧在主题上有所关联的结果,但需要依赖协作和科学基础方法的较小型和开放开发者则无法做到。[2]

FAQ中提出的一个论点,旨在缓解这些要求对开放和协作开发负面影响的担忧,是期望GPAISR分类只适用于“5-15家公司”,旨在为可能资源较少的新参与者提供更轻松的流程。我们不认同这一观点,因为我们越来越多地看到规模较小、更专注的团队开发出具有最先进性能的系统,包括利用开放构件并专注于开发堆栈的不同部分;虽然我们欢迎对小型参与者采取相称要求的提法,但我们注意到当前文本中“相称”一词主要指风险,而非开发者类型。这引发了对技术进一步集中的风险以及其治理可持续性的担忧。这些开放系统不仅支持更广泛的创新和经济影响(正如开源软件所充分证明的那样),其中更透明的系统还在实现稳健和可验证的研究方面发挥着重要作用,包括对本文档中正在考虑的风险本身进行研究。

措施 II.4.10 中不鼓励共享评估和相关研究数据,尽管 II.4.5 中提出的序言声明了其重要性,这也是一个令人失望的转变。与明确鼓励非中小企业共享此类信息的上一版草案相比,此版本有所倒退。强有力的、开放的评估结果和数据交流在改善整个领域的安全性并促进健全的评估生态系统方面发挥着不可或缺的作用;对于解决上述关于定义超出既定科学共识的风险的担忧尤其关键。

透明度和版权

与上一版准则相比,总体透明度承诺也严重缩减。对于没有系统性风险的开源模型,我们曾认为某些要求是多余的,同时可能增加额外的行政负担,这一担忧在本草案中通过豁免其使用建议格式而得到解决。对于不符合此豁免条件的通用人工智能模型,其训练数据构成信息不再需要披露给下游提供商。这种披露对于例如在不担心数据污染的情况下评估新环境中的系统,或者对于确实希望记录其训练数据但可能担心在没有公平竞争环境的情况下受到不适当法律审查的通用人工智能开发者来说,原本是很有价值的;幸运的是,这些信息仍可以通过人工智能办公室目前正在开发的“足够详细的训练数据摘要”模板来提供。然而,更令人担忧的是,能源信息、处理个人或禁止数据所采取的措施以及具体评估的披露——所有这些都有助于下游提供商了解模型在哪些设置下可以安全部署以及需要应用哪些额外的评估或风险缓解策略——已被限制为仅向国家主管机关披露。总的来说,即使在已经很狭窄的透明度类别范围内,对公开披露做出更强有力的承诺,将更有利于支持公共安全和治理、创新以及公平竞争。

另一方面,版权措施似乎正朝着更有前景的方向发展,提供了一些关于如何技术实施的有用指示。我们特别赞赏措施1.2.2和1.2.3-(1)(b)指向欧盟预计资源和流程,以定义何为广泛接受的退出机制。小型开发者将从清晰的指导方针和要求中显著受益,这些指导方针和要求无需大量法律资源支持,也无需不当的非自愿违规风险,即可遵循。尽管如此,本节的某些方面仍给开放开发者带来了不成比例的负担。起草一份版权政策以“遵守欧盟版权和相关权利法”对于选择发布跨越不同司法管辖区的开放式用途作品的组织来说,提出了独特的挑战。相称性方面也不如第二版清晰。虽然上一版草案明确包含了中小企业豁免,但此版本未能充分明确中小企业何时何地可以豁免,使它们处于不稳定的法律地位。

总的来说,这项提案的平衡与各章节所涉及主题的影响和成熟度不符。透明度和版权问题是即时且重要的,可以根据我们当前对人工智能技术的理解进行有意义的塑造。它们的影响将是广泛的,不仅影响大多数模型,还将塑造主要开发者的实践,其中许多开发者已经提供他们不归类为“前沿”的模型,而且很可能不会被归类为GPAISR。这些领域是清晰、可执行的承诺能够产生最重要社会影响的地方;然而,它们在最新草案中似乎被严重降级,我们强烈希望在下一版中能得到纠正。


[1] FAQ中引用的支持这些担忧的工作主要由商业实体开发,这些实体的成功取决于模型的感知性能,其框架显示出强烈的人形化偏见,并且鉴于测试系统缺乏透明度,特别是在训练数据方面,其价值充其量也只能被理解为微不足道。

[2] 然而请注意,如果下一版草案至少在两年后的下次审查之前,能将这些风险从选定的系统性风险类型(附录1.1)最低限度地移至“其他类型”列表(附录1.2),将解决其中一些问题,同时允许有特定顾虑的大型开发者继续投资于这项研究。

社区

我很感谢你们的努力,但这无法以任何积极的方式解释。欧盟《人工智能法案》对创新怀有敌意,并将导致欧盟国家的人工智能开发和创新出现显著且极可能永久性的放缓。我过去见过很多次尝试“与”失控的官僚“合作”并“驯服”他们,但结果总是很糟糕。

注册登录 发表评论