欧盟《人工智能法案》开源开发者指南
欧盟《人工智能法案》(EU AI Act),作为全球首部关于人工智能的综合性法规,现已正式生效。它将对我们开发和使用 AI 的方式产生影响,包括开源社区。如果你是一名正在应对这一新环境的开源开发者,你可能想知道这对你的项目意味着什么。本指南将重点围绕开源开发,为你解析该法规的关键点,清晰介绍这项法规,并引导你使用可能有助于合规的工具。
免责声明:本指南提供的信息仅供参考,不应被视为任何形式的法律建议。
内容摘要:《人工智能法案》可能适用于开源的 AI 系统和模型,具体规则取决于模型的类型及其发布方式。在大多数情况下,义务包括提供清晰的文档、在部署时添加工具以披露模型信息,以及遵守现有的版权和隐私规定。幸运的是,这些做法在开源领域已经很普遍,Hugging Face 提供了帮助你为合规做准备的工具,包括支持选择退出(opt-out)流程和个人数据脱敏的工具。欢迎查看模型卡片、数据集卡片、Gradio 水印、支持选择退出机制的工具和个人数据脱敏工具、许可证等!
欧盟《人工智能法案》是一项具有约束力的法规,旨在促进负责任的 AI。为此,它制定了一套与 AI 系统或模型可能带来的风险水平相匹配的规则,同时致力于保护开放研究和支持中小企业 (SMEs)。作为一名开源开发者,你工作的许多方面不会受到直接影响——尤其是如果你已经养成了记录系统和跟踪数据源的习惯。总的来说,你可以采取一些简单的步骤来为合规做准备。
该法规将在未来两年内逐步生效,其适用范围广泛,不仅限于欧盟内部。如果你是欧盟以外的开源开发者,但你的 AI 系统或模型在欧盟境内提供或对欧盟境内的人们产生影响,那么它们也受该法案的管辖。
🤗 适用范围
该法规在 AI 技术栈的不同层面发挥作用,这意味着如果你是提供者(包括开发者)、部署者、分发者等,以及你正在开发 AI 模型还是系统,你所承担的义务会有所不同。
模型:只有通用人工智能(GPAI)模型受到直接监管。GPAI 模型是指使用大量数据训练,展现出显著通用性,能执行广泛任务,并可用于系统和应用的模型。一个例子就是大型语言模型(LLM)。模型的修改或微调也需要遵守相关义务。 | 系统:能够根据输入进行推断的系统。这通常表现为一个传统的软件栈,它利用一个或多个 AI 模型与输入的数字表示进行连接。例如,与最终用户交互的聊天机器人,它利用了 LLM,或托管在 Hugging Face Spaces 上的 Gradio 应用。 |
---|
在《人工智能法案》中,规则的严格程度与 AI 系统或模型可能带来的风险水平成正比。对于所有 AI 系统,风险可分为:
- 不可接受的风险:侵犯人权的系统,例如从互联网或闭路电视录像中抓取面部图像的 AI 系统。这些系统被禁止,不得投放市场。
- 高风险:可能对人们的安全或基本权利产生不利影响的系统,例如涉及关键基础设施、基本服务、执法等领域的系统。这些系统在投放市场前需要遵循严格的合规步骤。
- 有限风险:与人直接互动并可能产生冒充、操控或欺骗风险的系统。这些系统需要满足透明度要求。大多数生成式 AI 模型可以被集成到属于这一类别的系统中。作为模型开发者,如果你的模型已经遵循了相关要求(例如提供充分的文档),那么它们将更容易、也更有可能被集成到 AI 系统中。
- 微小风险:大多数不构成上述风险的系统。它们只需遵守现有的法律法规,不受《人工智能法案》新增义务的约束。
对于通用人工智能(GPAI)模型,还有一个称为系统性风险的风险类别:指使用大量计算资源(目前定义为训练所需算力超过 10^25 FLOPs)或具有高影响力能力的 GPAI 模型。根据斯坦福大学的一项研究,截至 2024 年 8 月,基于 Epoch 的估算,只有来自七家开发商(Google、Meta、OpenAI、Mistral、NVIDIA、ByteDance、Inflection)的八个模型(Gemini 1.0 Ultra、Llama 3.1-405B、GPT-4、Mistral Large、Nemotron-4 340B、MegaScale、Inflection-2、Inflection-2.5)会达到训练算力至少为 10^25 FLOPs 的默认系统性风险标准。相关义务会因其是否开源而有所不同。
🤗 如何为合规做准备
本简短指南的重点是有限风险的 AI 系统和开源非系统性风险的 GPAI 模型,这应涵盖了 Hub 上公开的大部分内容。对于其他风险类别,请务必查阅可能适用的进一步义务。
针对有限风险 AI 系统
有限风险的 AI 系统与人(最终用户)直接互动,可能产生冒充、操控或欺骗的风险。例如,生成文本的聊天机器人或文本到图像的生成器——这些工具也可能被用于制作虚假信息材料或深度伪造内容 (deepfakes)。《人工智能法案》旨在通过帮助普通最终用户理解他们正在与 AI 系统互动来应对这些风险。目前,大多数 GPAI 模型不被认为具有系统性风险。对于有限风险的 AI 系统,无论其是否开源,都需遵守以下义务。
有限风险 AI 系统的开发者需要:
- 向用户披露他们正在与 AI 系统互动,除非这一点显而易见。请记住,最终用户可能不具备与专家相同的技术理解力,因此你应该以清晰、详尽的方式提供这些信息。
- 标记合成内容:AI 生成的内容(如音频、图像、视频、文本)必须以机器可读的格式清晰地标记为人工生成或操控。现有工具如 Gradio 的内置水印功能可以帮助你满足这些要求。
请注意,你不仅可能是 AI 系统的开发者,也可能是其“部署者”。AI 系统的部署者是指在其专业活动中使用 AI 系统的个人或公司。在这种情况下,你也需要遵守以下规定:
- 对于情感识别和生物识别系统:部署者必须告知个人这些系统的使用情况,并按照相关法规处理个人数据。
- 披露深度伪造和 AI 生成内容:部署者必须在使用 AI 生成内容时进行披露。当内容是艺术作品的一部分时,义务是在不影响体验的前提下披露存在生成或操控的内容。
上述信息需要使用清晰的语言提供,最迟在用户首次与 AI 系统互动或接触时提供。
负责实施《人工智能法案》的 AI 办公室将协助制定行为准则,提供检测和标记人工生成内容的指南。这些准则目前正由行业和民间社会共同起草,预计于 2025 年 5 月发布。相关义务将从 2026 年 8 月开始强制执行。
针对开源非系统性风险的通用 AI 模型
如果你正在开发不具有系统性风险的开源 GPAI 模型(例如 LLM),则以下义务适用。根据《人工智能法案》,开源意味着“软件和数据,包括模型,在自由和开源许可证下发布,允许它们被公开共享,并且用户可以自由访问、使用、修改和重新分发它们或其修改版本”。开发者可以从 Hub 上的开源许可证列表中选择。请检查所选许可证是否符合《人工智能法案》对开源的定义。
对于非系统性风险的开源 GPAI 模型,义务如下:
- 根据 AI 办公室提供的模板,起草并提供一份关于用于训练 GPAI 模型内容的足够详细的摘要。
- 内容的详细程度仍在讨论中,但应相对全面。
- 实施一项政策以遵守欧盟关于版权及相关权利的法律,特别是遵守选择退出(opt-outs)的规定。开发者需要确保他们有权使用受版权保护的材料,这可以通过获得权利持有人的授权或适用版权例外和限制来获得。其中一个例外是文本和数据挖掘(TDM)例外,这是一种在此背景下广泛用于检索和分析内容的技术。然而,当权利持有人明确表示保留其作品用于这些目的的权利时——这被称为“选择退出”——TDM 例外通常不适用。在制定遵守《欧盟版权指令》的政策时,应尊重这些选择退出,并限制或禁止使用受保护的材料。换句话说,如果你尊重作者选择退出 AI 训练的决定,那么对受版权保护的材料进行训练并不违法。
- 尽管关于如何以技术方式(尤其是在机器可读格式中)表达选择退出仍存在一些悬而未决的问题,但尊重网站 robots.txt 文件中表达的信息以及利用像 Spawning 的 API 这样的工具是一个好的开始。
欧盟《人工智能法案》还与现有的版权和个人数据法规相联系,例如《版权指令》和《数据保护条例》。为此,请参考 Hugging Face 集成的工具,这些工具支持更好的选择退出机制和个人数据脱敏,并随时关注法国国家信息与自由委员会 (CNIL) 等欧洲和国家机构的建议。
Hugging Face 上的项目已经实现了理解和实施训练数据选择退出的形式,例如 BigCode 的Am I In The Stack 应用,以及为包含图像 URL 的数据集集成 Spawning 小部件。通过这些工具,创作者可以简单地选择不允许其受版权保护的材料用于 AI 训练。随着选择退出流程的不断发展,以帮助创作者有效告知公众他们不希望其内容被用于 AI 训练,这些工具在应对这些决定方面可以非常有效。
开发者可以依赖行为准则(目前正在制定中,预计于 2025 年 5 月前发布)来证明其遵守了这些义务。
如果你以不符合《人工智能法案》对开源标准的方式提供你的作品,则需遵守其他义务。
此外,请注意,如果某个 GPAI 模型满足构成系统性风险的条件,其开发者必须通知欧盟委员会。在通知过程中,开发者可以论证其模型由于特定特性而不构成系统性风险。委员会将审查每项论证,并根据论证是否充分、考虑到模型的具体特性和能力来接受或拒绝该主张。如果委员会拒绝开发者的论证,该 GPAI 模型将被指定为具有系统性风险,并需要遵守进一步的义务,例如提供关于模型的技术文档,包括其训练和测试过程以及评估结果。
针对 GPAI 模型的义务将从 2025 年 8 月开始强制执行。
🤗 参与其中
欧盟《人工智能法案》的许多实际应用仍在通过公众咨询和工作组进行制定,其结果将决定该法案中旨在为中小企业和研究人员提供更顺畅合规途径的条款如何具体实施。如果你有兴趣影响这一进程,现在是参与进来的好时机!
@misc{eu_ai_act_for_oss_developers,
author = {Bruna Trevelin and Lucie-Aimée Kaffee and Yacine Jernite},
title = {Open Source Developers Guide to the EU AI Act},
booktitle = {Hugging Face Blog},
year = {2024},
url = {},
doi = {}
}
感谢 Anna Tordjmann、Brigitte Tousignant、Chun Te Lee、Irene Solaiman、Clémentine Fourrier、Ann Huang、Benjamin Burtenshaw、Florent Daudens 的反馈、评论和建议。