开源开发者需要了解的欧盟人工智能法案对通用人工智能模型(GPAI)的规定
简而言之:自2025年8月2日起,欧盟人工智能法案对通用人工智能(GPAI)模型的提供者施加了新的义务,对仅用于研究目的或根据自由和开源许可发布的模型提供全部或部分豁免。本指南旨在帮助人工智能开发者根据人工智能法案文本和操作守则、GPAI指南等文件,确定这些义务是否适用于其GPAI模型工作以及如何履行这些义务。
欧盟人工智能法案于2024年8月1日生效,引入了基于风险的规则,确定哪些AI系统和GPAI模型可以在欧盟市场销售和部署,以及如何销售和部署。该法案将分阶段实施至2027年8月,并且从2025年8月2日起,GPAI模型的提供者在将其模型投放欧盟市场时,必须遵守一系列义务,无论其是否在欧盟境内。在2025年8月2日之前投放欧盟市场的GPAI模型提供者,有到2027年8月2日的时间来遵守。
对开源社区来说的好消息是,人工智能法案旨在促进或自动化研究人员和开源开发者的合规性。许多从事科学目的GPAI模型开发的研究人员完全不在法案的范围内,非商业活动下的开发也是如此。对于确实在欧盟人工智能法案范围内的模型,根据自由和开源许可发布也使开发者免除了一些要求,特别是那些对于公开共享模型来说是多余或不切实际的要求。这些豁免旨在反映对开放开发价值和潜力的认可,同时仍确保问责制。然而,何时以及在何种程度上适用这些豁免可能难以确定。
本指南的主要目标是阐明这些问题,并为从事开放GPAI模型研究和开发的科研人员和开发者提供一个易于理解的入口。我们将引导您了解关键定义、义务以及开源豁免,以及开源提供者如何使用欧盟委员会的官方指南(如GPAI操作守则、GPAI指南和训练数据公开摘要模板)来遵守规定。如果您时间紧迫,我们甚至制作了一个互动应用程序,可以为您提供一个高层概览,欢迎试用!
您可以在此处找到此博客的Spaces版本。需要进一步的人工智能法案指南?我们还在Hugging Face和Linux基金会发布了针对开源开发者的通用指南。
用户旅程:您是否符合“GPAI模型提供者”的资格,如果有,哪些条款适用?
此应用程序可帮助开源开发者评估其GPAI模型项目是否符合AI法案规定的“GPAI模型提供者”资格,如果符合,则确定相关的义务。您可以在此处找到一个更大、独立的Hugging Face Space版本。
目录
了解GPAI模型提供者义务是否适用
什么是“GPAI模型”?
简而言之:AI法案中使用的“GPAI模型”一词大致相当于通常所说的“基础模型”。通常,如果一个模型在广泛任务上表现良好,能够生成文本或其他媒体,并且累积训练计算量达到或超过10^23 FLOPs,那么它很有可能被视为AI法案下的GPAI模型。
人工智能法案将通用人工智能(GPAI)模型分为两类:GPAI模型和具有系统风险的GPAI模型(GPAISR;见下一节)。GPAI模型在第3(63)条中定义为
GPAI指南明确指出,“模型被视为GPAI模型的指示性标准是其训练计算量大于10^23 FLOPs,**并且**能够生成语言(无论是文本还是音频)、文本到图像或文本到视频。”根据指南,该阈值对应于通常用于在大量数据上训练具有十亿参数的模型的大致计算量。该指南提供了在范围之内和范围之外的模型示例(参见表1)。
✅ GPAI模型示例 | ❌ 非GPAI模型示例 |
一个模型在 curated 和 scraped 自互联网及其他来源的广泛自然语言数据(即文本)上训练,使用10^24 FLOPs。 |
一个模型专门用于将语音转录为文本的任务,使用10^24 FLOPs。 一个模型专门用于下棋或视频游戏,使用10^24 FLOPs。 一个模型专门用于模拟天气模式或物理系统,使用10^24 FLOPs。 |
表1:符合或不符合GPAI模型条件的模型示例(来源:欧盟委员会,GPAI指南)
请注意,GPAI模型与AI法案中的“AI系统”不同——正如第3(1)条所定义。根据序言97,虽然GPAI模型是AI系统的基本组成部分,但它们本身并非AI系统。要成为AI系统,模型必须与附加组件(如用户界面或其他功能模块)结合,以实现交互和部署。根据您提供的是GPAI模型、AI系统还是两者兼而有之(例如,将您的GPAI集成到您的用户界面中),可能适用不同的法律义务。如果提供者同时提供GPAI模型和AI系统,则这些义务同时适用,并且适用于AI系统的义务将取决于AI系统可能产生的风险的强度和范围。这些额外义务不在本指南的讨论范围之内。
什么是“GPAISR模型”?
简而言之:具有系统风险的GPAI模型(GPAISR)与所谓的“前沿模型”大致相同;也就是说,它们是目前市场上最先进的GPAI模型。人工智能法案认为,如果一个模型符合其“高影响力能力”的定义,或其训练计算量超过10^25 FLOPs,则被视为GPAISR。
根据第51(1)条,如果一个GPAI模型符合以下两个条件之一,则被归类为具有系统风险:
- 它具有与最先进模型记录的能力相匹配或超越的“高影响力能力”,这些能力通过适当的技术工具、方法、指标和基准进行评估;
- 根据欧洲委员会的决定,其能力或影响力等同于人工智能法案文本中提供的一系列标准(在附录XIII中)所定义的高影响力能力,例如模型的规模、其在基准和评估中的表现,以及其在欧盟范围内的使用广度。
当用于训练的累积计算量超过10^25 FLOPs时,GPAI模型被*假定*具有高影响力能力——目前,这只会涵盖处于或接近人工智能发展前沿的模型,如GPT-4o、Grok 4或Mistral 2 Large。GPAI指南解释说,这个阈值对于识别此类高影响力能力至关重要。欧洲委员会可能会随着时间调整性能和计算阈值,以确保人工智能法案跟上最先进的技术水平。
虽然所有达到阈值的模型都必须通知欧洲委员会,但开发者也可以提交证据,“以证明由于其特定特性,通用人工智能模型例外地不呈现系统性风险”,根据序言112;例如,如果操作守则安全和安保章节附录1.3.1中列出的能力低于其他非GPAISR模型的能力——这对于主要作为研究成果而开发的大型模型可能是一个有用的选择。
开发者如何才被认定为“GPAI模型”的“提供者”?
简而言之:无论您是否在欧盟境内,如果您满足以下两个条件,您将被视为GPAI模型的提供者:1)您开发了一个GPAI模型或让其他人为您开发;2)您将其投放欧盟市场,这意味着您或您所工作的组织以商业活动的一部分(无论是否收费)在欧盟提供或使用它。截至本指南撰写之时,在这种情况下,构成商业活动的具体界限仍然是一个悬而未决的问题。虽然相关的欧盟法规表明,它不太可能涵盖个人“业余”开发者的工作,并且不自动包括在GitHub或Hugging Face等平台上以FOSS许可证共享的未由开发者盈利的工件,但具体判断可能需要根据个案情况而定。
人工智能法案在第3(3)条中将通用人工智能模型(GPAI)的提供者定义为
第3条将“投放市场”定义为“人工智能系统或通用人工智能模型首次在欧盟市场上市”(第3(9)条),将“在市场上提供”定义为“在商业活动过程中,在欧盟市场上提供人工智能系统或通用人工智能模型以供分发或使用,无论是否收费”(第3(10)条)。简单来说,根据欧盟法律,产品首次在欧盟市场上市即为“投放市场”。此后,任何后续供应(如从一个分销商到另一个分销商,或向客户供应)均称为“在市场上提供”。序言97(注:在欧盟法律中,序言提供对法律文本条款的非约束性解释)澄清道,“通用人工智能模型可以通过各种方式投放市场,包括通过库、应用程序编程接口(API)、直接下载或实体副本。”
“商业活动”的概念对于理解何谓将模型或系统投放欧盟市场至关重要;这比简单地向欧盟公民提供更具体的含义。虽然在欧盟人工智能法案适用性方面尚未对人工智能模型做出具体决定,但《欧盟产品规则实施蓝皮书》旨在作为立法框架内的通用指南。根据蓝皮书,“商业活动”被理解为在商业相关背景下提供商品。非营利组织如果在此背景下运营,也可以被视为从事商业活动。这只能根据具体情况进行评估,同时考虑供应的规律性、产品的特点、供应商的意图等。原则上,慈善机构或业余爱好者的偶然供应不应被视为发生在商业相关背景下。”
另一个参考点是欧盟的《网络弹性法案》(CRA)。CRA包含了关于生产免费和开源软件的人或组织是否应被视为CRA下的“制造商”的措辞。作为其中的一部分,CRA的序言18部分指出:“*...产品制造商未将其作为商业行为进行货币化的免费和开源软件数字元素的提供,不应被视为商业活动。*”虽然CRA的措辞可能不具有约束力,无法解释AI法案,但CRA中的这一及其他措辞确实表明,提供FOSS许可软件可能不*总是、固有地*被视为CRA下的“商业活动”,特别是当生产者未从中“货币化”时。这可能暗示AI法案的目的也有类似的方法。
同样重要的是,AI法案具有域外管辖权,这意味着它适用于在欧盟市场投放GPAI模型的提供者,无论其是否在欧盟境内或第三国。在将GPAI模型投放欧盟市场之前,在第三国设立或位于第三国的提供者必须在欧盟境内指定一名授权代表。然而,如下文进一步讨论,除非微调或修改的GPAI模型符合开源豁免条件,否则此义务不适用于根据自由和开源许可提供GPAI模型的提供者,除非其存在系统性风险。
如果我开发GPAI模型仅用于研究目的,我是否是提供者?
简而言之:仅为科学研究和开发而开发的GPAI模型豁免于人工智能法案。
如果您开发GPAI模型仅用于科学研究和开发,则您将不被视为人工智能法案下的提供者,并可免除其义务。这意味着,当GPAI开发主要旨在将模型和相关数据作为科学成果发布时,尤其是在学术和非营利环境中,欧盟人工智能法案不引入任何额外义务。第2(6)条规定:
根据序言25,产品导向研究过程中的测试和开发活动也超出了人工智能法案的范围,尽管如果模型在测试过程中投放市场或投入使用,此豁免将终止。序言109阐明,虽然为科学研究目的开发GPAI模型的开发者被豁免,但应鼓励他们自愿遵守提供者的这些义务。
如果我微调或修改其他提供者的GPAI模型,我是否是提供者?
简而言之:如果您以显著改变模型的方式微调GPAI模型,您可能需要在力所能及的范围内遵守提供者的义务。一般来说,如果微调所用的计算量高于基础模型训练所用计算量的⅓,则属于这种情况。
仅当您的修改导致模型的通用性、能力或系统风险发生显著变化时,您才会被视为GPAI模型的提供者。“显著变化”的阈值是修改所需的训练计算量是否超过原始模型训练计算量的三分之一。
如果您无法确定此值(例如,因为原始提供者未披露训练计算量),则GPAI指南解释说,您应该使用替代阈值:对于GPAI模型,为10^23 FLOPs阈值的三分之一;对于GPAISR模型,为10^25 FLOPs阈值的三分之一。
如果您进行的修改使您具备提供者资格,则您在第53条下的义务将限于您所做的修改,这意味着您只需要记录微调过程、新的训练数据和更改。此外,在将其投放欧盟市场之前,在第三国设立的GPAI模型提供者需要书面授权在欧盟指定一名授权代表的义务也将适用,除非微调或修改的GPAI模型符合开源豁免条件。
了解通用人工智能模型(GPAI)提供者的开源豁免
符合“通用人工智能模型(GPAI)”或“通用人工智能系统风险模型(GPAISR)”的“提供者”资格意味着该模型受人工智能法案的管辖,并受第51条至第55条规定的若干义务约束。然而,根据自由和开源许可发布并投放欧盟市场的GPAI模型,可免除这些条款中规定的部分要求。了解这些豁免的范围是理解个人在人工智能法案下义务的下一步。
要符合开源豁免条件,您必须满足所有三个条件
- 不允许:带有“仅供研究”、“禁止商业用途”或其他使用限制的许可。
- 例外:在其他FOSS许可中,允许采用相称的、与安全相关的使用限制(CoP ¶84)。
- 不允许:收取访问费用、与付费服务捆绑、基于广告的分发,或将收集用户数据作为访问条件。
我是否符合开源豁免条件?
简而言之:如果您根据自由和开源许可发布GPAI模型,并提供充分的文档且未对模型进行货币化,则您将部分豁免GPAI开发者的义务。
要获得GPAI模型的开源豁免,第53(2)条和GPAI指南明确指出您必须满足三个条件
- GPAI模型必须根据允许访问、使用、修改和分发模型的自由和开源许可发布;并且
- 参数,包括权重、模型架构信息和模型使用信息,必须公开可用;并且
- GPAI模型不得以收费方式提供或以其他方式货币化。
这种自由和开源许可的定义可能包括广泛使用的宽容软件许可,如Apache 2.0和MIT,以及宽容模型许可,如OpenMDW。GPAI指南解释说,所有四项权利(即访问、使用、修改和分发)都必须得到遵守才能符合自由和开源许可的条件(第78段),因此,具有使用限制的许可(例如,仅限研究、可接受的使用限制、商业条款)不符合自由和开源许可的条件(第83段)。然而,指南随后对这一要求进行了限定,指出在许可方认为可能对公共安全、保障或基本权利构成重大风险的领域,允许在其他FOSS许可中包含特定、相称且以安全为导向的使用限制(第84段)。
如果GPAI模型以收费方式提供或以其他方式进行货币化,则它将无法享受开源豁免。根据GPAI指南,货币化包括:以任何形式的付款为条件提供模型,要求从提供商处购买其他产品或服务(例如,技术支持或培训服务),在开发者托管的平台上查看广告,或者提供商接收和/或处理个人数据作为访问条件。序言103澄清说,“通过开放存储库提供AI组件本身不构成货币化”,但其界限取决于是否在模型的发布或使用周围采用了额外的货币化策略。
哪些义务在开源豁免范围内?
简而言之:如果您符合开源豁免条件,您仍需提供详细的训练数据文档,并证明您如何遵守欧盟版权法。您无需履行向欧盟委员会或下游用户编制更详细文档或在欧盟指定授权代表的义务。
人工智能法案对通用人工智能(GPAI)模型提供者的义务采取了分层方法(参见表3)。第53和54条规定了适用于所有GPAI模型的基本义务——但根据自由和开源许可发布的GPAI模型除外,它们可免除其中一些义务(参见表3左上方象限)。除了这些义务外,更严格的义务(第55条规定)适用于GPAISR模型提供者,并且所有开源豁免均不适用于它们。
使用自由和开源许可 | 不使用自由和开源许可 | |
通用人工智能 (GPAI) |
部分豁免
需要遵守第53(1)(c)-(d)条 (例如,OLMo 2) |
不豁免
需要遵守第53(1)和54条 (例如,Llama 3-8B) |
具有系统风险的通用人工智能 (GPAISR) |
不豁免 需要遵守第53(1)、54和55条 (目前没有示例) |
不豁免 需要遵守第53(1)、54和55条 (例如,GPT-4.5) |
表3:通用人工智能模型不同类别的义务和豁免概述
我们在表4中总结了GPAI和GPAISR模型提供者的各项义务以及开源豁免是否适用。
义务 | 开源GPAI模型 | 开源GPAISR模型 | 官方
指南 |
第53(1a)条:编制并保持模型文档最新。 | 豁免 | 不豁免 | 操作守则透明度章节,模型文档表格 |
第53(1b)条:编制、更新并向有意将其AI系统集成GPAI模型的AI系统提供者提供文档。 | 豁免 | 不豁免 | 操作守则透明度章节,模型文档表格 |
第53(1c)条:制定遵守欧盟版权及相关权利法律的政策。 | 不豁免 | 不豁免 | 操作守则版权章节 |
第53(1d)条:编制并公开足够详细的训练数据摘要。 | 不豁免 | 不豁免 | 训练数据公开摘要模板 |
第54条:在第三国设立的提供者,在将其投放欧盟市场之前,必须以书面委托方式在欧盟指定一名授权代表。 | 豁免 | 不豁免 | 不适用 |
第55(1a-d)条:GPAISR特定义务,包括模型评估、系统风险评估和缓解、向当局报告事件,以及网络安全保护。 | 不适用 | 不豁免 | 操作守则安全和安保章节 |
表4:GPAI模型提供者的义务、开源豁免和官方指南
了解适用义务的合规要求
简而言之:开源GPAI模型提供者必须遵守欧盟版权法,并使用人工智能办公室的模板发布训练数据摘要,同时豁免透明度和文档义务。开源GPAISR模型的提供者必须遵守第53-55条的所有义务。操作守则为大多数义务的合规性提供了自愿指导,包括透明度和文档、版权合规性以及管理系统风险的安全和保障要求。
我们根据人工智能法案文本本身以及操作守则 (CoP)、GPAI指南和训练数据公开摘要模板等官方指南,对开源GPAI开发者的合规要求和措施进行了简要概述。再次提醒,这并非法律建议,但旨在为您提供关于如果您符合GPAI模型提供者的资格,哪些规定可能适用于您以及您可以如何遵守规定的见解。如上所述,仅为研究目的开发和分发的GPAI模型完全豁免。
本指南的大部分内容来源于GPAI CoP,这是一个自愿性框架,旨在促进GPAI和GPAISR模型提供者履行义务。一旦获得欧盟成员国和欧盟委员会的认可,自愿签署的提供者可以遵循它作为证明其合规性的一种方式。这意味着CoP是遵守AI法案中GPAI模型规则的一种方式,但选择不遵循CoP的提供者仍有义务以他们认为适合目的的其他方式遵守义务。无论如何,合规性将由相关机构进行评估。
为方便起见,以下是开源GPAI模型提供者为履行义务必须采取的措施清单:
适用于开源GPAI模型提供者的义务
1. 第53(1)(c)条:遵守版权法
您必须实施一项遵守欧盟版权法的政策。尽管人工智能法案未规定此政策的形式,但CoP提供了一种可能的合规方法,具体如下:
- 维护一份书面版权政策文件并予以实施。鼓励但不要求公布该文件。
- 当您自己使用网络爬虫收集数据时,仅收集合法可访问的内容,并避免从欧盟官方列表中提供侵犯版权内容的网站中获取数据。
- 当您自己使用网络爬虫收集数据时,请遵守robots.txt和其他根据最先进标准表达的机器可读权利保留。
- 在模型文档中包含语言,提醒下游用户根据欧盟法律禁止侵犯版权地使用模型。
- 实施适当且相称的技术保障措施,以防止模型生成复制受版权保护的训练内容的输出。
- 指定版权所有者联系点,以便提交关于未遵守本清单中任何其他项目的充分证据的投诉。
2. 第53(1)(d)条:训练数据摘要
您必须使用人工智能办公室的模板发布训练数据摘要。
- 在您的官方网站和分发平台发布摘要。
- 包括通用模型信息、使用的数据集和数据处理步骤。
- 在使用额外数据时(例如用于微调),更新摘要。
- 如果训练数据与其他模型版本共享,请指明共享摘要。
- 截止日期:如果您在2025年8月2日之前投放模型,您有直到2027年8月2日的时间来遵守。如果您从2025年8月2日开始投放模型,您必须立即遵守。
注:如果您的模型被归类为GPAISR,则第53、54和55条中的所有义务均适用。
第53(1a-b)条:透明度和文档
简而言之:开源GPAI模型提供者如果公开共享模型架构信息并使用符合自由和开源条件的许可,则豁免透明度义务,而开源GPAISR模型提供者则不豁免,可以遵循操作守则透明度章节的指导。微调或修改的开源GPAISR模型提供者仅在修改所需的训练计算量超过原始模型训练计算量的三分之一时才受这些义务约束,在这种情况下,他们的责任仅限于记录其具体修改。
开源GPAI模型的提供者可免除透明度义务,因此遵守透明度章节的措施或填写表格并非强制。开源GPAISR模型的提供者不豁免,可以遵守操作守则的透明度章节,其中概述了记录和共享模型开发、能力和限制等基本信息的三个措施。这些措施包括公开披露请求文档的联系信息;应要求向AI办公室、市场监督机构和下游用户提供相关文档;以及保持文档最新、安全,并保留在欧盟市场投放模型后10年。
为了简化合规流程,透明度章节包含了一份模型文档表格,用于收集有关模型属性、分发方式、许可、用途、训练过程、训练数据、计算资源和能耗的所有必要信息。这使得提供者更容易编制所需文档,并确保监管机构和下游人工智能系统提供者都能获取理解模型能力和履行自身监管义务所需的信息。
如果我微调现有的GPAI或GPAISR模型,我需要做什么? 如上所述,您仅在您的修改导致模型的通用性、能力或系统风险发生显著变化时,才会被视为提供者。如果您通过此计算符合提供者资格,透明度章节明确指出您的文档和透明度承诺应按比例仅限于所进行的修改或微调,承认您可能无法访问或控制基础模型的开发过程。
第53(1c)条:版权
简而言之:版权章节提供了指导,包括五项措施,其中包含要求和鼓励行动,说明开源GPAI或GPAISR模型的提供者如何制定政策以遵守欧盟版权及相关权利法律。
GPAI和GPAISR模型的提供者不能免除制定政策以遵守欧盟版权及相关权利法律的义务。CoP的版权章节概述了提供者为履行其义务可以实施的5项措施。在表5中,我们提炼了该章节中每项措施下提到的要求和鼓励行动。
措施 | 要求 | 鼓励行动 |
措施1.1 要求提供者建立并维护一份包含所有5项措施的版权政策文件。 |
|
|
措施1.2 提供关于在网络爬取时仅复制和提取合法可访问、受版权保护内容的指导。 |
|
|
措施1.3 强制识别和遵守权利保留,包括遵循robots.txt协议和其他机器可读标准。 |
|
|
措施1.4 要求实施技术保障措施以防止侵犯版权的输出,并在可接受使用政策或模型文档中禁止此类使用。 |
|
|
措施1.5 通过指定权利人联系点和实施版权相关问题的投诉机制来建立沟通要求。 |
|
表5:CoP版权章节中的措施、要求和鼓励行动(来源:欧盟委员会,通用人工智能模型操作守则版权章节)
第53(1d)条:训练数据文档
简而言之:GPAI和GPAISR模型的提供者必须使用人工智能办公室的模板,提供一份公开的训练数据摘要,包括通用模型信息、使用的数据集和数据处理方面。摘要必须以简单的叙述形式编写,并在模型投放欧盟市场时发布在官方网站和分发渠道上。
人工智能办公室发布了一份模板,供GPAI和GPAISR提供者公开提供足够详细的训练数据摘要,以履行第53(1d)条规定的义务。该摘要必须在提供者将模型投放欧盟市场时,在其官方网站和所有分发渠道(例如,开放存储库)上公开。
此摘要的目的是提高GPAI模型训练所有阶段(从预训练到后训练,包括模型对齐和微调)所使用数据的透明度,包括受欧盟版权及相关权利法律保护的文本和数据,同时保护商业秘密和商业机密信息。
该模板包含3个部分——通用模型信息、主要使用的数据集和相关数据处理方面——并附有清晰简洁的说明,以便提供者以简单统一的方式报告所需信息。作为参考,请查看SmolLM3的公开训练数据摘要。
解释性说明提供以下澄清,以帮助您填写模板
- 摘要应全面而非技术细节,并以简单的叙述形式编写,确保相关方和公众都能理解。
- 为了保护商业秘密,根据数据来源适用不同的披露级别——对于许可数据需要有限的详细信息,对于私有数据集只需一般性描述,而公开数据集需要完全披露。
- 如果不同模型或不同模型版本的训练数据相同,您可以使用相同的摘要,但需明确指明其涵盖的模型和版本。如果模型拥有不同的训练数据且无法共享单一摘要,则每个摘要只需记录用于修改原始模型的特定额外训练数据(例如,微调数据集),同时引用并链接到原始模型的摘要。
- 如果您以使您符合GPAI模型提供者资格的方式微调或修改GPAI模型(如上所述),您只需记录用于修改的额外训练数据并引用原始模型的摘要。
- 如果您在额外的训练数据上进一步训练已经上市的GPAI模型,您必须每六个月更新一次摘要,或者如果额外数据需要对摘要内容进行重大更新,则更早更新,以两者先到者为准。
- 如果您在2025年8月2日之前投放了GPAI模型,那么您将有直到2027年8月2日的时间来遵守这些模型的此项义务。
第55条:GPAISR模型的安全与保障
简而言之:操作守则的安全和保障章节概述了开源GPAISR模型提供者为遵守第55条规定的义务可以遵循的10项承诺。这些要求是根据比例原则设计的,与系统风险和提供者能力成比例,并为中小企业 (SMEs) 和中小型企业 (SMCs)(包括初创公司)提供了简化的合规途径。
尽管目前没有开源GPAISR模型,但开源GPAISR模型的提供者将受第55(1a-d)条规定的额外安全和保障义务的约束。如果您符合此类模型提供者的资格,CoP的安全和保障章节概述了您可以遵循的10项承诺,以在整个模型生命周期中管理系统风险并遵守这些义务。这些义务包括但不限于:
- 风险管理框架:您必须创建文档化的流程,用于在GPAISR模型开发生命周期中识别和评估系统风险,在开发里程碑或计算阈值等触发点进行评估,并建立监控系统以获取社区反馈和事件报告。
- 风险评估:您必须遵循结构化的方法来识别潜在危害(例如,有害内容生成、安全漏洞、社会影响),然后制定详细的危害场景,并使用既定的安全基准进行评估。
- 安全缓解措施:您必须实施保护措施,其中可能包括训练数据过滤、输入/输出监控、微调以拒绝请求、为用户提供安全工具以及使用分阶段访问控制(例如,API限制、经过验证的用户)。
- 安全措施:您必须针对外部攻击者和内部威胁定义安全目标,然后实施技术保障措施,如安全分发方法、访问控制和未经授权修改的监控。
- 文档:您必须维护涵盖架构、能力、训练方法和用例的技术报告,包括风险评估、缓解措施和外部评估,并在风险评估发生实质性变化时在5个工作日内进行更新和监管通知。您必须将此文档保留至少5年,从文档或严重事件发生之日起,以较晚者为准。
- 组织结构:您必须建立明确的风险管理角色,为安全职能分配充足资源,并促进健康的风险文化。
这些承诺围绕两个比例原则设计:
- 合规措施应与模型造成的实际系统性风险相称,确保较低风险场景不会触发不必要的繁重流程。
- 要求应考虑提供商的规模和能力,并为中小型企业(SMEs)和中等市值企业(SMCs)(包括初创企业)明确提及简化的合规途径。例如,CoP的签署方,如果他们是中小企业或中等市值企业,可以豁免向AI办公室定期报告的承诺,根据第56(5)条,但保留自愿遵守的选项。
开发者可以利用许多开源工具来遵守其中的许多措施。例如,在风险评估和模型评估方面,像 LM Evaluation Harness、lighteval 和 Inspect 这样的开源框架可以实现标准化的 LLM 评估,而像 Weights & Biases 这样的平台则提供了用于模型持续监控的实验跟踪工具。对于安全缓解措施,开发者可以利用数据整理工具或红队框架,而 NIST AI 风险管理框架则提供了负责任的模型开发和部署的最佳实践。对于文档要求,开发者可以继续使用已经熟悉的模型卡和数据集卡。
后续步骤和行动号召
🚨 鉴于 GPAI 模型提供商的义务将于 2025 年 8 月 2 日开始生效,我们迫切需要提高社区对这些义务的准备程度。通过向他人宣传这些义务并分享本指南,您可以帮助社区做好准备!
🛠️ 加入对话! 我们正在构建关于合规工具和最佳实践的后续资源,但我们需要您的意见才能使其真正有用。无论您对本指南有任何疑问、想要分享工具和工作流程,还是想帮助找出仍然缺少的内容,请随时联系我们!让我们共同努力,让社区为遵守《人工智能法案》做好准备。
本指南由 Hugging Face、Mozilla 基金会和 Linux 基金会的研究人员 Cailean Osborne、Maximilian Gahntz、Lucie-Aimée Kaffee、Bruna Trevelin、Brigitte Toussignant 和 Yacine Jernite 合作编写。我们还要感谢 Steve Winslow 提供的有益审阅和建议。所表达的观点为个人作者的观点,不一定反映其各自组织的立场。请引用为:
@techreport{osborne2025euaiact,
title={What Open-Source Developers Need to Know about the EU AI Act's Rules for GPAI models},
author={Osborne, Cailean and Gahntz, Maximilian and Kaffee, Lucie-Aim{\'e}e and Trevelin, Bruna and Toussignant, Brigitte and Jernite, Yacine},
institution={Hugging Face, Mozilla Foundation, and Linux Foundation},
year={2025},
url={https://huggingface.co/spaces/hfmlsoc/eu-ai-act-os-guide-gpai},
type={Guide}
}