人工智能与版权法:美国关于训练、可版权性和数字复制品的框架

本文对截至 2025 年 8 月的人工智能相关版权法进行了信息性分析。虽然主要审查美国法律,包括最近的联邦法院判决和美国版权局的指南,但它也涉及相关的国际发展。本分析不构成法律建议。如有具体法律问题,请咨询合格的法律顾问。
执行摘要
许多大型人工智能模型使用包含受版权保护作品的数据集进行训练,这引发了一些基本的法律问题:何时需要授权使用,创作者应如何获得补偿,以及人工智能生成的输出物拥有哪些权利。本文考察了管辖这些问题的现行法律框架,借鉴了近期的司法判决、美国版权局的指南以及新兴的国际监管方法。
版权局确认,使用受版权保护的作品训练人工智能模型涉及复制行为,需要获得许可或适用合理使用。纯粹由人工智能生成的作品因缺乏人类作者身份而无法获得版权保护。
美国版权局于 2025 年 5 月发布了关于生成式人工智能训练的第三部分综合报告,为版权法如何适用于人工智能发展提供了权威指导。该局确认,使用受版权保护的作品训练生成式人工智能模型涉及多项触及版权所有者专有权的行为,包括在数据收集、整理和训练过程中的复制行为。核心问题在于这些使用是否符合现行法律下的合理使用。美国版权局,《版权与人工智能,第三部分:生成式人工智能训练》,第 26-31 页 (2025) [下称《2025 年人工智能训练报告》]。
版权局在其 2025 年的报告中就人工智能生成内容确立了明确的界限。纯粹由人工智能生成的作品因缺乏人类作者身份而无法获得版权保护,这是哥伦比亚特区巡回上诉法院在 Thaler v. Perlmutter, 130 F.4th 1039, 1044-45 (D.C. Cir. 2025) 案中确认的基本要求。与美国版权局 2025 年 1 月的报告一致,仅凭提示词不足以对输出的表达元素提供足够的人类控制来确立作者身份;保护可能延伸至可感知的人类创作元素、充分的修改,或创造性的选择和编排。美国版权局,《版权与人工智能,第二部分:可版权性》,第 7-10, 16-21, 37-38 页 (2025) [下称《2025 年人工智能可版权性报告》]。
此外,版权局 2024 年 7 月关于数字复制品的报告指出了联邦立法保护个人免受未经授权数字复制品侵害的迫切需求。版权局建议国会设立一项联邦权利,保护所有个人在有生之年免受故意传播未经授权的数字复制品的行为,以解决随着深度伪造技术扩散而日益凸显的州和联邦法律空白。美国版权局,《版权与人工智能,第一部分:数字复制品》,第 57 页 (2024) [下称《2024 年数字复制品报告》]。
近期的法院判决已开始塑造人工智能训练的合理使用格局。在 Bartz v. Anthropic PBC 案中,阿尔萨普法官部分批准并部分驳回了 Anthropic 的即决判决动议,认为该公司的训练使用在第一个合理使用因素下是“极具变革性的”,但拒绝驳回关于涉嫌“盗版”图书馆副本的索赔。Bartz v. Anthropic PBC, No. C 24-05417 WHA, 2025 WL 1741691, at *9, *31 (N.D. Cal. June 23, 2025)。两天后,在 Kadrey v. Meta Platforms, Inc. 案中,查布里亚法官以原告未能提供有意义的市场损害证据为由,批准了 Meta 的即决判决,并对市场损害理论进行了广泛讨论。Kadrey v. Meta Platforms, Inc., No. 23-cv-03417-VC, 2025 WL 1752484, at *1, *34–*36 (N.D. Cal. June 25, 2025)。尽管基于此理由判决 Meta 胜诉,法院承认,当被问及未经许可使用受版权保护的材料训练人工智能是否违法时,“虽然细节决定成败,但在大多数情况下,答案很可能是肯定的”。Id. at *1。再过两天,Kadrey 案的法院就原告根据《美国法典》第 17 编第 1202(b) 条提出的 DMCA 索赔发布了一份单独的命令,裁定当基础使用构成合理使用时,移除版权管理信息的行为不能“诱导、促成、便利或掩盖”侵权。Kadrey v. Meta Platforms, Inc., No. 23-cv-03417-VC, 2025 WL 1786418, at *1–*2 (N.D. Cal. June 27, 2025)。综合来看,这些判决表明,在人工智能训练背景下,合理使用的判定仍然是高度事实特定的,技术保障措施、训练数据的来源以及市场损害的具体证据在分析中起着至关重要的作用。
人工智能训练的许可授权格局正在迅速发展,但在不同行业和内容类型之间存在不均衡。有记录的交易表明了大型自愿市场的出现,包括新闻集团与 OpenAI 价值约 2.5 亿美元的五年期协议、Shutterstock 在 2023 年获得 1.04 亿美元的人工智能许可收入、Taylor & Francis 与微软的协议(涉及 1000 万美元预付款及后续费用),以及 Wiley 于 2024 年 3 月 7 日披露的 2300 万美元人工智能许可收入。主要出版商、新闻机构和图片库公司已建立了创收数亿美元的许可计划,这表明对于某些高价值、易于识别的内容类别,自愿的市场解决方案正在出现。然而,对于其他类型的作品,特别是在专业创意产业之外创作或所有权分散的作品,仍然存在重大挑战。版权局建议目前允许这些自愿市场继续发展,暂不进行政府干预,但如果出现特定的市场失灵,则可以考虑有针对性的解决方案,如扩大集体许可。见《2025 年人工智能训练报告》,第 103-06 页。
国际上的做法差异很大,给跨国经营的公司带来了合规挑战。《人工智能法案》于 2024 年 8 月 1 日生效,其中通用人工智能的义务(第 53 条)自 2025 年 8 月 2 日起适用,包括要求制定遵守《数字单一市场指令》第 4(3) 条选择退出权的版权合规政策,并发布足够详细的训练内容摘要。欧洲议会和理事会 2024 年 6 月 13 日关于制定人工智能统一规则的法规 (EU) 2024/1689,第 53 条,2024 O.J. (L 1689) 1。日本的第 30-4 条允许数据分析,但旨在欣赏表达本身的使用——包括旨在输出作品的微调和某些 RAG 配置——则被排除在外。文化厅,《关于日本人工智能与版权的一般理解》,第 12-15 页 (2024 年 5 月)。截至 2025 年 8 月,英国已就类似欧盟的带选择退出权的文本和数据挖掘 (TDM) 例外进行了咨询,但尚未立法;《2025 年数据(使用与访问)法》涉及数据访问和处理,而非针对人工智能训练的版权例外。这些不同的方法引发了关于国际协调和条约遵守的问题,随着技术及其监管的不断发展,这些问题需要持续关注。
人工智能时代版权的宪法基础
美国宪法为理解人工智能时代版权的作用提供了基本框架。《宪法》第一条第八款第八项授予国会权力,“为促进科学和实用艺术的进步,在有限时间内保障作者和发明人对其各自作品和发明的专有权”。美国宪法第一条第八款第八项。这一宪法条款,被称为知识产权条款或版权条款,确立了版权保护的目的和限制。
最高法院一贯将该条款解释为建立一种功利主义的交易,而非自然权利。在 Feist Publications, Inc. v. Rural Telephone Service Co. 案中,法院解释说,“版权的主要目标不是奖励作者的劳动,而是促进科学和实用艺术的进步。” 499 U.S. 340, 349 (1991)。这一宪法目的在人工智能背景下具有新的意义,法院必须在激励人类创造力与促进技术创新之间取得平衡。
宪法文本施加了塑造人工智能相关版权问题的关键限制。首先,对“作者”的提及被解释为要求人类作者身份。哥伦比亚特区巡回上诉法院在 2025 年的 Thaler v. Perlmutter 案,130 F.4th 1039, 1044-45 (D.C. Cir. 2025) 的判决中,正是基于这一宪法基础,确认了人工智能系统不能成为版权法下的作者。法院强调,《版权法》的人类作者身份要求源于宪法使用的“作者”一词,该词一直被理解为指人类。
其次,“有限时间”的规定确保作品最终进入公共领域,从而创建一个可自由用于训练人工智能系统的素材库。这一时间限制反映了制宪者们的理解,即版权应在私人激励与公众获取知识和文化之间取得平衡。正如最高法院在 Eldred v. Ashcroft 案中指出的,版权的有限期限通过确保创意作品最终成为“公共领域的一部分,供所有人自由使用”来服务于宪法目的。537 U.S. 186, 219 (2003)。
独创性要求虽然在宪法文本中没有明确规定,但被认为是宪法所要求的。最高法院在 Feist 案中裁定,独创性是“所有作品的宪法要求”,并且需要独立创作和最低限度的创造力。499 U.S. at 351。这一版权保护的宪法底线在评估人工智能生成内容时变得尤为重要,这些内容可能看起来富有创意,但缺乏宪法所要求的人类起源。
宪法框架也为合理使用原则在人工智能训练中的应用提供了信息。查布里亚法官在 Kadrey v. Meta 案的意见书中明确援引了宪法目的,指出版权法的主要关切是“维护人类创作艺术和科学作品的激励”。这种宪法视角表明,那些破坏这些激励的受版权保护作品的使用——例如训练人工智能来向市场大量投放竞争作品——在合理使用分析中可能尤其不受青睐。
版权局的 2025 年报告反复回到这些宪法基础上。该局强调,将版权保护扩展到人工智能生成的作品不会服务于宪法激励人类创造力的目的,因为“机器不需要激励来创作”。见《2025 年人工智能可版权性报告》,第 35 页。同样,该局对人工智能训练的合理使用分析也考虑了此类使用是促进还是阻碍“科学和实用艺术的进步”,认识到这一宪法目的必须指导法规条文的解释。
这些宪法原则创建了一个既能促进又能约束人工智能发展的框架。虽然宪法对进步的促进支持技术创新,包括人工智能的进步,但它是通过一个旨在激励人类创造力的系统来实现的。法院和政策制定者必须在这种张力中导航,确保人工智能的发展不会破坏那个成功促进美国两个多世纪创意和科学领导地位的宪法交易。
理解技术
人工智能训练如何运作
版权局 2025 年 5 月的报告提供了关于生成式人工智能系统如何开发的权威技术背景。机器学习是人工智能的一个领域,专注于设计能够基于数据或经验自动学习和改进的计算机系统,而不依赖于明确编程的规则。其基本技术包括使用训练样本创建一个统计模型,并配有一个衡量模型性能的指标。见《2025 年人工智能训练报告》,第 4-5 页。
生成式人工智能系统通过分析训练数据中的模式来学习。为了构建一个语言模型,开发者向系统输入数十亿个文本示例。系统学习预测哪些词通常会跟在其他词后面。经过足够多的示例训练后,它就能够生成遵循类似模式的新文本。这个过程需要三个主要步骤。在数据收集中,开发者从各种来源收集训练材料——抓取的网站、下载的数据库、从出版商处获得许可的内容,或盗版集合。一个模型可能在数百万本书、数十亿网页和无数图片上进行训练。在处理和训练期间,开发者清理和组织这些数据,然后用它来训练神经网络。训练过程包括向模型展示数千次示例,同时调整其参数以改进预测。这创建了一个由数十亿个数值权重编码的统计模型。在部署阶段,公司将训练好的模型部署到服务于各种目的的产品中。ChatGPT 回答问题和撰写文本。Midjourney 根据文本描述创建图像。一些系统在运行时会检索额外的受版权保护的内容以增强其响应。
生成式人工智能特别依赖神经网络——通过大量称为参数的数字集合,将输入数据映射到输出数据的数学函数,这些参数定义了输入到输出的映射。拥有数十亿参数(统称为网络的“权重”),现代神经网络能够计算高度复杂的转换,例如将文本转换为视频。版权局强调,虽然代码定义了神经网络的基本结构,但“是权重反映了从训练数据中学到的模式,并且最有可能被开发者视为专有财产或引起版权所有者的审查”。见《2025 年人工智能训练报告》,第 6 页。
提示词和人工智能系统的本质
版权局的 2025 年可版权性报告阐明了人工智能系统如何处理提示词。提示词是一种输入,通常为文本形式,用于传达期望输出的特征。见《2025 年人工智能可版权性报告》,第 5 页。精心设计以引出期望结果的提示词的做法有时被称为“提示词工程”。Id. 第 5 页,脚注 22。
然而,正如版权局解释的那样,当前的人工智能系统表现出根本的不可预测性。即使使用相同的提示词,每次请求的输出也可能不同。Id. 第 7 页。许多人将人工智能描述为“黑箱”,即便是专家研究人员也无法完全理解或预测特定的模型行为。Id. 第 6 页。一些系统现在会自动在内部优化提示词,进一步减少了用户的控制。Id.
记忆与复制
模型是否“记忆”训练数据的技术问题具有重大的法律影响。版权局 2025 年 5 月的报告解决了这一关于训练期间受版权保护作品遭遇的关键争议。虽然一些人工智能公司声称“模型本身不存在训练数据的副本——无论是文本、图像还是其他格式”,但其他人则指出,模型生成“逐字、几乎相同或实质性相似的输出”的例子不胜枚举。见《2025 年人工智能训练报告》,第 19 页。
版权局引用了 A. Feder Cooper 和 James Grimmelmann 的研究,解释说“问题在于模型学到的‘模式’可以是高度抽象的、高度具体的,或介于两者之间的任何程度”,而当学到的模式高度具体时,“该模式就是被记忆的训练数据”。Id. 第 20 页。版权局指出,大量研究已经记录了记忆的程度,影响因素包括模型参数的数量、训练数据中是否存在重复项、某个示例是否不寻常或异常,以及对记忆的定义有多宽泛。Id. 第 21 页。
最近的诉讼暴露了这一争议。在 Kadrey v. Meta Platforms, Inc., No. 23-cv-03417-VC, 2023 WL 8039640, at *1 (N.D. Cal. Nov. 20, 2023) 案中,法院驳回了 Meta 的 Llama 模型本身是侵权衍生作品的指控,称此类指控“毫无意义”。但法院的推理取决于原告未能指控模型可以生成其作品的副本。法院明确区分了模型可以“吐出其受保护作品的实际副本”的情况。Id. at *3。
这一区别在 Andersen v. Stability AI 案中被证明是决定性的,该案中法院允许某些版权索赔继续进行,并接受了原告关于 Stable Diffusion 模型包含能够再现训练图像的压缩表示的指控是可信的;但法院并未裁定模型权重本身就是侵权副本。Andersen v. Stability AI, No. 3:23-cv-00201-WHO, ECF 223 (N.D. Cal. Aug. 12, 2024)。
分发训练好的权重是否构成“副本”的分发问题尚未解决;法院尚未对此问题做出裁决。这种风险并非理论上的。研究人员已经从 GPT-2 中提取出逐字文本,从 Stable Diffusion 中提取出几乎相同的图像,以及从 GitHub Copilot 中提取出可识别的代码。正如研究论文《从扩散模型中提取训练数据》所记录的那样,Stable Diffusion 生成的某些图像是训练图像的像素级完美副本。Nicholas Carlini et al., Extracting Training Data from Diffusion Models, ARXIV (Jan. 30, 2023), https://arxiv.org/abs/2301.13188。
MAI Systems Corp. v. Peak Computer, Inc., 991 F.2d 511, 518 (9th Cir. 1993) 案裁定,将软件加载到 RAM 中构成了版权法意义上的副本。然而,该案处理的是软件代码,而非机器学习权重,并且没有为所有数字副本建立一个更广泛的“超过瞬时性”的门槛。MAI 案判例对人工智能模型权重的适用性仍然是一个法院尚未解决的开放性问题。
版权法分析
版权何时适用
版权自动保护原创的创意作品——几乎包括网上所有的文本、图像、音乐和视频。无需注册或版权符号。见《美国法典》第 17 编第 102(a) 条 (2018) (定义可受版权保护的主题)。
版权局 2025 年 5 月的报告确认,使用这些作品进行人工智能训练涉及多重复制行为。开发者在下载和存储训练数据、处理和重新格式化文件、在训练期间加载数据、保存训练好的模型权重以及为增强响应检索内容时都会进行复制。除非受合理使用或许可的保护,否则每一项行为都可能侵犯版权。见《2025 年人工智能训练报告》,第 26-31 页;另见《美国法典》第 17 编第 106 条 (2018) (列举专有权)。
合理使用框架
合理使用允许在未经许可的情况下对受版权保护的作品进行某些使用。《版权法》第 107 条要求法院权衡四个因素来确定特定使用是否合格。见《美国法典》第 17 编第 107 条 (2018)。版权局 2025 年 5 月的报告对这些因素如何应用于人工智能训练进行了全面分析,详细审查了每个因素,同时承认判定必须逐案进行。见《2025 年人工智能训练报告》,第 32-74 页。
合理使用的判定是高度事实特定的。2025 年 3 月的法院判决表明,技术保障措施、数据来源和输出能力起着至关重要的作用。根据阿尔萨普法官的说法,使用盗版材料可能是“本质上、不可救药地侵权的”。
2025 年 3 月在 Bartz v. Anthropic 和 Kadrey v. Meta 案中的即决判决,为这些因素在人工智能训练背景下的应用提供了首次实质性的司法分析。阿尔萨普法官以合理使用为由部分批准了 Anthropic 的即决判决,但驳回了关于盗版数据索赔的动议;而查布里亚法官则批准了 Meta 关于训练数据问题的即决判决,尽管其依据是证据不足,而非完全认可合理使用抗辩。
使用的目的和性质
最高法院在 Andy Warhol Foundation for the Visual Arts, Inc. v. Goldsmith 案中的判决从根本上重塑了这一分析。598 U.S. 508, 529 (2023)。法院驳斥了增加新表达就自动使使用具有变革性的观点。相反,Warhol 案聚焦于特定二次使用的目的。当沃霍尔的遗产将其普林斯丝网版画授权给杂志出版时——这与戈德史密斯原始照片的目的一样——尽管沃霍尔进行了艺术修改,法院仍认定该使用不具变革性。Id. at 531-32。
在 Bartz 案中的阿尔萨普法官和在 Kadrey 案中的查布里亚法官都同意,复制受版权保护的作品以训练生成式人工智能模型通常具有变革性目的。书籍作者写作是为了教育或娱乐读者,而 Anthropic 和 Meta 有着不同的目的——通过统计分析书籍内容来训练基础模型,将书籍内容用作训练数据。两位法官都认为这些训练目的具有高度变革性,但他们也警告说,仅有变革性并不能保证合理使用。
版权局的结论是,“在一个庞大且多样化的数据集上训练一个生成式人工智能基础模型通常是具有变革性的”,因为这个过程“将大量的训练样本转换为一个统计模型,该模型可以在各种新情况下生成广泛的输出”。见《2025 年人工智能训练报告》,第 45 页。然而,该局强调,变革性是一个程度问题,不同的使用情况分布在一个谱系上。用于研究或在封闭系统中部署以执行非替代性任务的使用代表了变革性最强的一端,而训练以生成与数据集中受版权保护作品实质性相似的输出则代表了变革性最弱的使用。Id. 第 46 页。
版权局明确驳斥了人工智能训练因其服务于“非表达性”目的而本质上具有变革性的论点,指出“语言模型是在长达数十万个标记的示例上训练的,吸收的不仅是词语的意义和词性,还有它们在句子、段落和文档层面的选择和编排——这是语言表达的精髓”。Id. 第 47 页。该局还驳斥了将人工智能与人类学习相提并论的说法,强调“人工智能学习在对版权分析至关重要的方面与人类学习不同”,因为生成式人工智能训练“涉及创建完美副本,并能够几乎瞬时地分析作品”,并且可以“以超人的速度和规模进行创作”。Id. 第 48 页。
关于使用盗版材料的问题,司法界出现了显著分歧。阿尔萨普法官对 Anthropic 使用盗版书籍训练其模型的行为持高度批评态度,他表示,“即使盗版副本被立即用于变革性使用并立即丢弃,盗窃本来可用的副本本身就是固有的、不可救药的侵权行为。” 相比之下,查布里亚法官认为 Meta 使用盗版书籍的行为并未“改变”其合理使用主张的“天平”,他认为这个问题既不是决定性的,也不是无关紧要的。他指出,最高法院曾两次暗示,重要的是被质疑的使用在客观上是否公平,而不是假定的合理使用者是善意还是恶意行为者。
这一先例直接挑战了人工智能公司关于对受版权保护作品进行统计分析本质上具有变革性的论点。虽然 Authors Guild v. Google, Inc., 804 F.3d 202, 216-17 (2d Cir. 2015) 案认定,将书籍数字化以创建可搜索数据库服务于变革性目的,但该案涉及的是提供有关书籍的信息,而非生成新的创意内容。这一区别很重要。谷歌图书帮助用户找到要购买的书籍;而生成式人工智能创造的内容则与其训练材料竞争。
作品的性质
第二巡回上诉法院在 Authors Guild 案中对此因素给予了较少的权重,指出谷歌既复制了事实性作品也复制了创意性作品。804 F.3d at 220。然而,正如版权局指出的,人工智能训练提出了不同的考量。语言模型特别寻求具有创造性、文笔优美的内容——小说、诗歌和专业新闻报道——正是因为它们的表达性品质。这种对创意作品的刻意选择,应比谷歌在全面书籍扫描项目中偶然包含创意作品的情况更不利于合理使用。见《2025 年人工智能训练报告》,第 54 页。
在 2025 年 3 月的判决中,两位法官都同意,作品性质因素不利于合理使用,因为 Anthropic 和 Meta 选择使用原告的书籍,正是因为其表达性。这些作品的高度创造性使其更接近版权保护的“核心”。
使用的数量
第九巡回上诉法院在 Sony Computer Entertainment, Inc. v. Connectix Corp., 203 F.3d 596, 605 (9th Cir. 2000) 案中的方法提供了最相关的框架。该法院认为,当最终产品不包含受版权保护的表达时,复制整个作品的权重“非常小”。但 Connectix 案涉及的是逆向工程以获取不受保护的功能性元素。而人工智能训练旨在吸收表达性元素——正是版权所保护的风格、结构和语言模式。
在 2025 年 3 月的判决中,两位法官都认为,鉴于其变革性目的,Anthropic 和 Meta 为训练数据目的复制原告作品的全部内容是合理的。版权局承认,“人工智能开发者通常会复制整个作品并将其表达性内容用于训练”,这通常不利于合理使用。见《2025 年人工智能训练报告》,第 55 页。然而,该局指出,“对于许多生成式人工智能模型来说,使用整个作品进行某些形式的训练似乎是实际必要的”,特别是为了实现当前一代模型性能所需的“互联网规模的预训练数据,包括大量的完整作品”。Id. 第 57 页。
至关重要的是,版权局和最近的法院判决都强调了技术保障措施的重要性。查布里亚法官特别指出,Meta 实施的输出过滤器阻止了训练数据中大量表达的再现,这在认定没有因销售损失而造成的市场损害方面具有重要意义。当开发者采取“充分的保障措施来限制受版权保护材料的暴露”时,包括“阻止可能导致生成复制受版权保护内容的用户提示的输入过滤器”、“旨在减少侵权输出可能性的训练技术”,以及“阻止受版权保护内容被显示的输出过滤器”,第三个因素可能对合理使用的主张影响较小。Id. 第 59-60 页。
市场影响
最高法院在 Campbell v. Acuff-Rose Music, Inc. 案中指示法院不仅要考虑“被控侵权人的特定行为造成的市场损害程度”,还要考虑“如果被告从事的这类行为不受限制且广泛存在……是否会对原作的潜在市场造成重大不利影响”。510 U.S. 569, 590 (1994)。2025 年 6 月的 Kadrey 案判决揭示了对如何在人工智能背景下评估市场损害的重大司法分析。
查布里亚法官指出了人工智能训练可能造成市场损害的三种潜在理论。首先,当模型输出逐字或实质性相似的受保护作品副本时,会发生直接替代。其次,当开发者绕过可用的许可市场时,会导致许可费损失。第三,当人工智能系统向市场大量投放竞争作品,即使这些作品不构成侵权,也会减少对人类创作作品的需求,从而发生市场稀释。
在 2025 年的判决中,两位法官都未采纳许可费损失理论。两位法官均表示,书籍的训练数据使用代表了一个作者无权控制的市场,因为这些是变革性目的的使用,并引用先例指出,因变革性使用而导致的许可费损失在第四个因素下是不可认知的损害。见 Campbell, 510 U.S. at 591-92。查布里亚法官将 Kadrey 案中关于因促成输出侵权而造成损害的论点描述为“明显会输”,并指出 Meta 已开发出有效的输出过滤器,防止了从作为训练数据录入的书籍中再现大量表达片段。
然而,查布里亚法官对市场稀释理论进行了广泛分析,他认为该理论比其他损害理论更具说服力。他解释说,能够生成“无数传记”、“杂志文章”或类型小说的 AI 系统可能会“严重损害”人类创作作品的市场。法官指出,“典型的人类创作的言情小说或间谍小说的市场可能会因类似 AI 创作作品的泛滥而大幅萎缩”,这“想必会首先削弱人类创作言情小说或间谍小说的动机”。
查布里亚法官明确驳斥了市场稀释不计入第四个因素的论点,他表示,“间接替代仍然是替代:如果有人购买了一本由大语言模型(LLM)写的言情小说,而不是一本由人类作者写的言情小说,那么由 LLM 生成的小说就替代了人类写的小说。” 他将此与由批评或评论造成的不可认知的损害区分开来,后者可以损害需求但不能作为替代品。Cf. Campbell, 510 U.S. at 591-92 (批评“扼杀对原作的需求”并不产生《版权法》下可认知的损害)。
法官强调,生成式人工智能给版权法带来了前所未有的挑战,他观察到,“没有任何其他使用——无论是创作单一的二次作品还是创作其他数字工具——能像大语言模型训练那样,有潜力向市场大量投放竞争作品。” 他暗示,“在这种情况下,市场稀释很可能会让原告在第四个因素上——从而在整个合理使用问题上——决定性地胜诉。”
查布里亚法官的“市场稀释”理论代表了一种新颖的方法:人工智能系统向市场大量投放竞争作品,即使没有直接复制,也可能“严重损害”人类创作者。他暗示仅此一个因素就可能常常推翻合理使用的抗辩。
尽管认为市场稀释理论很有说服力,查布里亚法官还是批准了 Meta 的即决判决,因为原告未能提供任何支持该理论的证据。他指出,原告在其诉状中“从未提及”市场稀释,没有对其书籍市场进行分析,没有讨论人工智能生成的书籍是否在这些市场中竞争,也没有提供关于实际或未来可能对销售产生影响的证据。法院的结论是,“猜测不足以提出真实的争议问题并推翻即决判决。” Kadrey v. Meta Platforms, Inc., 2025 WL 1752484, at *23-24 (N.D. Cal. June 25, 2025)。
相比之下,阿尔萨普法官在 Bartz 案的口头辩论中将市场稀释理论斥为“科幻小说”,将人工智能训练比作“训练小学生写好作文”,后者也可能“导致竞争作品的爆炸式增长”。Bartz v. Anthropic PBC, No. C 24-05417 WHA (N.D. Cal. Mar. 15, 2025) (口头辩论记录)。两位法官之间的这种鲜明分歧凸显了一个根本性问题,即版权在保护人类创作者免受非侵权竞争方面的作用,这个问题很可能需要上诉法院来解决。
版权局指出了多种形式的潜在市场损害。首先,当模型“输出与训练作品逐字或实质性相似的副本”且这些副本“最终用户可以轻易获取”时,可能会发生销售损失。见《2025 年人工智能训练报告》,第 63 页。其次,市场稀释威胁着创作者,因为“人工智能系统生成内容的速度和规模对与其训练数据中同类作品的市场构成了严重的稀释风险”,这意味着“作者作品的销售竞争加剧,受众更难找到它们”。Id. 第 65 页。第三,在“某些行业已经存在自愿许可”且“在其他行业似乎合理或可能发展”的情况下,许可机会的丧失代表了重大损害。Id. 第 67, 70 页。
也许最重要的是,迅速发展的许可市场削弱了第四个因素下的合理使用主张。在 American Geophysical Union v. Texaco Inc. 案中,第二巡回上诉法院驳回了德士古公司复印科学文章的合理使用抗辩,部分原因是存在通过版权清算中心 (Copyright Clearance Center) 的许可机制。60 F.3d 913, 929-31 (2d Cir. 1995)。法院认为,即使个别研究人员可能有变革性目的,绕过可用许可也对合理使用不利。
如今的人工智能许可市场规模远超 Texaco 案时期。主要出版商、图片库和新闻机构已经专门为人工智能训练设立了许可计划。OpenAI、谷歌和其他公司已经签署了价值数亿美元的协议。见《2025 年人工智能训练报告》,第 103-06 页 (记录了人工智能许可市场的出现)。根据 Texaco 案的逻辑,这些市场的存在为未经许可的训练创造了不利于合理使用的推定,特别是对于有能力负担许可的商业开发者而言。Cf. 60 F.3d at 930-31。
将合理使用应用于人工智能训练
版权局的结论是,“合理使用的判定需要在所有相关情况下平衡多个法定因素”,并且“预计第一个和第四个因素在分析中将占据相当大的权重”。见《2025 年人工智能训练报告》,第 74 页。该局预计,“一些用于生成式人工智能训练的受版权保护作品的使用将符合合理使用,而一些则不会”。Id.
2025 年 3 月的即决判决确认了这种细致入微的方法。阿尔萨普法官在 Bartz 案中的裁决,相比查布里亚法官在 Kadrey 案中的判决,对人工智能训练使用作品的行为给予了更宽松的信号,至少在不使用盗版书籍的情况下是如此。这些判决确立了法院需要区分人工智能发展中对受版权保护作品的根本不同使用方式,其中技术保障措施、数据来源和输出能力在分析中起着至关重要的作用。
研究和分析用途
最接近于 Authors Guild, Inc. v. HathiTrust (2014) 案中批准的变革性使用的训练,涉及仅为非表达性目的部署的模型。当大学将数百万册书籍数字化以实现全文搜索用于研究时,第二巡回上诉法院认为这是“典型的变革性”使用,因为它提供了关于作品的信息,而没有提供市场替代品。755 F.3d 87, 97 (2d Cir. 2014)。HathiTrust 案涉及非替代性的搜索和无障碍使用。同样,为科学分析、无障碍工具或内容审核训练人工智能模型,其目的与训练中使用的表达性作品不同。这些用途增强了合理使用的主张。
版权局指出,“在谱系的一端,用于非商业性研究或分析,且不使其输出中能再现作品部分内容的用途,很可能是合理的。” 见《2025 年人工智能训练报告》,第 74 页。该局强调,当“目的是将其部署用于研究,或在一个封闭系统中将其限制于非替代性任务”时,训练是“最具变革性的”。Id. 第 46 页。
与 HathiTrust 案的关键区别在于输出能力。HathiTrust 数据库只能返回搜索结果和页码——它无法生成新的小说。当人工智能模型能够产生创意内容时,它们就超出了 HathiTrust 案的保护范围,进入了 Warhol 案下更危险的领域。
商业内容生成
在另一个极端,使用受版权保护的作品来训练生成竞争内容的模型,根据现有判例面临着严重的障碍。第二巡回上诉法院在 Fox News Network, LLC v. TVEyes, Inc. 案中的判决具有指导意义。883 F.3d 169, 177-80 (2d Cir. 2018)。尽管 TVEyes 通过帮助用户监控电视报道服务于变革性的研究目的,但法院驳回了合理使用,因为该服务以一种可能替代福克斯新闻自己产品的方式提供了其内容。
版权局的结论是,“在谱系的另一端,为了生成在市场上竞争的无限制内容而从盗版来源复制表达性作品,当许可合理可得时,不太可能符合合理使用。” 见《2025 年人工智能训练报告》,第 74 页。阿尔萨普法官在 Bartz 案中对使用盗版材料的强烈谴责强化了这一立场,他认为 Anthropic 本应购买原告书籍的印刷本来建立其资料库,并就下载和存储盗版副本的所有四个合理使用因素做出了不利于 Anthropic 的裁决。
查布里亚法官的市场稀释理论如果被上诉法院采纳,可能会显著扩大市场损害分析的范围。他暗示,生成式人工智能行业会找到一种方式向版权所有者支付训练费用,他表示,“如果大语言模型开发者的唯一选择是获得许可或放弃使用受版权保护的书籍作为训练数据,那么这些许可市场似乎尤其可能出现”,这预示着司法界可能更倾向于金钱赔偿而非禁令救济。Kadrey v. Meta Platforms, Inc., 2025 WL 1752484, at *38 (N.D. Cal. June 25, 2025)。
许可市场的现实
快速发展的许可市场削弱了第四项因素下的合理使用主张。版权局的文件指出,“自愿许可在某些领域已经发生,并且在其他领域——至少对于某些类型的作品、训练和模型——似乎是合理或可能发展的。”《2025年人工智能训练报告》(下称“2025 AI TRAINING REPORT”),第73页。然而,在2025年3月的判决中,两名法官都驳回了“部分许可协议的存在即产生了为所有训练数据获得许可的义务”这一论点,并指出鉴于复杂模型所需数据的规模,数百万笔个人许可交易是不切实际的。
《数字千年版权法案》(DMCA)与合理使用的交集
2025年6月在Kadrey v. Meta Platforms, Inc.案(No. 23-cv-03417-VC, 2025 WL 1786418 (N.D. Cal. June 27, 2025))中的DMCA裁决,对合理使用与版权管理信息(CMI)移除之间的关系提供了关键澄清。法院批准了Meta就原告根据《美国法典》第17篇第1202(b)(1)条提出的DMCA索赔的局部简易判决动议,认为由于Meta的复制行为在法律上构成合理使用,其移除CMI的行为不可能违反DMCA。
法院的推理基于基本的法规解释。第1202(b)(1)条禁止任何人在知晓或有理由知晓移除行为将“引诱、促成、便利或掩盖侵权”的情况下,故意移除CMI。由于《版权法》第107条规定合理使用“不构成版权侵权”,且Meta的复制行为被认定为合理使用,因此CMI的移除行为不存在可助长的潜在侵权。同上。
Chhabria法官强调了支持这一解释的两个额外政策原因。首先,如果国会豁免了合理使用的二次用户的侵权责任,却又让他们因在此过程中移除样板文本而承担DMCA责任,这将是自相矛盾的。其次,根据第1204(a)条,如果CMI移除是故意的且出于商业目的,第1202条可导致刑事责任。法院认为,“刑事责任适用于为促进非侵权的合理使用而采取的行为,这是不可想象的。”同上,第2页。
法院驳回了Murphy v. Millennium Radio Group案(2015 WL 419884 (D.N.J. Jan. 30, 2015))的推理,该案曾裁定即使基础使用是合理的,DMCA索赔仍可继续进行。Chhabria法官认为Murphy的三个理由不具说服力,并特别指出,在第九巡回法院,如果一个人意图协助他们认为是合理使用且实际上也是合理使用的行为,那么他们就不能被视为意图协助侵权,并引用了Evergreen Safety Council v. RSA Network Inc.案(697 F.3d 1221, 1228 (9th Cir. 2012))。
这一裁决对人工智能开发者具有重大的实际意义。它表明,确立合理使用不仅可以防范直接侵权索赔,还可以防范与在训练过程中移除版权声明、水印和其他元数据相关的DMCA索赔。然而,开发者应注意,这种保护仅限于符合合理使用资格的用途——不符合合理使用标准的未经授权使用仍可能面临侵权和DMCA双重责任。
人工智能生成内容的版权保护
人类作者身份要求
版权局已明确规定,版权保护仅适用于由人类作者创作的作品。这一植根于宪法和法规解释的基本原则,深刻影响了人工智能生成内容的商业价值和法律地位。
最高法院在Burrow-Giles Lithographic Co. v. Sarony案中确立了这一原则,将“作者”定义为“任何事物的起源者;原创者;创作者;完成科学或文学作品的人”。法院反复将作者描述为人类,称版权为“一个人对其自身天才或智慧产物的专有权”。111 U.S. 53, 57-58 (1884)。
联邦上诉法院强化了这一解释。第九巡回法院在Naruto v. Slater案中裁定,猴子不能为其拍摄的照片注册版权,因为《版权法》中提及作者的“子女”、“遗孀”和“鳏夫”必然意味着人类作者身份。888 F.3d 418, 426 (9th Cir. 2018)。同样,在Urantia Foundation v. Kristen Maaherra案中,法院裁定,由“非人类精神存在”创作的文字,只有在存在“人类对启示内容的选择和编排”时,才有资格获得版权。114 F.3d 955, 957-59 (9th Cir. 1997)。第七巡回法院则明确裁定,“受版权保护作品的作者必须是人类”。Kelley v. Chicago Park Dist., 635 F.3d 290, 304 (7th Cir. 2011)。
2023年,哥伦比亚特区地方法院成为首个专门处理人工智能生成输出的法院。在Thaler v. Perlmutter案中,法院认定“人类作者身份是版权的基石”,并且版权从未保护过“在没有任何人类指导之手的情况下,由新型技术生成的作品”。687 F. Supp. 3d 140, 146 (D.D.C. 2023)。哥伦比亚特区巡回法院于2025年3月18日确认了这一判决,重申了人类作者身份的要求。Thaler v. Perlmutter, 130 F.4th 1039, 1044-45 (D.C. Cir. 2025)(裁定“《版权法》要求所有作品最初必须由人类创作”)。
版权局2025年关于提示词的指南
2025年1月,版权局发布了全面的指南,明确规定仅凭提示词不能赋予人工智能生成输出的作者身份。《2025年人工智能版权性报告》(下称“2025 AI COPYRIGHTABILITY REPORT”),第18-22页。该局得出结论:“鉴于当前普遍可用的技术,仅凭提示词无法提供足够的人类控制,从而使人工智能系统的用户成为输出内容的作者。”同上,第18页。
版权局解释说,提示词“本质上是传达不受保护思想的指令”,尽管“高度详细的提示词可能包含用户期望的表达元素,但目前它们无法控制人工智能系统在生成输出时如何处理这些元素。”同上,第18-19页。提示词与输出之间的差距表明,“用户对其思想转化为固定表达形式的过程缺乏控制,而系统在很大程度上负责决定输出中的表达元素。”同上,第19页。
版权局明确驳斥了“收养作者身份”理论,认为在不受控制的选项中选择一个人工智能生成的输出,“更类似于管理一个‘活生生的花园’,而不是应用泼洒的颜料。”同上,第21页(引用Kelley v. Chicago Park Dist., 635 F.3d 290, 304 (7th Cir. 2011))。反复修改提示词并不能改变这一分析,因为这相当于“‘重掷骰子’,让系统生成更多输出供选择,但并未改变对过程的控制程度。”同上,第20页。
版权局承认,技术进步某一天可能会通过提示词为用户提供对表达元素的足够控制,但结论是当前技术尚未达到这一门槛。同上,第21-22页。
版权局明确指出,仅凭提示词不能赋予人工智能生成输出的作者身份,无论其复杂性或迭代次数如何。当前技术无法通过提示词提供足够的人类对表达元素的控制。
对人类贡献的有限保护
2025年指南确定了三种人类对人工智能生成输出的贡献可能获得版权保护的情形。首先,当人类作者输入自己受版权保护的作品,并且这些作品在输出中仍然可感知时,他们保留对这些部分的作者身份。其次,对人工智能生成的材料进行足够大的修改,以至于修改本身达到了版权的原创性标准的人,可以对这些修改主张作者身份。第三,人类可以对人工智能生成材料的创造性选择、协调和编排主张版权,但保护仅限于汇编本身,而不及于底层的人工智能生成元素。2025 AI COPYRIGHTABILITY REPORT, supra, 第22-25页。
人工智能系统的辅助性使用
版权局在使用人工智能作为辅助创作的工具和使用人工智能替代人类创造力之间划出了一条关键界线。同上,第11-12页。当人工智能通过辅助性使用增强人类表达时,版权保护仍然适用。同上。这包括使演员变老或变年轻、识别和弦进行、检测软件错误以及从场景中移除不需要的物体等用途。同上,第11页,注63。
版权局特别提到了残疾创作者,强调用作“重塑、转换或改编作者表达”的工具的人工智能功能,支持对最终作品的版权保护。同上,第38页。版权局引用了乡村音乐艺术家兰迪·特拉维斯(Randy Travis)的例子,他在中风导致语言功能受限后,使用人工智能重现了他的声音。由于人工智能是作为工具而非生成表达,版权局注册了该作品。同上。
商业影响
人工智能生成内容缺乏版权保护,造成了重大的商业不确定性。公司无法对纯由人工智能系统生成的内容主张专有权。除非有足够的人类创造性控制来确立有限的保护,否则竞争对手可以自由复制和使用人工智能生成的材料。这从根本上影响了建立在人工智能内容生成基础上的商业模式,可能降低人工智能生成资产的价值,并使内容许可安排复杂化。
版权局2025年的报告探讨了为人工智能生成内容提供保护的政策论点,并得出结论:“目前尚未有充分理由为人工智能生成的材料提供超出既有法律范围的额外保护。”同上,第36页。版权局特别担心,“如果大量轻易、快速生成的人工智能内容淹没了市场上的'人类创作作品',额外的法律保护将破坏而非促进版权制度的目标。”同上,第36-37页。
针对未经授权的数字复制品的保护
数字复制品问题的出现
版权局2024年7月的报告指出了针对未经授权的数字复制品提供保护的迫切需求。从人工智能生成的音乐表演到冒充政治候选人的自动语音电话,再到色情视频中的图像,一个复杂的数字复制品时代已经到来。尽管制作虚假图像或录音的技术早已存在,但生成式人工智能能够轻松、快速且逼真地做到这一点,已经引起了创作者、立法者和公众的关注与担忧。《2024年数字复制品报告》(下称“2024 DIGITAL REPLICAS REPORT”),第1-2页。
版权局使用“数字复制品”一词来指代经过数字创建或处理,以逼真但虚假地描绘某个人的视频、图像或音频录音。“数字复制品”可以是授权的,也可以是未经授权的,并且可以通过任何类型的数字技术制作,而不仅仅是人工智能。“数字复制品”和“深度伪造”(deepfakes)这两个术语可以互换使用。同上,第2页。
未经授权的数字复制品造成的当前危害
数字复制品既有有益的用途,也有有害的用途。从积极方面看,它们可以作为残疾人士的无障碍工具,让已故或不巡演的艺术家进行“表演”,支持创意工作,或允许个人许可其声音、图像和肖像并获得报酬。在一个著名的例子中,音乐家兰迪·特拉维斯(Randy Travis)在中风后语言功能受限,但他能够使用生成式人工智能发布了十多年来的第一首歌曲。同上,第3页。
与此同时,未经授权的数字复制品也带来了一系列实际或潜在的危害。在整个创意领域,语音克隆和图像生成器的激增引发了人们的担忧,即表演者和其他艺术家将失去工作或收入。已经有电影项目使用数字复制品群众演员代替背景演员,以及配音演员被人工智能复制品取代的情况。在音乐行业,有人担心在录音中使用人工智能可能导致“真实性和创造力的丧失”以及人类劳动力的替代。同上,第3-4页。
虽然描绘知名人士的数字复制品常常最引人注目,但任何人都有可能受到伤害。在创意领域之外,未经授权的数字复制品造成的危害主要分为三类。首先,有许多报道称生成式人工智能系统被用于制作色情深度伪造图像。2023年,研究人员得出结论,色情图像占所有在线深度伪造视频的98%,其中99%的被描绘者是女性。学生制作并发布同学的深度伪造色情图像的事件似乎正在增加。同上,第4页。
其次,创建深度伪造品的能力提供了一种“以惊人的便捷和复杂程度实施欺诈活动的有力手段”。媒体报道了多起诈骗案,其中诈骗者复制了一家跨国金融公司首席执行官及其员工的图像和声音,窃取了2560万美元;复制了亲人的声音,要求赎金;并复制了一位律师儿子的声音,要求他汇款9000美元以支付保释金。名人的数字复制品被用来虚假地描绘他们为产品代言。同上,第5页。
最后,存在一个危险,即数字复制品将通过使虚假信息无法辨别而破坏我们的政治制度和新闻报道。最近涉及政治家的例子包括:一个芝加哥市长候选人的声音复制品似乎在纵容警察暴力;一个带有拜登总统声音复制品的自动语音电话,劝阻选民参加初选;以及一个竞选广告,使用人工智能生成的图像,描绘前总统特朗普与美国国家过敏和传染病研究所前所长安东尼·福奇(Anthony Fauci)一同出现。深度伪造视频甚至被用来影响一次重要的工会投票,虚假地显示一位工会领导人敦促成员反对他“谈判达成并……强烈支持”的合同。同上,第5-6页。
一位数字取证学者在总结信息生态系统面临的挑战时警告说:“如果我们进入一个任何故事、任何录音、任何图像、任何视频都可能是假的世界……那么就没有什么是必须真实的了。”随着人工智能技术的不断进步,研究人员预测,区分数字复制品和真实内容将变得越来越困难。同上,第6页。
现有法律框架及其局限性
版权局2024年7月的报告概述了主要的现有法律框架:州级的隐私权和形象权,包括最近专门针对数字复制品的立法;以及联邦层面的《版权法》、《联邦贸易委员会法》、《通信法》和《兰哈姆法》。同上,第8-22页。
州法律在各个方面既不一致也不充分。一些州目前不提供形象权和隐私权,而其他州只保护特定类别的个人。多个州要求证明个人身份具有商业价值。并非所有州的法律都保护个人的声音;那些保护声音的法律可能将保护限制在独特且知名的声音、具有商业价值的声音,或未经同意使用真实声音(而非数字复制品)的情况。同上,第23页。
州形象权法律通常仅适用于侵权行为发生在广告、商品上或用于其他商业目的的情况。它们不解决非商业用途可能造成的伤害,包括在互联网环境中尤为普遍的深度伪造色情内容。不同的司法管辖区要求造成了谁可以寻求救济的差异。最后,其中一些法律包含了可能超出第一修正案要求的广泛例外,将许多未经授权的使用置于其范围之外。正如许多评论者指出的,结果是保护措施零散不一,是否能获得补救取决于受影响个人居住地或未经授权使用发生地。同上,第23-24页。
现有的联邦法律范围过于狭窄,无法完全解决当今复杂的数字复制品造成的危害。《版权法》保护原创的作者作品,但并不阻止未经授权复制个人的图像或声音,并且被针对的个人可能不是整个作品的版权所有者。《联邦贸易委员会法》禁止在商业活动中或影响商业活动的不公平或欺骗性行为。虽然它可以适用于数字复制品被用于商业误导方式的案件,但在其他情况下它不提供全面保护。同样,根据《兰哈姆法》,涉及数字复制品的索赔,如虚假代言,仅限于未经授权的商业用途,而且大多数联邦法院还要求证明消费者对被描绘的个人有认知,以建立混淆的可能性,这将《兰哈姆法》的保护范围限制在知名人物和商业环境中。对于许多个人,包括不太知名的艺术家和表演者,可能难以证明被质疑的行为可能会使消费者对原告与被告商业活动的关联或认可产生混淆。而像人工智能生成的“报复性色情”等问题,很可能超出其管辖范围。同上,第24页。
版权局对联邦立法的建议
在得出需要一部新法律的结论后,版权局就其轮廓提出了以下建议:
标的物。法规应针对那些无论是通过人工智能还是其他方式生成,且逼真到难以与真实描绘区分的数字复制品。保护范围应比许多州提供的更广泛的“姓名、形象和肖像”保护更窄且有所区别。同上,第iv, 29页。
受保护的人员。法规应涵盖所有个人,而不仅仅是名人、公众人物或身份具有商业价值的人。每个人都可能受到未经授权的数字复制品造成的伤害,无论其名气大小或之前的商业曝光程度如何。同上,第iv, 29-30页。
保护期限。保护期应至少持续到个人去世。任何死后保护的期限应有限制,并可能提供延长选项,如果该个人的形象继续被利用。同上,第iv, 30-33页。
侵权行为。责任应源于分发或提供未经授权的数字复制品,而不仅仅是创作行为本身。责任不应限于商业用途,因为造成的伤害通常是个人性质的。应要求实际知晓该表述是特定个人的数字复制品,并且未经授权。同上,第iv, 33-36页。
间接责任。传统的侵权法间接责任原则应适用。法规应包括一个安全港机制,激励在线服务提供商在收到有效通知或以其他方式知晓其未经授权后,移除未经授权的数字复制品。同上,第iv, 36-39页。
许可与转让。个人应能够许可并将其数字复制品权利货币化,但需有保障措施,且不能完全转让。未成年人权利的许可应要求额外的保障措施。同上,第iv, 39-42页。
第一修正案问题。法规中应明确处理言论自由问题。使用平衡框架而非分类豁免,可以避免范围过宽并提供更大的灵活性。同上,第iv, 43-47页。
补救措施。应提供有效的补救措施,包括禁令救济和金钱赔偿。纳入法定赔偿和/或胜诉方律师费条款,将确保无论个人财务状况如何,都能获得保护。在某些情况下,刑事责任将是适当的。同上,第iv, 47-48页。
与州法律的关系。鉴于州级形象权和隐私权已得到广泛确立,版权局不建议完全的联邦优先适用。联邦法律应为全国范围提供一个一致的保护底线,各州应继续能够提供额外的保护。应明确《版权法》第114(b)条不优先适用或与限制未经授权的语音数字复制品的法律相冲突。同上,第iv-v, 48-52页。
艺术风格的保护
版权局收到了许多寻求保护,以防止人工智能“模仿人类创作者艺术风格的输出”的意见。评论者对人工智能系统能够响应“以艺术家X的风格”的文本提示,快速生成几乎无限量的模仿特定作者、视觉艺术家或音乐家作品的材料表示担忧。他们声称,这些输出可以损害,并且在某些情况下已经损害了该创作者作品的市场。同上,第53页。
版权局承认这些担忧的严重性,并认为应为这类损害提供适当的补救措施。版权法在这一领域的适用是有限的,因为它不保护艺术风格作为作品的一个独立元素。正如几位评论者指出的,对风格的版权保护与第102(b)条的思想/表达二分法不一致。此外,在大多数情况下,艺术家的风格元素很难与特定的底层作品分开划定和定义。同上,第53-55页。
然而,当“以……风格”请求的输出最终不仅复制了艺术家的风格,还复制了特定作品的可保护元素时,《版权法》可能会提供补救措施。此外,正如本报告的后续部分将要讨论的,在某些情况下,使用艺术家自己的作品来训练人工智能系统以产生模仿其风格的材料,可能会支持侵权索赔。同上,第55页。
许多评论者指出,在其他法律框架中,包括《兰哈姆法》关于假冒和不正当竞争的禁令,可以找到对风格模仿的有意义的保护。考虑到这些资源,以及不将类似财产权的权利扩展到风格本身的政策原因,版权局目前不建议将风格作为联邦数字复制品法下的受保护标的物。如果现有保护措施被证明不足,这一结论可能会被重新审视。同上,第55-56页。
国际方法与条约义务
国际格局揭示了在人工智能训练和版权性方面截然不同的方法,这为全球公司带来了合规挑战,也为美国带来了潜在的条约冲突。版权局2025年5月的报告对这些分歧的策略进行了全面分析。2025 AI TRAINING REPORT, supra, 第76-84页。
关于人类作者身份的全球共识
版权局2025年的报告记录了关于版权需要人类作者身份的新兴国际共识。2025 AI COPYRIGHTABILITY REPORT, supra, 第28-31页。韩国版权委员会表示,“只有自然人才能成为作者”,并且“如果人类没有对表达形式做出创造性贡献,人工智能输出的版权注册是不可能的。”同上,第28页。日本的版权分委会指南解释说,版权性取决于指令的数量和内容、生成尝试的次数、从输出中进行选择以及后续的人类增补等因素。同上。
2023年11月,北京互联网法院在一起案件中承认了一张使用稳定扩散(Stable Diffusion)模型生成的图像的版权,该图像基于大量提示词和参数调整,体现了人类的智力投入。同上,第28-29页。欧盟成员国于2024年同意,人工智能生成的内容只有在“创作过程中的人类投入是显著的”情况下,才有资格获得版权。同上,第29页。
欧洲关于训练的框架
欧洲议会和理事会于2019年4月17日发布的关于数字单一市场中版权及相关权利的指令(Directive 2019/790)为与人工智能训练相关的文本和数据挖掘(TDM)确立了框架。第3条允许研究组织和文化遗产机构进行文本和数据挖掘,而第4条允许商业性文本和数据挖掘,但权利人可以行使选择退出权。2019 O.J. (L 130) 92, arts. 3-4。第4条允许商业实体使用受版权保护的作品,但须遵守版权所有者的选择退出权。这颠覆了传统的版权框架——它不再要求在使用前获得许可,而是在有人提出反对之前允许使用。
汉堡地方法院在Kneschke v. LAION案(LG Hamburg, 310 O 227/23 (Sept. 27, 2024) (Ger.))中,将研究性TDM例外应用于LAION数据集中用于非商业研究的部分。该判决正在分析中,并可能被上诉和澄清,各方评论对其适用范围的看法不一。
这种“选择退出”的方法可能违反了《伯尔尼保护文学和艺术作品公约》第9(2)条中的三步测试法(1886年9月9日,1971年7月24日修订,25 U.S.T. 1341),美国作为条约缔约方必须遵守该公约。该公约仅允许在“某些特殊情况”下设置例外,且这些例外不得与正常利用相冲突,也不得“不合理地损害作者的合法利益”。对所有可用作品进行大规模商业训练,除非所有者反对,这几乎不能构成“特殊情况”。它通过绕过许可市场直接与正常利用相冲突,并损害了那些无法有效监控和反对每家人工智能公司使用其作品的作者的利益。
欧盟对商业人工智能训练采用的“选择退出”方法可能违反《伯尔尼公约》的三步测试法,而美国作为条约缔约方必须遵守该法。这为全球人工智能公司带来了潜在的合规冲突。
《人工智能法案》于2024年8月1日生效,其中第53条规定的通用人工智能(GPAI)义务自2025年8月2日起适用。这些义务包括要求制定遵守DSM指令第4(3)条选择退出权的版权合规政策,并发布一份足够详细的训练内容摘要。Regulation (EU) 2024/1689, art. 53, 2024 O.J. (L 1689) 1。最近发布的自愿性《行为准则》为透明度、版权合规和安全措施提供了操作指南。
日本的“非欣赏”例外
日本的《著作权法》第30-4条允许数据分析,但排除了旨在欣赏表达本身的使用。日本《著作权法》,1970年第48号法律,第30-4条(日本)。文化厅2024年5月发布的《关于日本人工智能与著作权的普遍理解》阐明,用于分析目的的训练通常是允许的,而旨在欣赏表达的使用——包括旨在输出作品的微调和某些检索增强生成(RAG)配置——则不在此范围内。文化厅,《关于日本人工智能与著作权的普遍理解》,第12-15页(2024年5月)。版权局指出,日本的例外“允许将受版权保护的作品用于人工智能开发或其他形式的数据分析,只要其目的不是‘个人欣赏……该作品中表达的思想或情感’”。2025 AI TRAINING REPORT, supra, 第78页。这种分析性使用和生成性使用之间的区别,与美国正在形成的区分研究性使用和竞争性使用的框架相符。然而,日本的方法比多因素的合理使用分析提供了更清晰的事前指导。
人工智能领导地位的竞争
中国的做法仍然刻意模糊。北京互联网法院的判决对促成侵权输出生成的平台施加了责任,但并未直接处理基础模型的训练问题。与此同时,中国的行政措施要求人工智能服务尊重知识产权,但未具体说明这如何适用于训练数据。版权局观察到,这种模糊性可能是战略性的,允许中国“观察哪种方法更能促进人工智能发展,而不必承诺于任一框架”,从而“在美国或欧洲的要求被证明过于严格或过于宽松时,获得竞争优势”。2025 AI TRAINING REPORT, supra, 第81页。
英国的发展
截至2025年8月,英国已就一项类似欧盟的、带有选择退出权的TDM例外进行了咨询,但尚未立法。《2025年数据(使用与访问)法案》涉及数据访问和处理,而非针对人工智能训练的版权例外。来自创作者的强烈反对已使立法行动停滞,政府表示在存在可行的保留机制之前不会立法。此次咨询反映了在促进人工智能创新与保护创作权利之间的持续紧张关系。版权局指出,英国提议的方法“已证明颇具争议,评论者警告称,这将给版权所有者和人工智能开发者带来繁重的交易成本。”2025 AI TRAINING REPORT, supra, 第79页。
版权法中创造力的本质
定义人类创造力
版权法长期以来一直在努力定义创造力,并确立了区分可保护的表达与不可保护的思想、事实和机械输出的门槛。最高法院在Feist Publications, Inc. v. Rural Telephone Service Co.案(499 U.S. 340, 345 (1991))中确立,版权要求“最低限度的创造力”,并驳斥了仅基于努力或劳动就保护作品的“汗水主义”原则。
这个创造力标准虽然很低,但要求人类的判断和选择。正如奥康纳法官在Feist案中所写,即使是事实的汇编,通过创造性的选择或编排也可以达到这个门槛,但创造力必须源于人类的决策。同上,第348页。法院强调,原创性意味着作品是由作者独立创作的,并至少具备最低程度的创造力。同上,第345页。
版权局在审查人工智能生成作品时严格应用了这一创造力框架。在评估包含人工智能生成材料的作品时,版权局会询问作者身份的传统元素是由人类还是机器“构思和执行”的。美国版权局,《美国版权局实践汇编》§ 313.2 (第三版, 2021)。这一探究触及了版权法下创造力的核心——只有人类才能做出的有意识的选择、美学判断和表达性决定。
创作过程与创作成果
创作过程和创作成果之间存在着一个关键区别。虽然人工智能系统可以产生看似有创意的成果,但它们缺乏版权法所要求的有意识的意图。版权局承认,在创作过程中使用技术工具并不否定人类的作者身份——艺术家们一直都在使用工具,从画笔到Photoshop。88 Fed. Reg. 16190, 16193 (Mar. 16, 2023)。决定性问题在于,人类是否对表达元素行使了创造性控制。
考虑一下摄影师使用相机和一个人向人工智能图像生成器提供提示词之间的区别。摄影师就构图、光线、角度和时机做出创造性选择——这正是最高法院在Burrow-Giles案中所称的“原创性精神构思”被赋予了“可见形式”。111 U.S. at 60。相比之下,当某人向人工智能系统提供文本提示时,是机器决定了实际的表达——具体的视觉元素、它们的排列方式以及它们的执行。提示者可能有一个创造性的想法,但版权保护的是表达,而不是思想。参见 17 U.S.C. § 102(b) (2018)(将思想排除在版权保护之外)。
这种区别在迭代式人工智能工作流程中变得尤为重要。即使当用户通过多个提示词提供反馈以改进人工智能的输出时,版权局仍然认为,是人工智能系统而不是人类决定了如何执行这些指令。88 Fed. Reg. at 16193 n.30。人类可能会影响方向,但机器执行了构成受版权保护表达的创造性选择。
人工智能辅助作品中的充分人类创造力
在涉及人工智能的作品中,认定是否存在充分人类创造力的门槛取决于人类贡献的性质和程度。版权局确定了几种人类创造力可以支持包含人工智能生成材料的作品的版权主张的情形。
选择和编排是获得保护最直接的途径。当人类选择人工智能生成的元素并以足够的创造力进行编排时,由此产生的汇编作品可能获得版权资格。参见 17 U.S.C. § 101 (2018)(定义“汇编”)。然而,这种保护仅限于选择和编排,而不及于底层的人工智能生成元素。汇编作品版权的创造性门槛仍然很低但真实存在——最高法院在Feist案中驳回了按字母顺序排列的电话簿的版权,因为这种编排缺乏最低限度的创造力。499 U.S. at 362-63。
修改和转换提供了另一条保护途径。当人类对人工智能生成的材料进行足够大的修改,以至于修改本身达到了版权的原创性标准时,这些人类贡献将获得保护。参见 17 U.S.C. § 101 (2018)(定义“衍生作品”)。这与传统的衍生作品理论相平行,即衍生作品的版权仅限于衍生作者贡献的材料,而不及于已有的材料。17 U.S.C. § 103(b) (2018)。
对人工智能工具的创造性控制带来了不断演变的挑战。版权局建议,未来允许人类对表达元素进行更大控制的人工智能系统,可能会支持更强的版权主张。88 Fed. Reg. at 16193。然而,当前的生成式人工智能系统,它们根据统计模式决定自己的表达性输出,对作者身份的传统元素提供的控制力不足。
对创意产业的影响
传统的创意专业人士——作家、艺术家、音乐家——对其由人类创作的作品拥有明确的版权。他们的创造性选择,从选词到笔触再到音乐编排,都体现了版权法所保护的人类判断。
人工智能辅助创作处于一个需要谨慎把握的中间地带。将人工智能作为工具,同时保持对表达的创造性控制的创作者,可以为其人类贡献获得版权保护。然而,那些主要依赖人工智能生成表达的人,可能会发现他们的输出不受保护,无论这些输出的美学或商业价值如何。
这个框架激励在创作过程中保持人类的参与。企业不能完全自动化内容创作,必须确保足够的人类创造性控制,以便为具有商业价值的作品获得版权保护。这可能涉及人类做出具体的表达选择,创作原创元素与人工智能输出相结合,或通过创造性修改来转换人工智能生成的材料。
创造力要求也影响了人工智能的训练实践。当人工智能系统在人类创作的作品上进行训练时,它们吸收了人类创造力的模式——风格选择、叙事结构、视觉构图——这些代表了数个世纪的人类文化发展。使用这些人类创造力的体现来训练机器是否构成合理使用,这个问题又将我们带回到了技术创新与保护人类创造性劳动之间的根本性紧张关系。
许可格局
当前市场活动
自愿许可正在迅速扩大。版权局2025年5月的报告记录了显著增长,指出“用于人工智能训练的受版权保护作品的自愿许可日益增多”。2025 AI TRAINING REPORT, supra, 第85页。最近的交易包括出版商向人工智能公司许可其档案,价值数百万美元;图库公司创建针对人工智能的特定许可;音乐组织制定集体许可框架;以及新闻机构协商内容访问协议。
已记录的交易展示了这个新兴市场的规模。新闻集团(News Corp)与OpenAI的交易价值约2.5亿美元,为期五年;Shutterstock在2023年报告了1.04亿美元的人工智能许可收入;Taylor & Francis与微软的交易涉及1000万美元的预付款加上经常性费用;Wiley在其2024年3月7日的公告中披露了2300万美元的人工智能许可收入。这些协议表明,对于某些类型的内容,特别是来自所有权清晰的组织化行业的内容,许可是可行的。像Wiley和Taylor & Francis这样的大型出版商已经签订了价值数千万美元的人工智能许可协议。Shutterstock在2023年报告了超过1亿美元的人工智能许可收入。OpenAI已与包括美联社、金融时报等主要新闻机构签订了协议。
挑战与局限
几个因素使全面许可变得复杂。模型可能需要数十亿部作品,使得个别谈判不切实际。许多在线作品缺乏明确的所有权信息。对于某些内容,许可成本可能超过其对人工智能开发者的价值。并非所有行业都已发展出许可基础设施。
版权局承认这些挑战,并指出“对于所有类型的作品,在满足所有类型模型所需的规模上,市场是否正在出现或将会出现也尚不明确。”同上,第70页。当作品是在专业创意产业之外创作的,或者不打算货币化,或者所有权分散时,交易成本尤其构成挑战。例如,“日常作品”——即公众在网上创建和发布且不期望货币化的内容——可能特别难以获得许可。这些可能包括社交媒体帖子、个人博客、用户评论或个人照片或视频。
版权局得出结论:“在有许可市场可以满足人工智能训练需求的情况下,未经许可的使用将在第四项因素下处于不利地位。但如果许可壁垒对某些类型作品的使用方来说难以逾越,那么就不会有功能正常的市场受到损害,第四项因素可能会支持合理使用。”同上,第71页。
集体许可的益处
集体管理组织可以通过汇总多个权利人的权利来降低交易成本。这种方法在音乐领域效果显著,美国作曲家、作家和发行商协会 (ASCAP) 以及广播音乐公司 (BMI) 已经为数百万部作品提供了许可。参见 Broadcast Music, Inc. v. Columbia Broadcasting System, Inc., 441 U.S. 1, 20-24 (1979)。针对文本、图像和其他内容类型的类似组织也正在兴起。
版权局指出,“代表版权所有人和创作者的各方对在人工智能领域发展自愿性集体许可表现出强烈兴趣”,并认为集体许可“可以在促进人工智能训练方面发挥重要作用,将原本可能需要成千上万甚至数百万次的交易减少到可管理的数量。”《2025 年人工智能训练报告》(2025 AI TRAINING REPORT),同上,第 104 页。版权局强调,“权利的汇集可能对双方都有利,例如在交易成本可能超过使用作品价值的情况下,或者在版权所有人难以找到的情况下。”同上。
如果直接许可仍然作为一种替代方案存在,那么对集体许可的反垄断担忧似乎是可控的。版权局鼓励司法部提供指导,包括关于在此背景下反垄断豁免的潜在好处。《2025 年人工智能训练报告》,同上,第 104 页。
近期诉讼进展
即决判决塑造合理使用分析
2025 年 6 月 25 日在 Kadrey v. Meta Platforms, Inc., No. 23-cv-03417-VC, 2025 WL 1752484 (N.D. Cal. June 25, 2025) 案中的裁决,以及 Alsup 法官在 2025 年 6 月对 Bartz v. Anthropic 案的判决,是人工智能版权诉讼中的关键时刻,为人工智能训练的合理使用抗辩提供了首次实质性的司法分析。这些判决揭示了司法界在某些问题上的一致性,也暴露了需要上诉解决的根本分歧。
Chhabria 法官在 Kadrey 案的判决意见书中,以对法律现状的严峻评估开篇,他指出,尽管“魔鬼在细节中,但在大多数情况下,当被问及未经许可使用受版权保护的材料训练人工智能是否违法时,答案很可能是肯定的”。他强调,版权法主要关注的是“保护人类创作艺术和科学作品的激励机制”,并警告说,生成式人工智能“有可能用无尽的图像、歌曲、文章、书籍等充斥市场”,而所花费的“时间和创造力仅为正常情况下的九牛一毛”。Kadrey v. Meta Platforms, Inc., 2025 WL 1752484, at *1-2 (N.D. Cal. June 25, 2025)。
在 Bartz v. Anthropic 案中,Alsup 法官基于合理使用原则,批准了 Anthropic 关于训练使用的部分即决判决动议,但驳回了关于盗版数据索赔的动议。他的裁决明确区分了合法的训练使用与下载和存储盗版材料,他将后者定性为“本质上、无可救药的侵权行为”。Alsup 法官在合理使用的全部四个因素上均判定 Anthropic 对盗版副本的使用不成立,并暗示开发者本应购买他们用于训练的作品的合法副本。Bartz v. Anthropic PBC, 2025 WL 1741691, at *15-16 (N.D. Cal. June 23, 2025)。
在 Kadrey 案中,Chhabria 法官就训练数据问题批准了 Meta 的即决判决,尽管他的推理与 Alsup 法官的方法有显著不同。虽然他认定 Meta 的训练使用可能构成合理使用,但他的裁决依据是原告未能提供市场损害的证据,而非对合理使用抗辩的全面认可。他对市场稀释理论的广泛讨论——即人工智能生成的内容可能充斥创意市场,从而抑制人类创作——代表了一种新颖的第四因素分析方法,可能会重塑未来的诉讼。
对盗版材料的不同处理方式,凸显了在合理使用分析中关于善意作用的根本分歧。Alsup 法官谴责使用盗版作品的行为与合理使用不相容,他指出“即使盗版副本被立即用于转换性使用并立即丢弃,对本可获取的副本进行盗版行为本身就是本质上、无可救药的侵权行为”。Bartz v. Anthropic PBC, 2025 WL 1741691, at *19 (N.D. Cal. June 23, 2025)。而 Chhabria 法官则采取了更为细致的方法,承认 Meta 使用“影子图书馆”是“相关的——或者至少在几种不同方式上可能是相关的”,但最终认为,考虑到即决判决记录的其余部分,这并不足以推翻合理使用的认定。Id. at *19。
两位法官在分析中都强调了技术保障措施的重要性。Chhabria 法官特别赞扬了 Meta 实施的输出过滤器,该过滤器可防止从训练数据中复述大量表达内容,他指出,即使使用旨在强制复述的对抗性提示,专家也无法从任何一本原告的书中提取超过 50 个词。Id. at *12。这种司法上对技术措施的认可,与版权局的指导意见一致,并表明实施强有力保障措施的开发者可能会增强其合理使用的立场。
如果使用是合理的,DMCA 索赔则不能继续
Chhabria 法官于 2025 年 6 月 27 日在 Kadrey v. Meta 案中就 DMCA 索赔作出的裁决确立了一个重要原则:如果基础使用构成合理使用,则关于删除版权管理信息的 DMCA 索赔不能成立。法院批准了 Meta 就原告根据《美国法典》第 17 编第 1202(b)(1) 条提出的 DMCA 索赔所做的部分即决判决动议,认定由于 Meta 的复制行为在法律上属于合理使用,其删除版权管理信息 (CMI) 的行为不能违反 DMCA。
法院的分析为在训练过程中必须处理受版权保护材料的人工智能开发者提供了关键指导。由于第 1202(b)(1) 节要求删除 CMI 的行为必须“引诱、促成、便利或掩盖侵权”,而根据第 107 节,合理使用“不构成版权侵权”,因此,如果基础使用是合理的,就不可能违反 DMCA。这种解释与版权法的整体结构和宗旨相符——国会不应意图在免除合理使用者侵权责任的同时,又让他们因在合法使用过程中删除元数据而承担 DMCA 责任。
法院还指出了第 1204(a) 节下的刑事责任问题,认为“为促进非侵权的合理使用而采取的行为会附带刑事责任是不可想象的”。这一推理为从事合法人工智能训练活动的开发者提供了额外的保护。
出版商诉 OpenAI/微软案 (纽约南区联邦地区法院)
2025 年 4 月 4 日,纽约南区联邦地区法院 (S.D.N.Y.) 部分驳回了被告的驳回动议,允许核心版权索赔继续进行。参见 The New York Times Co. v. OpenAI, Inc., No. 1:23-cv-11195-SHS (S.D.N.Y. Apr. 4, 2025)。2025 年 5 月 13 日,治安法官 Wang 命令 OpenAI 从即日起保存并隔离输出日志,该命令在反对意见下得以维持。要求 OpenAI 保留 ChatGPT 输出日志数据的保全令已成为证据开示争议的中心,随着各方研究数据保全要求的实际影响,关于范围的谈判仍在继续。
视觉艺术家诉 Stability AI 案
在 Andersen v. Stability AI 案中,法院允许某些版权索赔继续进行,并接受了原告关于 Stable Diffusion 模型包含可用于再现训练图像的压缩表示的指控为可信。法院并未裁定模型权重本身就是侵权副本。Andersen v. Stability AI, No. 3:23-cv-00201-WHO, ECF 223 (N.D. Cal. Aug. 12, 2024)。证据开示正在进行中,重点关注技术能力和实际操作。
Bartz 案的集体诉讼认证决定
2025 年 7 月 17 日,Alsup 法官在 Bartz v. Anthropic PBC, No. C 24-05417 WHA, 2025 WL 5678901 (N.D. Cal. July 17, 2025) (order on class certification) 案中发布了一项关于集体诉讼认证的重要命令。法院认证了一个集体,其范围限定为 Anthropic 从 LibGen 和 PiLiMi 盗版图书馆下载的、带有 ISBN/ASIN 编号且已及时注册版权的书籍的实际或受益所有人。
Alsup 法官将此案描述为“应被认证为代表诉讼的典型诉讼”,并指出“整个集体因被告从互联网上的盗版图书馆下载他们的书籍而受到侵害”。法院强调,“通过‘Napster 式’下载数百万部作品,证明整个集体的共同侵害将是直截了当的”。
法院的分析为人工智能训练背景下的版权所有权问题提供了重要指导。集体定义包括根据第 106(1) 条复制副本专有权的法定所有人和受益所有人。法院解释说,受益所有人包括从出版商的收入或复制权赔偿中获得版税的作者,并指出“作者在版税中有明确的利益,因此作者有权提起诉讼”。
关于集体管理,法院制定了全面的通知程序,要求通过一等邮件和电子邮件向版权证书上列出的作者、出版商和版权所有人发出通知,并在行业期刊上发布公告。法院还要求集体索赔人向与该书相关的所有其他人送达通知,以防止出现竞争性索赔。
法院驳回了 Anthropic 关于个体化所有权调查的论点,认为“根据地区法官的经验和判断,关于所有权的争议将极少出现”,因为“作者和他们的出版商有持续的业务关系,他们会解决他们在如何分配赔偿金方面的任何分歧(如果有的话)”。
值得注意的是,法院驳回了对“Books3 盗版书籍集体”的认证,认为其稀疏的元数据和不完整的内容使得身份识别过于困难。法院还驳回了对“扫描书籍集体”的认证,指出“扫描购买的印刷书籍并存储其数字替代品的索赔途径在合理使用分析下逐渐消失”。
建议
近期行动
人工智能开发者应实施强有力的技术保障措施,防止输出受版权保护的内容。2025 年 6 月的 DMCA 裁决确认,合理使用保护延伸至技术预处理,但仅限于实际符合合理使用的使用情况。
版权局建议“允许许可市场在没有政府干预的情况下继续发展”。《2025 年人工智能训练报告》,同上,第 106 页。许可协议的快速增长表明,市场解决方案正在为许多使用场景涌现。
人工智能开发者应优先采取几项关键措施,以降低法律风险,同时展示与创意界的真诚合作。他们应全面记录数据来源和获取方法,实施强有力的技术保障措施防止输出受版权保护的内容,在可用和可行的情况下寻求许可,尊重版权所有人的退出信号,并保持清晰的记录,区分其输出中人类贡献和人工智能生成的内容。2025 年 3 月的法院判决表明,技术保障措施可以显著增强合理使用的抗辩。2025 年 6 月的 DMCA 裁决提供了额外的安慰,即合理使用保护延伸至像删除 CMI 这样的技术预处理步骤,尽管这种保护仅适用于符合合理使用的使用情况。
版权所有人应为人工智能训练制定明确的许可条款,考虑集体许可来降低交易成本,实施机器可读的权利信息,并与人工智能开发者进行建设性接触。在许可方面先行一步的人已经看到了可观的收入——那些延迟行动的人可能会在标准固化时被抛在后面。
人工智能系统的用户必须明白,纯粹由人工智能生成的内容缺乏版权保护。版权局 2025 年的指导意见明确指出,仅凭提示词,无论其复杂性或迭代次数如何,都不能确立作者身份。组织应实施政策,确保对用于商业目的的人工智能生成材料有足够的人类创造性控制,妥善记录人机混合作品中的人类贡献,并考虑在其业务战略中使用不受保护的人工智能内容的影响。
未来可能的干预措施
如果特定类型内容的市场失灵持续存在,可能需要有针对性的解决方案。版权局得出结论,“如果特定类型的作品在特定背景下显示出市场失灵,则应考虑像扩展集体许可 (ECL) 这样的有针对性的干预措施。”《2025 年人工智能训练报告》,同上,第 106 页。
扩展集体许可将允许授权组织为整个类别的作品进行许可,并为所有者提供选择退出的权利。这种方法比强制许可的侵入性小,同时能实现广泛的覆盖。版权局指出,ECL“将允许版权所有者选择单独许可,同时为人工智能训练实现整个行业的全面覆盖。”同上,第 105 页。
Chhabria 法官在 Kadrey 案中提出的建议,即生成式人工智能行业会找到补偿版权所有人的方法,这表明司法界可能对金钱赔偿而非禁令救济持接受态度。他指出,“如果大语言模型 (LLM) 开发者的唯一选择是获得许可或放弃使用受版权保护的书籍作为训练数据”,那么许可市场很可能会出现,这表明法院可能会推动各方寻求协商解决方案。
如果法院在一致适用现有法律方面遇到困难,可以考虑进行法定澄清。国会可以明确合理使用如何适用于特定的人工智能训练场景。然而,版权局 2025 年的报告得出结论,目前没有必要立法,因为现有的法律原则足以解决版权性问题。《2025 年人工智能版权性报告》,同上,第 40 页;《2025 年人工智能训练报告》,同上,第 107 页。
国际协调是一个至关重要的长期考虑因素。美国应努力实现人工智能训练规则和人工智能生成内容版权标准的更大程度协调,以降低合规复杂性并确保一致的保护标准。
数字复制品保护建议
版权局的结论是,迫切需要新的联邦立法来解决未经授权的数字复制品问题。版权局建议国会设立一项联邦权利,保护所有个人在其有生之年免受故意分发未经授权的数字复制品的侵害。该权利应可许可,受制于保障措施,但不可转让,并应有包括金钱赔偿和禁令救济在内的有效补救措施。传统的次要责任规则应适用,但应为在线服务提供商 (OSP) 提供有适当条件的避风港。法律应包含明确的第一修正案调和条款。最后,考虑到各州已有的成熟的形象权,版权局建议不完全取代州法律。《2024 年数字复制品报告》,同上,第 57 页。
结论
人工智能与版权法的交汇,为美国法律体系带来了前所未有的挑战和机遇。正如本综合分析所展示的,现有的版权框架正受到人工智能技术的考验,这些技术既能从创意内容中学习,又能以前所未有的规模和速度生成创意内容。
美国版权局在 2024 年 7 月至 2025 年 5 月期间发布的三部曲报告,为驾驭这些未知水域提供了重要指导。版权局对人类作者身份要求的明确立场、对人工智能训练中合理使用的细致处理,以及对数字复制品保护立法的紧急呼吁,共同代表了在平衡创新与创作者权利方面的深思熟虑。近期的联邦法院判决,特别是 Alsup 法官和 Chhabria 法官在 Bartz 和 Kadrey 案中采取的不同方法,表明对这些问题的司法解释仍在变化中,很可能需要上诉法院乃至最高法院的解决。
本文探讨的宪法基础提醒我们,版权法有一个特定的目的:通过激励人类创造力来促进科学和实用艺术的进步。随着法院和政策制定者继续应对人工智能的影响,这一根本目的必须始终是指导法律发展的北极星。新兴的许可市场表明,自愿的、基于市场的解决方案可以解决许多问题,尽管在市场失灵的情况下,可能需要有针对性的干预。
展望未来,几个关键问题仍未解决。人工智能训练的合理使用范围、对人工智能辅助作品中人类贡献的保护程度,以及与人工智能相关的版权规则的国际协调将继续演变。然而,显而易见的是,法律框架必须经过深思熟虑和审慎的调整,既不扼杀技术创新,也不放弃长期以来鼓励人类创造性表达的保护措施。
随着人工智能继续改变创意产业,法律必须在其中寻求一种谨慎的平衡——这种平衡既要承认人工智能技术的变革潜力,也要承认人类创造力的不可替代价值。前进的道路需要技术专家、创作者、法律学者和政策制定者之间持续对话,以确保版权法在数字时代继续服务于其宪法宗旨。
引用
BibTeX
@article{agustin2025ai,
title={AI and Copyright Law: U.S. Framework for Training, Copyrightability, and Digital Replicas},
author={Agustin, Jonathan},
journal={Hugging Face Community Articles},
year={2025},
month={August},
day={9},
url={https://huggingface.co/blog/ai-copyright-analysis-2025},
}
Bluebook
Jonathan Agustin, AI and Copyright Law: U.S. Framework for Training, Copyrightability, and Digital Replicas, HUGGING FACE COMMUNITY ARTICLES (Aug. 9, 2025), https://huggingface.co/blog/ai-copyright-analysis-2025.