夺回合理使用:对美国版权局生成式人工智能训练报告的技术和法律反驳

引言
在审阅美国版权局关于生成式人工智能训练的第三部分报告时,我注意到该报告采取了谨慎立场,大部分倾向于版权所有者。报告得出结论,复制作品以训练人工智能模型通常构成初步侵权,只有一小部分用途可能符合合理使用条件——尤其是在市场损害和许可机会丧失的声称下。在此回复中,我主张该报告的分析基于有缺陷的技术假设和版权法的错误应用。
首先,我审视了报告中关于机器学习、生成模型、数据抓取和训练过程的技术描述,指出了其中的不准确之处和误导性框架。我将展示这些误解如何导致错误的法律结论。具体而言,我认为报告:(1) 过分夸大了人工智能训练“复制”和存储表达内容的程度,混淆了人工智能的统计学习与人类阅读和学习的行为;(2) 低估了使用受版权保护作品作为信息输入以开发新人工智能能力的变革性质;(3) 采纳了一种宽泛的“市场损害”理论——包括一种新颖的“市场稀释”概念——该理论将竞争和创新视为侵权,而版权法并非旨在禁止这些行为。
我将首先纠正技术记录,解释生成式人工智能训练的实际运作方式以及它为何不等同于传统复制。然后,我将逐一批判性地分析报告的法律推理,表明在正确理解技术的情况下,人工智能训练中使用受版权保护的材料通常符合既定的合理使用先例。借鉴案例法(从Google Books到Sega v. Accolade)和学术评论,我将证明报告的许多结论——从将中间人工智能训练副本视为侵权到认可市场稀释等投机性损害——都没有法律或先例支持。最后,我将探讨政策含义:报告建议依赖自愿许可(甚至暗示集体许可)是建立在对合理使用过于悲观的看法和对许可可行性的过高估计之上的。对于国会和政策制定者,我相信更好的方法是认识到生成式人工智能训练可以与版权目标共存——在不损害原创作品市场的情况下促进创新和新创造——就像以前的技术(搜索引擎、数据挖掘工具等)在合理使用下所做的那样。
一、技术背景:纠正报告中的误解
A. 机器学习是分析性的,而非字面复制
在审阅报告对机器学习的描述时,我注意到它有时模糊了将作品用作信息输入与以普通意义上的“复制”该作品之间的界限。在机器学习中,算法摄取训练样本(文本或图像)并调整数字模型参数,以从这些样本中捕获一般模式——语法、风格、事实关联等。最终产品是一个数学模型,而不是逐字逐句的存储库。
事实上,即使报告也指出,生成模型不以字面文本或图像形式存储训练数据。它们将语言转换为标记(数字表示)并对这些标记进行统计加权。例如,一个在“那是最好的时代,那是最坏的时代”这句话上训练的人工智能模型不会保留文本副本。相反,它会调整其内部矩阵,以便当被提示“那是___的时代”时,它很可能会预测“最好”或“最坏”。这个过程类似于我作为读者吸收知识的方式——它是学习,而不是复制。
技术澄清:像大型语言模型(LLM)这样的生成式人工智能模型一次生成一个标记的输出,根据上下文预测下一个标记,而不是检索存储的内容。例如,给定“一闪一闪亮晶晶,满天都是小___”,LLM会预测“星星”,因为这个词的概率最高,而不是因为它正在检索一个存储的韵律文件。模型是从训练中泛化出来的,而不是复制了一个文件。
通过关注人工智能对“海量数据”的摄取,报告正确地观察了规模,但存在暗示该技术依赖于受保护表达的整体复制的风险。实际上,机器学习将这些作品视为数据,而不是要重新出版的创意作品。虽然报告有时在脚注中承认这一点,但我认为它在分析中没有始终保持这一关键区别,导致了站不住脚的侵权推理。
B. 生成模型抽象和压缩——它们不保留完整副本
报告专门用一节来讨论“记忆化”,并强调了关于人工智能模型“记住”特定训练示例的程度的争论。在我看来,这是一个关键的技术点。现代人工智能模型具有极强的压缩性:一个大型语言模型可能会摄入数百GB的文本,但将其浓缩成数十亿个编码一般知识的数值权重。除了极少数异常情况,模型无法从这些权重中重建任何特定文档;信息被转换和纠缠在一起。
研究表明,虽然可能会出现精确短语的记忆化,但这种情况很少见。报告引用了一项研究,发现一个拥有60亿参数的模型仅记忆了其数据集的约1%。实际上,这在2亿份文档中只有数千个精确序列——是异常情况,而非常态。开发者有强烈的动机来最大限度地减少记忆化,因为一个仅仅鹦鹉学舌般重复训练数据的模型用处不大,而且法律风险更高。
尽管报告列出了影响记忆化的因素,并提到了正在进行的缓解措施研究,但其法律分析通常将任何保留或输出原始文本的能力视为等同于复制。我认为这具有误导性。如果一个人类作者记住了一句喜欢的台词并在之后使用,上下文和程度很重要。对于人工智能而言,“记忆”是片段化和分散的。将人工智能训练称为完全复制作品的行为,就像说一个能背诵小说一句台词的学生“复制了小说”一样。绝大多数人工智能输出是新的,并且从未在训练集中逐字出现。
C. 数据获取和“抓取”:规模与可行性
报告正确地指出,开发者通过爬取和抓取互联网的大部分内容来组装训练数据集,这涉及数百万份作品。我同意将网页下载或抓取以包含在训练语料库中构成了未经授权的复制——但搜索引擎在缓存网页时也这样做,而法院长期以来一直认为这种复制可以是合理使用。
报告模糊了获取和使用之间的区别,在分析合理使用之前,将“数据收集和整理”与侵权行为混为一谈。如果数据是非法获取的(例如黑客攻击、盗版),我同意这不利于合理使用。但典型情况涉及抓取公开可用材料,我认为这类似于图书馆为索引制作副本——法院已将其确认为合理使用。
全面的数据收集对于最先进的人工智能至关重要。报告本身的证据表明,按照现代人工智能所需的规模来许可内容在实践中是不可能的。报告没有将此视为广泛合理使用的论据,反而对大规模使用持怀疑态度。我认为这忽视了赋能变革性技术的公共利益,就像搜索引擎被允许为公共利益索引网络一样。
D. AI 输出是新创作,而非非法派生作品
关键在于,对于绝大多数输入,输出并不存在一对一的对应关系。生成式人工智能模型不会仅仅吐出训练作品的“副本”,除非在极少数异常情况下。它会创造新的文本、图像或音乐,这些内容可能反映了许多作品的影响,但通常不包含任何特定作品的实质性部分。
如果某个输出与特定受版权保护的作品实质性相似(例如,ChatGPT逐字复制了半本小说),那么该输出本身就会构成侵权——但这属于人工智能的滥用,而非训练的固有结果。我认为这类似于文字处理器:它可以被用于侵权,但其创建和训练本身并不侵权。
风格模仿不构成版权侵权。人工智能可以像人类一样“以简·奥斯汀的风格”写作,但会产生新的表达。版权不保护风格或一般性的创作“声音”。我相信报告将风格影响与侵权混为一谈是越权的,它忽视了法律和技术现实。
技术要点总结
总而言之,我认为生成式人工智能训练是一种分析性、变革性的过程,更像是搜索索引或学生学习,而非图书的重印。虽然在输入阶段存在中间复制,但输出是新的创意内容。报告将人工智能开发视为另一种形式的内容挪用,从而过于严格地应用了版权法。在转入法律分析时,我将展示更准确的技术理解如何导致版权法下更为宽松的结果。
二、法律分析:报告结论为何越权
A. 初步侵权与中间复制
报告得出结论,生成式人工智能开发的几个阶段牵涉到所有者的专有权利,因此在没有抗辩的情况下构成初步侵权。从技术上讲,复制作品(即使是复制到RAM或模型的内存中)可以构成复制。但我认为分析不应止步于此。
有一系列判例认为,为变革性目的进行中间复制并不等于可诉的侵权,如果合理使用能证明其正当性。在《世嘉诉美凯乐案》中,法院裁定为逆向工程进行逐字复制是允许的。在《作家协会诉谷歌案》中,谷歌扫描数百万本书被视为初步复制,但由于复制是为了一个变革性的搜索工具,因此适用合理使用。
版权局的报告承认这些案例,但随后将整个人工智能流程——从数据抓取到模型部署——视为一个单一的、剥削性的行为。我认为这是对版权法的误用。将数千本书复制到人工智能训练集中,应根据其真实目的进行评估:它是一种旨在开发新技术的中间性、非消费性使用,而非直接的复制或改编。
任何初步复制都必须找到抗辩理由,但人工智能训练的变革性质是显而易见的:其目的是提取知识,而非享受或重新分发表达内容。报告实际上同意,对大型多样化数据集进行训练通常具有变革性,但如果所得模型用于商业用途或以影响作者的方式使用,则报告会犹豫。我认为这应在市场效应下进行适当审查——而不是作为否定初始变革性质的理由。
B. 要素一:使用目的和性质
在要素一之下,问题是次要使用是否添加了新的内容,具有进一步的目的或不同的性质。在我看来,人工智能训练是高度变革性的。其目的是提取知识,而非营销原始表达。
报告通过坚持人工智能模型的最终用途很重要——如果模型输出的表达性作品“构成竞争”,则使用具有较低的变革性——来淡化这一点。我认为这种推理混淆了目的与市场影响。即使输出服务于类似目的(例如娱乐),原始作品在训练中的使用是为了开发新的创造能力,而不是重新发布原始作品。我也不太相信报告试图将人工智能学习与人类学习在版权目的上进行区分;关键的法律问题是输出什么,而不是记忆的完美程度。
商业性质是相关的,但法院一再裁定,即使是100%的商业用途,如果其他因素强劲,也可以是合理的。在大多数人工智能训练中,目的和性质本质上是变革性的。
C. 要素二:所使用受版权保护作品的性质
要素二通常询问原作是事实性的还是创作性的,以及是否已发表或未发表。大多数人工智能训练数据都是已发表的,包括创作性和事实性材料。虽然使用创作性作品可能会使这一要素稍微不利于合理使用,但法院很少将要素二视为决定性的——尤其是在使用具有变革性并涉及已发表作品的情况下。即使是对创作性内容进行训练,我认为,更多的是为了提取功能或信息价值,而不是挪用作品的核心美学。
D. 要素三:使用部分的数量和实质性
人工智能系统通常会摄取完整作品。然而,版权法的分析在这里是情境敏感的:问题在于使用量是否对变革目的而言是合理的。在人工智能训练中,使用完整作品对于有效的模型性能通常是必不可少的。如同Google Books和其他合理使用案例一样,为了捕捉全面的模式,完全复制是合理的。人工智能训练并非针对作品的“核心”,而是将所有内容都视为数据。
E. 要素四:市场影响和“市场稀释”理论的滥用
报告中,要素四——对潜在市场的影响——被视为最重要的。报告声称,人工智能训练和输出通过造成销售损失、市场稀释和许可机会损失来威胁创作者。
我同意直接替代(例如,输出逐字逐句的作品)可能损害市场,并且不能作为合理使用进行辩护。但这种滥用很少见,可以通过输出限制和现有法律来解决。
我强烈不同意报告的“市场稀释”理论:即任何人工智能输出——即使没有复制——仅仅通过增加市场竞争就可以损害作者。没有任何法院曾经承认这在版权法下是可诉的市场损害。版权保护的是未经授权的表达复制,而不是竞争或新流派的出现。
同样,我也不相信关于人工智能训练的新兴许可市场意味着所有未经许可的使用都是市场损害的说法。法院长期以来一直认为,变革性用途的假设性或新许可市场不应计入合理使用。否则,任何新用途都将始终不利于合理使用,从而破坏该原则。
未经许可的训练所带来的公共利益——赋能新工具、民主化创作、推进科学——应有利于合理使用,尤其是在没有直接损害原始作品市场的情况下。
三、政策含义和结论:走向平衡的方法
版权局的报告敦促制定许可解决方案,但并未提出新的立法。虽然我支持创新和艺术家生计,但过分夸大人工智能训练的法律风险或暗示其通常需要许可可能会扼杀创新,并只让能够达成大宗交易的大公司受益。
合理使用是一种灵活的工具,历来促进了新技术的发展——复印机、录像机、搜索引擎和机器学习。生成式人工智能是这一演变过程的下一步。虽然偶尔出现的逐字输出或极端的风格模仿可能会引发问题,但我相信这些最好通过有针对性的技术或法律解决方案来解决,而不是一概将训练视为侵权。
我怀疑许可市场能否覆盖互联网内容的全部多样性,特别是对于小型或个人创作者而言。相比之下,合理使用允许使用各种作品——无论大小——只要其用途具有变革性且不对这些作品的市场造成损害。
其他国家,如日本和欧盟国家,已经认识到启用文本和数据挖掘的重要性,并制定了明确允许人工智能训练的例外条款。美国一直依赖合理使用来实现类似结果,从而支持了在搜索和人工智能领域的领导地位。
结论: 我敦促政策制定者和法院将人工智能训练普遍视为变革性的,类似于索引或分析,尤其是在输出用于研究、教育或创意增强的情况下。版权只应在存在对受保护表达的实际挪用或明显的市场替代时才承认损害。行业最佳实践可以进一步最大限度地减少记忆化和逐字输出。在可行的情况下,许可是有价值的,但在没有实际替代方案的情况下,不应成为合理使用的先决条件。将版权扩展到涵盖风格或市场替代将破坏版权的基本平衡并扼杀创新。
报告的谨慎态度虽然善意,但基于有缺陷的技术和法律前提。更细致的理解,植根于技术现实和法律先例,支持我的观点,即生成式人工智能训练是合理使用旨在保护的那种创新性、变革性活动。通过纠正报告的错误描述,我敦促采取一种平衡的视角——既保护创作者免受真正的盗用,又允许机器从人类文化中学习并推动下一代创造力和知识。
参考文献
美国版权局,《版权与人工智能,第3部分:生成式人工智能训练(预发布,2025年5月)》。
作家协会诉谷歌公司案(Google Books),804 F.3d 202(第二巡回法院,2015年)。
作家协会诉HathiTrust案,755 F.3d 87(第二巡回法院,2014年)。
坎贝尔诉阿库夫-罗斯音乐公司案,510 U.S. 569(1994年)。
安迪·沃霍尔基金会诉戈德史密斯案,143 S. Ct. 1258(2023年)。
世嘉企业有限公司诉Accolade公司案,977 F.2d 1510(第九巡回法院,1992年)。
索尼电脑娱乐公司诉Connectix案,203 F.3d 596(第九巡回法院,2000年)。
凯利诉Arriba Soft公司案,336 F.3d 811(第九巡回法院,2003年)。
Perfect 10公司诉Amazon.com公司案(Google图片搜索),508 F.3d 1146(第九巡回法院,2007年)。
A.V.诉iParadigms有限责任公司案,562 F.3d 630(第四巡回法院,2009年)。
Lemley & Casey,《合理学习》,99 Tex. L. Rev. 743(2021年)。
Cooper & Grimmelmann,《文件在计算机中:版权、记忆与生成式人工智能》(2024年)。
人工智能技术资料来源:Holtzman et al.,《神经网络文本退化的奇特案例》(ICLR 2020);Carlini et al.,《量化神经网络语言模型中的记忆化》(arXiv 2023);Somepalli et al.,《扩散艺术还是数字伪造?》(arXiv 2022);OpenAI,《模型:默认关键词和RAG》(2023年)。
政策资料来源:17 U.S.C. §102(b)(不对思想/风格提供保护);欧盟DSM指令2019/790,第3和4条(文本和数据挖掘例外);汉堡地方法院(2024年9月)– LAION案(适用德国TDM例外)。