Anthropic 裁决:AI 训练为何合法(但盗版仍非法)

社区文章 发布于 2025 年 6 月 24 日

联邦法院赞扬剽窃行为是罕见的。然而,在人工智能时代,什么是盗窃,什么是创新,尚无定论。作者与 Anthropic 之间最新裁决就是一个很好的例子。

本周,加利福尼亚北区联邦地区法院的威廉·阿尔苏普法官判决 Anthropic 胜诉。他裁定,该公司使用受版权保护的书籍来训练其 Claude 语言模型属于合理使用。法官对作者们关于他们的作品被用于营利目的的申诉不为所动。他写道:

就像任何立志成为作家的读者一样,Anthropic 的大型语言模型(LLM)在作品上进行训练,并不是为了超越、复制或取代它们,而是为了彻底转变并创造出不同的东西。

这一决定是硅谷的一个里程碑,硅谷长期以来一直认为机器学习更接近于学习而非盗窃。

然而,这项裁决对科技行业来说并非全然的胜利。阿尔苏普法官对 Anthropic 的另一个习惯 scathing 进行了严厉批评:下载数百万本盗版书籍来充实其数字图书馆。他说,这是明显的侵权行为。该公司现在将面临审判,并可能因其对版权的轻率态度而支付数十亿美元的赔偿金。信息很明确:创新不能让你免费盗版。

这是生成式人工智能版权案件中第一项详细阐述合理使用原则的重大裁决。这使其成为目前正在审理的数十起其他人工智能版权诉讼的先例。

实际发生了什么

这项裁决分为三个部分,都非常引人注目

  • ✅ 训练 AI 模型 = 合理使用 “法院表示,使用受版权保护作品来训练大型语言模型生成新文本的目的和性质是典型的变革性使用——你阅读、学习模式,然后创造出新东西。阿尔苏普法官明确驳回了人类阅读和记忆与计算机训练大型语言模型之间存在差异的论点。由于 Claude 不会输出精确副本,甚至不输出“某个作者可识别的表达风格”,因此这种变革性使用是完全合法的。

  • ✅ 将印刷品转换为数字版 = 合理使用 Anthropic 购买了数百万本实体书,将其扫描到数字图书馆中,然后销毁了原件。法官表示,这种出于存储和可搜索性目的的格式转换是允许的——你只是改变了容器,而不是复制内容。

  • ❌ 下载盗版书籍 = 不属于合理使用 这可能会带来高昂的代价。Anthropic 联合创始人 Ben Mann 在 2021 年初下载了整个 Books3 数据集(196,640 本盗版书籍)。随后,他们于 2021 年 6 月从 LibGen 获取了 500 万本,并于 2022 年 7 月从 PiLiMi 获取了另外 200 万本。总计超过 700 万本盗版书籍。

法官对此特别指出,Anthropic 自己曾辩称:“你不能仅仅通过声称你有研究目的,就去拿任何你想要的教科书。”法官表示同意,他写道,他“怀疑任何被指控侵权的人能否解释为什么从盗版网站下载原本可以合法购买或以其他方式访问的源副本,对于随后的合理使用本身是合理必要的。”

法院通过四个因素判断是否适用合理使用原则:

  1. 目的和性质 - 新的使用是变革性的还是仅仅复制?
  2. 作品的性质 - 原作品是创意性的(如小说)还是事实性的?
  3. 使用量 - 使用了原作品的多少部分?
  4. 市场影响 - 新的使用是否损害了原作品的销售?

接下来会发生什么

Anthropic 现在面临专门针对盗版书籍的审判,潜在赔偿金可能高达数十亿。以下是计算方法:根据《连线》报道,版权侵权的最低法定赔偿金为每本书 750 美元。以 700 多万本盗版书籍计算,潜在赔偿金超过 50 亿美元——这还是最低金额。

但训练使用被裁定为合理使用,这对整个 AI 行业来说是一个巨大的胜利。这一先例可能会影响正在法院审理的数十起其他 AI 版权案件。像 Meta 这样的其他公司也面临着因使用来自 LibGen 和其他来源的盗版内容而引起的类似诉讼。

现在的问题是,这是否会为 AI 训练许可证创造一个真正的市场,或者大多数公司是否会继续使用免费内容。考虑到 Anthropic 在购买实体书进行扫描上花费了大量资金,高质量的训练数据显然具有价值。

重要提示:这项裁决并未涉及 AI 模型输出是否可能侵犯版权——这是另一个仍在其他案件中争论的法律问题。这项裁决专门针对训练过程。

大局

事关重大。生成式人工智能,建立在浩瀚的人类创造力之上,现在为从搜索引擎到聊天机器人的一切提供支持。作家、艺术家和出版商理所当然地感到担忧,他们的作品被用来训练总有一天可能超越他们的系统。

裁决中的一段话直指问题的核心

随着时间的推移,Anthropic 开始高度重视作者们所著的这类书籍,将其用于数据混合,并重视它们所包含的创意表达。Claude 的客户希望 Claude 能像作者们那样准确、引人入胜地写作。因此,最好使用与作者们所著作品相似的作品来训练 Claude 背后的语言模型,这些作品具有精心策划的事实、组织良好的分析和引人入胜的虚构叙事——最重要的是,具有“编辑认可”的“好文笔”

人工智能公司的论点并非微不足道。进步依赖于知识的自由流动。然而,反驳也同样引人注目:如果创作者无法控制——或从——他们的作品如何被使用中获利,那么新作品的源泉可能会枯竭。

附加资源

社区

我坚信 AI 需要有效地利用小说、电影剧本和戏剧剧本来理解人类情感和思维结构。这不仅是为了定义情感,更是因为,在我看来,我们需要这些受人类想象力和创造力启发的思维框架内的资源。当我们考虑当今模型的数据集时,我实际上认为我们提供的信息非常有限。请记住,没有错误就没有真相。这应作为定义许多工作流程中许多表达方式的基本依据。

注册登录 发表评论