关于日本AI训练数据非法律建议
本文最初编写于并将在 Shisa Wiki 页面上保持更新:日本的训练数据
如标题所示,这并非法律建议,但它是我目前对日本AI训练数据法律现状的最佳理解。我的背景是一名软件开发者,对知识产权法(如适用于自由/开源软件、GNU、知识共享、软件专利等)有着长期的(25年以上)兴趣,并且我曾深入研究日本民法和商法的相关部分,但我并非日本法律专家。
版权
目前,根据日本版权法(PDF),经日本文部科学大臣永冈桂子于2023年4月再次确认为现行政策,规定所有作品都允许用于AI训练。
2024年3月,日本文化厅(ACA)发布了其最新的AI与版权草案文件(另见此摘要。经济产业省(METI)也有自己的文件/工作组)。另见日本AI战略委员会的备忘录。
以下是一些对此的更多分析和详情:
- 2023-07-11 日本法律下生成式AI的法律问题 - 日本西村朝日律师事务所的三位律师提供了概览
- 2024-02-24 美国应借鉴日本生成式AI版权法的独特方法 - 一篇政策社论,也很好地涵盖了日本AI训练的现状(作为美国应采纳类似政策的论据)
- 2024-03-12 日本关于AI和版权的新草案指南:使用盗版材料训练AI真的可以吗? - 关于文化厅发布的最新指南。“委员会基本上支持第30-4条,允许摄取和分析受版权保护的材料用于AI学习,以促进AI的创意创新。只要不会对‘相关市场产生实质性影响’且AI使用不‘侵犯版权所有者的利益’,就无需征得版权所有者的同意。”
- 2024-05-01 日本政府关于AI和版权问题的报告 - 最新文化厅报告的完整英文摘要
- 更新:2024年5月日本AI与版权的一般理解概述(PDF) - 这是文化厅文化审议会版权小委员会法律分委会发布的一份新的英文演示文稿,总结了目前的思想。它重申了第30-4条,但明确警告不要从盗版分发网站收集数据,并涵盖了使用阶段的侵权问题(这在情理之中更加严格)。它还触及了AI生成材料的可版权性,这在很大程度上符合标准规范(AI生成作品通常被视为非创意作品,因此不被视为受版权保护的作品)。
服务条款与合成数据
在日本AI推特上,我注意到许多人对使用模型生成的合成数据因违反服务条款(例如,OpenAI的服务条款等)而感到困惑/担忧。重要的是要理解,服务条款(TOS)是约束两个同意方的合同(参见合同相对性原则或日语术语“契約上の関係”),第三方不受其未同意的服务条款的约束(或违反)。请注意,服务条款(顾名思义)明确规定了对服务的“访问和使用”(而不是生成的输出本身)。
当然,每个人都应该遵守他们与服务提供商约定的服务条款(否则可能承担潜在的责任/后果),但第三方生成的任何数据,无论是合成的还是非合成的,都简单地属于您管辖范围内的相同版权法律/政策,并且不会自动对其施加任何额外的许可或法律条款。
备注
最近出现了一种使用完全开放模型(例如 Mistral 或 CALM2-7B 模型)生成的合成数据的趋势。虽然这允许开发者训练自己的模型而无需担心服务条款问题,但从实际角度来看,目前开放模型的状态要弱得多,目前生成的合成数据质量较差,而且不一定能提供太多其他法律效益。
例如,如前所述,由于服务条款的合同性质,服务条款的传递性或任何下游“数据污染”的概念不适用,但如果适用,使用任何开放模型都无济于事,因为它们都包含大量受服务条款限制的数据(当然也包括OpenAI的模型)。请注意,如果有人认为有责任(任何一方)永久/无限期地监管/控制生成内容的所有下游使用,那将属于日本民法典第133条:“第百三十三条 不能の停止条件を付した法律行為は、無効とする。”——“附有不可能的停止条件的法律行为无效。”