关于日本AI训练数据非法律建议

社区文章 发布于 2024年5月25日

本文最初编写于并将在 Shisa Wiki 页面上保持更新:日本的训练数据

如标题所示,这并非法律建议,但它是我目前对日本AI训练数据法律现状的最佳理解。我的背景是一名软件开发者,对知识产权法(如适用于自由/开源软件、GNU、知识共享、软件专利等)有着长期的(25年以上)兴趣,并且我曾深入研究日本民法和商法的相关部分,但我并非日本法律专家。

版权

目前,根据日本版权法PDF),经日本文部科学大臣永冈桂子于2023年4月再次确认为现行政策,规定所有作品都允许用于AI训练。

2024年3月,日本文化厅(ACA)发布了其最新的AI与版权草案文件(另见此摘要。经济产业省(METI)也有自己的文件/工作组)。另见日本AI战略委员会的备忘录。

以下是一些对此的更多分析和详情:

服务条款与合成数据

在日本AI推特上,我注意到许多人对使用模型生成的合成数据因违反服务条款(例如,OpenAI的服务条款等)而感到困惑/担忧。重要的是要理解,服务条款(TOS)是约束两个同意方的合同(参见合同相对性原则或日语术语“契約上の関係”),第三方不受其未同意的服务条款的约束(或违反)。请注意,服务条款(顾名思义)明确规定了对服务的“访问和使用”(而不是生成的输出本身)。

当然,每个人都应该遵守他们与服务提供商约定的服务条款(否则可能承担潜在的责任/后果),但第三方生成的任何数据,无论是合成的还是非合成的,都简单地属于您管辖范围内的相同版权法律/政策,并且不会自动对其施加任何额外的许可或法律条款。

备注

  • 最近出现了一种使用完全开放模型(例如 Mistral 或 CALM2-7B 模型)生成的合成数据的趋势。虽然这允许开发者训练自己的模型而无需担心服务条款问题,但从实际角度来看,目前开放模型的状态要弱得多,目前生成的合成数据质量较差,而且不一定能提供太多其他法律效益。

  • 例如,如前所述,由于服务条款的合同性质,服务条款的传递性或任何下游“数据污染”的概念不适用,但如果适用,使用任何开放模型都无济于事,因为它们都包含大量受服务条款限制的数据(当然也包括OpenAI的模型)。请注意,如果有人认为有责任(任何一方)永久/无限期地监管/控制生成内容的所有下游使用,那将属于日本民法典第133条:“第百三十三条 不能の停止条件を付した法律行為は、無効とする。”——“附有不可能的停止条件的法律行为无效。”

社区

注册登录 发表评论