我们为什么构建 OpenMDW 许可证:一份面向机器学习模型的综合许可证
作者:Linux 基金会
在过去几年中,机器学习已从实验性研究迅速成熟为生产基础设施。然而,支持机器学习模型开放和协作开发与分发的法律框架却滞后了。现有的许可证,无论是像 MIT 或 Apache 2.0 这样的宽松开源软件许可证,还是用于“开放权重”模型的限制性社区许可证,从未针对机器学习模型独特的组成、使用和分发模式进行设计;或者具有限制性,并对某些用户群体或用例施加了排除。是时候解决这个差距了。
因此,我们通过 Linux 基金会,并与亚马逊、Meta、IBM、微软及其他公司合作,开发了开放模型、数据和权重许可协议 (OpenMDW)。该许可证是专门为满足开放、负责任且有效地共享机器学习模型材料(包括大型语言模型 (LLM))的特定法律和实际需求而构建的。
问题:传统软件许可证不适用于机器学习模型
MIT、BSD 和 Apache 2.0 等宽松软件许可证为开源软件的数十年创新提供了动力。但机器学习模型不仅仅是代码。它们可以包括:
- 架构(配置和/或代码中)
- 训练参数(权重和偏差)
- 元数据和额外的配置文件
- 用于不同阶段/类型训练的数据集
- 软件和脚本(数据预处理脚本、训练和推理代码)
- 基准测试代码和数据集
- 分词器
- 模型输出
- 文档(技术报告、研究论文、模型和数据卡、手册)
除了软件,传统许可证没有明确说明这些产物。因此,当模型在 Apache 2.0 许可证等下发布时,可能会不清楚:
- 根据适用于软件知识产权的典型理解,训练权重是否可授权。
- 用户对生成输出享有哪些权利或可能适用哪些要求。
- 专利、商业秘密和数据许可证如何影响再利用。
不同类型的内容通常使用不同类型的许可证和协议。例如,MIT 等开源软件许可证可用于源代码;Creative Commons 许可证用于文档;而 CDLA-Permissive-2.0 等以数据为中心的协议用于数据。尽管模型分发者为不同内容类型选择合适的许可证可能很有用,但这对于不打算同时成为法律专家的 AI/ML 专家来说,可能是一项复杂的任务。
这种不明确性给公司、研究人员和开发人员带来了挑战和复杂性。OpenMDW 旨在解决这个问题。
专为机器学习定制的许可证
OpenMDW 许可协议 v1.0 提供了一个清晰统一的框架,用于许可机器学习模型分发的所有组件——我们称之为“模型材料”。
主要特点:
全面的范围:涵盖使用、复制或修改模型所需的代码、参数、数据集和其他组件。
灵活的输出:模型的输出不受许可证义务的约束,这意味着您可以自由使用和再分发输出,而无需受许可证的限制。
宽松条款:根据版权、专利、数据库和商业秘密法授予广泛的、免版税的权利,仅在再分发模型材料本身(而非其输出)时才要求保留通知。
专利安全:包含专利终止条款,以阻止激进诉讼,同时保持开放性。
兼容性和双重许可:OpenMDW 旨在与其他开放许可证共存,并支持双重许可模型——为现实世界的机器学习部署提供所需的灵活性。
涵盖但不强制:不要求模型材料中包含任何或所有组件,但涵盖所包含且不受其他许可证约束的组件。
全球通用且可互操作
OpenMDW 从一开始就被设计为一个支持多种分发方法的全球许可证。它允许模型开发者:
- 使用在不同开放许可证下的第三方组件。
- 将模型代码和参数在 OpenMDW 下组合,同时在 Creative Commons 许可证或其他兼容条款下发布数据集。
- 实现企业使用,同时保持开放性和透明度。
这种灵活性在机器学习中尤为重要,因为模型通常由不同方开发的模块化、分布式组件构建,并且基础模型发布后,会由社区进行微调、量化或进一步修改。
由社区构建,服务社区
OpenMDW 不仅仅是一份法律文件——它是开源软件和机器学习领域领导者之间协作的产物。该许可证由 Linux 基金会编写,并得到了以下机构的法律和技术专家的贡献:
- 亚马逊
- Meta
- IBM
- 微软
- PyTorch 基金会
- Linux 基金会
我们的共同目标是创建一份既合法有效、对现代机器学习工作流程实用,又易于社区理解的许可证。
为什么 OpenMDW 是模型分发的正确选择
无论您是发布最先进的 LLM 还是专门的领域模型,OpenMDW 都能提供您所需的清晰度、覆盖范围和灵活性:
- 您可以自信地发布模型材料,用户了解其权利。
- 下游用户可以构建、微调和部署模型,而无需担心模糊或缺失的条款。
- 组织可以更轻松地遵守整个机器学习堆栈中的许可条款。
简而言之,OpenMDW 是一种适用于当今机器学习实际开发、共享和部署方式的许可证。OpenMDW 旨在成为开放模型宽松许可的事实标准,并将帮助社区获得信心,相信在 OpenMDW 下许可的模型可以自由地修改、研究和再分发,用于任何目的。
了解更多
您可以在 openmdw.ai/license 阅读完整的许可协议,并在 openmdw.ai/faq 查阅常见问题。我们鼓励模型开发者、合规和法律团队以及开源社区审查并采纳此许可证。它在设计上就是开放的——并旨在随着生态系统的发展而演进。
随着人工智能世界的快速发展,让我们确保我们的法律基础设施也能跟上。OpenMDW 是迈向未来的一个步骤。