欧盟训练数据透明度:一项关于足够详细摘要的提案 📑📚🖼️🇪🇺

社区文章 发布于2024年7月3日

两周前,OpenFuture和Mozilla发布了一项模板提案,旨在满足欧盟人工智能法案对GPAI训练数据集“足够详细摘要”的要求。该模板是在与一些贡献者(包括我本人)对话后设计的,并由Zuzanna Warso、Maximilian Gahntz和Paul Keller共同撰写了一份出色的政策简报。该政策简报可在此处查阅:《迈向稳健的训练数据透明度》

在撰写本文时,该文档是目前提出的最全面的欧盟人工智能法案训练数据摘要之一。它既解决了利益相关方对GPAI系统可能存在的广泛合法问题,又兼顾了不同限制之间的必要权衡。尽管人工智能办公室仍需进一步讨论和工作以达成最终版本,但这份初步提案所涵盖的考虑范围之广,使其成为一个强有力的起点,或支持持续对话的重要参考文件。该提案尤其受到作者对两个关键方面的关注而得到加强,即:将所需信息与数据摘要的监管授权相匹配,并解决通用人工智能系统训练中涉及的数据来源和用途的多样性问题。

image/png 提议的数据摘要蓝图概述

动机、授权和详细程度

尽管欧盟数据摘要与数据声明、数据表数据营养标签等其他数据集文档格式共享一些目标和动机,但了解其要求与这些格式有何不同对于管理文档化大型复杂人工智能制品固有的各种利益权衡至关重要。

为此,政策简报首先审视了这份数据摘要的任务:它必须“足够详细”,以满足欧盟公民和组织在维护其欧盟法律权利方面的合法利益,同时“充分考虑到保护商业秘密的需要”。该法案的现有文本明确提及版权是此背景下合法利益的一类,并且欧盟法律和章程还支持隐私和数据保护、科学、非歧视和公平竞争等权利——所有这些权利的保障都依赖于有关通用人工智能训练数据的信息,正如简报所述。

这使得欧盟数据摘要成为两种相互竞争利益之间的隐含权衡。所提供的训练数据信息必须在以下两者之间取得平衡:一方面,足够有意义,以便利益相关者(对通用人工智能的开发和特性有各种合法疑问)能够有足够的起点进行调查;另一方面,对商业秘密进行“充分考虑”,但不是绝对服从。该模板还应避免要求过于复杂的流程,这些流程可能会将善意但资源较少、组织约束与大公司不同的参与者排除在外,因此应以直接且自解释的最低要求为目标,以满足所需信息类型。

提议的蓝图方法和亮点

OpenFuture和Mozilla提出的提案通过围绕特定问题构建蓝图来解决这些矛盾。这些问题既受到从业者对模型训练中数据整理不同阶段的理解的影响,也受到简报中概述的合法利益类别的启发;并分为涵盖数据集一般信息、数据源和单个数据集、数据多样性以及训练中的数据处理等部分。

这份蓝图非常值得通读,欢迎从业者和其他利益相关者提出意见!首先,以下亮点应能让您了解所涉及的问题类型和所采用的方法:

  • 数据源类型、数据来源和数据集用途的差异:欧盟人工智能法案要求对用于GPAI系统训练的数据进行摘要。然而,在当前模型训练实践中,这涵盖了许多不同类型的数据,用于许多不同的用途——并且根据其获取方式(例如,可公开访问的网络数据、从版权所有者获得许可的数据、从数据工作者购买的数据、商业系统部署的用户数据等)以及其用途(例如,具有给定训练目标的预训练、微调、验证或评估、性能或安全性等)需要不同类型的文档。这种多样性凸显了简单性要求和支持摘要所需的足够详细程度之间的紧张关系:尽管尝试为所有这些类型的数据集和数据来源提出单一的文档格式可能很诱人,但它们在社会和法律背景以及对训练系统影响方面的有意义差异可能会使其变得无关紧要,因为淹没了在不同上下文中最重要的特定信息。
  • 记录网络域的头部分布: 在人工智能数据讨论中,一个特别受到关注的训练数据背景是预训练中网络爬取数据的使用。通过处理CommonCrawl档案或公司自己的网络爬取工具从公开可用的网络源获取的数据,在GPAI训练数据摘要中占据了很大一部分内容。网络规模的爬取数据集很难系统地记录,尤其是在静态格式下,但一种提供对权利持有人和具有合法利益的组织有意义信息的方法是列出其中包含的顶级网络域。例如,Google Deepmind 提供了 MassiveWeb 数据集的前20个域(Gopher LLM 论文,2021年,附录 A),这些域合计占总数据的15%,并很好地反映了内容整理过程中优先处理的文本类型。最近的网络数据集比 MassiveWeb 大了几个数量级,但顶级域仍然提供了有意义的信息。例如,在最近发布的FineWeb 数据集(2024年)中,该数据集包含来自400万个域的数据,前100个域占数据集中页面的5%,前1000个和前10000个域分别占13%和28%(而仅占域的0.025%和0.25%)。在数据摘要中提供这些列表对具有合法利益的各方具有高价值,他们可以独立调查这些网络域上托管的文本和媒体类型,以得出关于该技术的结论,同时最大限度地减少开发人员试图预测这些问题可能是什么所需的工作量。

所提议的数据摘要蓝图的每个方面都对应着类似的尝试,旨在找到在各种利益相关者的实用性和开发人员的可行性之间取得恰当平衡。实现这种平衡对于使摘要实用并发挥其作为技术可持续治理工具的作用至关重要——未来几个月将对实现欧盟的这一成果至关重要🇪🇺。

额外资源

社区

注册登录 发表评论