📚 人工智能训练数据透明度:工具、趋势和政策建议 🗳️
TL;DR
近年来,机器学习(ML)技术已变得无处不在,从支持各行业自动化决策的无数专用模型,到像ChatGPT这样被宣传为智能“通用系统”的产品一夜之间取得的成功。新的监管框架需要应对这种新范式带来的挑战,这种范式刺激了全球范围内对人工智能的重新监管努力。然而,尽管训练数据在塑造技术方面至关重要,但近期提案中的透明度要求范围仍然有限;这阻碍了监管保障措施随着训练方法的演变而保持相关性的能力,阻碍了个人确保其权利得到尊重的能力,也阻碍了开放科学和开发在实现新技术民主治理中的作用。与此同时,我们看到开发者的数据透明度呈下降趋势,特别是对于为机器学习商业应用开发的模型。
为了支持人工智能价值链的更大问责制,并促进尊重既定权利的技术发展,我们需要最低限度的有意义的公共透明度标准来支持有效的人工智能监管。这些标准应足够详细,以确保研究人员和民间社会有足够的途径获取人工智能系统训练数据集的相关方面,以支持其知情的治理,并在开发者的需求和提供潜在人工智能危害补救措施的能力之间取得更可持续的平衡。此外,认识到开放研究在提供对技术足够的共同理解以支持不同利益相关者之间讨论方面的基本作用,这些要求应伴随着支持开发和共享开放的大规模机器学习训练数据集,形式是进一步明确和操作指南,说明管理研究和开发中公开可访问数据使用的法律制度——例如欧盟CDSM文本和数据挖掘例外中的退出要求。
目录
引言
大多数当前的人工智能系统都是在机器学习(ML)范式下构建的,其中模型主要通过接触大量训练数据点并根据这些数据中的信号更新其权重来“学习”。简而言之,人工智能系统首先是其训练数据集的表示;这使得理解这些数据集中的内容对于管理模型至关重要。在此设置中,数据使用的各种方式也引发了关于数据主体财产、隐私和用户权利的问题;回答这些问题将需要最低限度的透明度,以了解数据如何以及在何处使用和管理。在这种情况下,更高的数据透明度支持更好的治理,并促进更可靠地尊重人们权利的技术发展。然而,在实践中,模型开发者提供了关于他们使用的数据的不同程度的信息,从提供直接访问和支持非技术利益相关者的工具,到完全不提供关于训练数据集的任何信息。
处于这个保守范围的开发者可能会将训练数据的组成视为竞争优势,害怕因数据使用的合法性不确定而面临法律风险,或者仅仅选择不优先考虑共享和记录数据集所需的工作——特别是考虑到开发能够有意义地描述数TB数据并以可访问的方式呈现的工具仍然是一个开放的研究领域。虽然这些决定在没有法律透明度要求的情况下可能对公司本身有意义,但它们确实造成了整个技术的问责差距,如果更多的开发者开始效仿,这种差距可能会进一步扩大。就目前而言,致力于揭示行业范围问题的记者和学者不得不退而求其次,分析由更开放的参与者共享的数据集,作为对那些透明度较低的系统数据集的必要但不充分的近似(例如,《华盛顿邮报》对C4数据集的分析,而不是实际的ChatGPT语料库)。
通过支持大型数据集的开放共享以用于研究和开发目的,并为任何开发者使用涉及外部权利人数据的情况制定最低有意义的透明度标准,监管可以在帮助人工智能领域实现更可持续的平衡方面发挥作用。共享整个训练数据集可能并非总是可行或可取,但近年来在机器学习数据治理、文档和可视化方面的大量研究支持了开发一系列工具,这些工具可以在不完全发布的情况下提供关于大型语料库的足够有意义的信息。本备忘录回顾了最近的大型机器学习模型开发者如何选择利用这些工具(或不利用)以提供不同程度的训练数据洞察,从而帮助确定在各种情况下什么可以构成最低透明度标准。
数据透明度焦点:需要什么?
为了界定什么是最低限度的有意义的透明度,我们可以首先审查一些现有和拟议的法规可能如何要求提供有关训练数据集组成的具体信息,以便在人工智能技术背景下强制执行。例如:
- 尊重被遗忘权:《通用数据保护条例》(GDPR)正式规定了欧盟公民删除或更正其个人数据或相关信息的权利。虽然从训练模型中随机和上下文编码的信息中进行编辑仍然是一个开放的研究问题,但要求从训练数据集的当前和未来版本中删除信息为未来模型或模型的未来版本提供了一条更可靠的途径来实现这一权利。然而,为了提出这样的请求,数据主体需要知道开发者在整理训练数据集时收集了哪些关于他们的相关信息。
- 尊重TDM豁免选择退出:欧盟《数字单一市场版权指令》规定了一项文本和数据挖掘制度,允许开发者轻松使用公开可访问的媒体,包括受版权保护的媒体,只要他们遵守以适当的机器可读格式表达的选择退出。然而,模型开发者是否以及如何遵守这些选择退出存在可见性不足的问题,这阻碍了内容创作者投资于技术工具和开发此类机器可读格式的新方法。
- 在数据集层面评估社会偏见以理解责任:集成到自动决策系统中的机器学习模型可能加剧歧视,违反保障不歧视和同等待遇的法律。鉴于当前人工智能系统的性质,特别是大型机器学习模型产生结果的不透明性,像人工智能责任指令这样的提案,使得当人工智能系统的开发者或部署者未能充分履行注意义务时,更容易追究其责任。对于影响系统重现或加剧歧视性结果可能性的社会偏见,评估这种注意义务需要评估从数据集整理到人工智能产品部署阶段所做的选择。
- 评估评估的可靠性:最近的监管努力旨在使人工智能系统更安全、更可靠。特别是,人工智能系统的用户需要能够评估其在各种任务上的性能,以评估它们是否可以安全地应用于其环境中。虽然开发者通常会以基准测试数据的形式提供有限的部署上下文之外的性能评估,但最近的研究表明,开发者提供的一些数据因“数据污染”问题而被夸大,即由于所选的评估设置与训练数据过于接近,导致基准测试高估了模型的性能。对于模型能力的每一次新评估,都需要检查这种重叠。
数据透明度模型
足够的数据透明度,以满足上述所有要求,可以通过一系列工具和方法来实现。在此,我们重点关注促进训练数据集可复现性和直接访问,并提供文档和可视化以呈现其组成洞察的开发选择。
可复现性和直接访问
直接访问机器学习数据集对于理解人工智能系统的主要特性和支持第三方研究人员、记者和其他调查人员的调查至关重要——包括关于由规模引入的社会偏见、由常见质量和毒性过滤方法引入的偏见,以及记者调查揭示的潜在隐私和知识产权问题。公共访问和可复现数据集特别有价值,因为它们使得在通常超出单个团队调查范围的问题上进行广泛协作成为可能,并且因为它们允许具有与开发者不同视角(通常是不同优先事项)的外部利益相关者以与他们更相关的方式提出这些问题。
可复现性和访问可以采取不同的形式。提供包含所有用于编译数据集的处理步骤和工具的代码库可能足以让资源充足的外部参与者获得与原始训练数据集非常接近的数据集。这是Google的C4和mC4数据集的最初发布方法,这些是包含数TB文本的基于网络的数据集,尤其用于训练Google的T5模型。通过提供脚本而不是即用型数据集,开发者提供了足够的信息来研究数据,而无需自己重新分发;然而,重构数据集通常需要大量的计算资源,这可能不是所有相关利益相关者都能获得的。或者,托管处理过的版本的数据集消除了这一入门障碍,但可能需要更精细的治理。非营利组织Eleuther.AI的The Pile数据集是托管数据集的一个例子,它支持了近期许多关于大型语言模型的研究。在实践中,大多数开放的、网络规模的数据集(尤其是多模态数据集)都介于两者之间,直接托管部分数据和元数据,并提供代码或方法来获取其余部分。例如,用于训练Stable Diffusion模型的LAION多模态数据集提供了与图像URL对齐的文本数据——将实际图像的检索留给潜在的数据集用户。
为了最好地支持监管和调查工作,数据集应该对任何具有相关专业知识的利益相关者(特别是关于人工智能系统的部署和社会背景的专家)开放。虽然在开放许可(如知识共享许可)下公开发布数据集通常是实现这一目标最直接的方式,但开发者也可以为他们的数据集采用更有针对性的治理模型——例如,完整的ROOTS语料库可以根据特定的研究需求按需提供,而The Stack数据集则要求用户保持其版本最新,以传播数据主体的退出请求。
文档和可视化
如上所述,直接访问对于能够对人工智能系统及其数据集进行新研究的利益相关者,以及寻求因数据滥用而获得补偿的权利持有人最为相关。对于更广泛的受众,关于机器学习数据集的见解也可以以更直接可访问的格式提供,通过文档和可视化工具来告知用户和监管机构。
机器学习数据集的文档,如数据声明、数据表、数据营养标签、数据集卡片和专门的研究论文,都为数据集策展人提供了交流训练数据集“基本特征”的机会,这些特征是理解其支持的人工智能系统行为所必需的,并且已被证明有助于开发者处理伦理问题。此类文档的常见要求包括:数据的来源和构成、数据集中所代表的人员的人口统计信息、描述性统计数据(例如单个数据项的数量或大小)、数据集的原始目的,以及创建数据集所遵循的处理步骤的高层描述。充分的文档可以作为数据集的广泛可访问的首次介绍,或者作为帮助部署者评估系统是否适合其目的以及何时不适合的方式。
数据表是常用的标准之一,伴随着DeepMind的Gopher和Chinchilla模型、Google的第一个PaLM模型以及TTIUAE的Falcon模型的发布或公告。然而,尽管这些文档是开发者为达到最低透明度标准所做的可喜努力,但需要注意的是,单一文档呈现包含数百万到数万亿文档的语料库的有意义和可操作信息的能力固有地受到限制。在这种规模限制下,理解如何从数据集文档中获取最大价值将需要进一步投资于机器学习数据测量的不断发展领域——以及对开放数据集和训练模型的访问以支持这项研究。以下示例说明了通过静态文档为最近的网络规模数据集提供的信息范围。此列表旨在说明而非详尽。
- 数据集论文:侧重于描述数据集创建过程和结果的论文通常包含大量关于重要处理步骤和完整数据集分析的信息。它们由原始数据集策展人或在原始策展人发布数据集后由其他研究人员撰写。
- The Pile 论文:用于训练 GPT-NeoX、Pythia 模型等的数据集。
- ROOTS 论文:用于训练 BLOOM 和 BLOOMz 模型的数据集
- RefinedWeb 论文:用于训练 Falcon 模型的数据集
- LAION 论文:用于训练 StableDiffusion 模型的数据集
- C4 分析:用于训练 T5、FlanT5 等的数据集。
- BooksCorpus 分析:第一个 GPT 模型的训练数据集
- 模型论文中的数据集分析:描述新模型的研究论文也可能提供关于其训练数据的有益统计信息。这些信息包括:网络爬取数据集中的顶级域名、数据集中代表的主题、长度统计、偏见分析(例如通过性别代词计数)等。
- 标准化格式:数据表、数据声明、数据集卡片和数据营养标签侧重于以更结构化和标准化的方式提供关于机器学习数据集的重要信息
对大型训练数据集进行交互式可视化可以补充静态文档,并帮助弥合静态文档和文档化构件之间的规模差距。许多需要对训练数据集提出的最紧迫问题都是高度情境化的,需要额外的处理才能做出与特定用例相关的评估。通过创建广泛可访问的界面,允许用户与训练数据集进行受控交互,开发者可以向利益相关者提供与他们特定需求相关的信息,而无需发布完整的底层数据。以下示例展示了如何利用此类可视化和探索界面处理最近的大规模机器学习数据集:
- Hugging Face的数据测量工具提供了对流行数据集(包括C4网络语料库)的广泛统计目录的访问。特别是,nPMI部分有助于根据用户提供的锚点揭示训练数据中的社会偏见,提供比单一表格更完整的画面。
- 由Nomic.ai开发的数据集地图(或 Atlas)利用机器学习系统计算的数据嵌入来帮助用户浏览非常大的数据集,提供主题的高级视图和具体的说明性示例。例如,OBELICS数据集是一个网络规模的多模态数据集,包含对齐的文本和图像,可以通过这样的数据集地图进行探索。
- 在训练数据集上托管搜索索引可以为需要查询数据集中特定文本或媒体存在情况的用户提供有价值的见解,并支持对在数据集上训练的人工智能系统进行广泛的研究。ROOTS 语料库搜索工具向用户显示数据集中相关的片段,其中敏感信息已进行编辑。GAEA 探索器将此搜索扩展到 The Pile、C4 和 LAION 数据集中的文本。LAION 数据集也随图像索引发布,允许用户查找语料库中与描述匹配的所有图像。
- 成员测试是一类特殊的工具,可以支持治理和合规性。例如,Stack 代码数据集的数据画像可帮助用户识别LLM生成软件代码字符串中哪些部分存在于训练数据集中。开发者还可以利用元数据来帮助用户检查他们的作品是否被包含在内,从而支持权利持有人提出的退出请求。
数据透明度趋势
前述段落阐明了开发者在各种限制下,为他们创建的技术提供有意义的数据透明度所能利用的一系列方法。了解如何最好地描述包含数十亿到数万亿示例的数据集仍然是一个新兴的研究领域,但自大型语言模型和其他类似规模人工智能系统出现以来的几年里,已经提供了宝贵的透明度工具,将有助于支持现有和拟议法规的实施。例如,它们能够沿着开发链分析社会偏见,以理解拟议的AILD下歧视性结果的责任,有助于满足欧盟人工智能法案最新版本中的版权披露要求,提供在CDSM TDM豁免制度下实施和验证数据主体退出请求的手段,并支持GDPR合规和执行等等。
然而,数据透明度面临的挑战不仅仅是技术问题,日益巧妙的文档和可视化工具的前景被许多知名人工智能开发者在发布选择上令人担忧的趋势所抵消。Google/DeepMind模型发布从T5模型的完全可复现的C4和mC4数据集(2019年),到描述DeepMind Gopher(2021年)和第一个Google PaLM(2022年)系统的论文中提供数据表和一些高层数据文档,再到PaLM v2公告(2023年)中的一句话。OpenAI在GPT到GPT-4以及Dall-E到Dall-E 3的发布中也遵循了类似的趋势,对这两个系列中最新系统的预训练信息全部保密。新公司Anthropic没有提供关于其Claude大型语言模型训练数据的任何公开信息,甚至Meta也在其Llama-2发布中限制了信息披露量,仅限于一段描述和一页额外的安全和偏见分析——此前其在训练第一个Llama模型时使用books3数据集被版权诉讼提及。
该领域大型参与者的这一趋势,与一些小型公司和非营利组织在更开放的环境下构建替代模型所做的工作形成鲜明对比。BigScience和BigCode项目以及非营利组织Eleuther.AI发布的基座模型,充分利用了上述所有工具来支持广泛的数据透明度和治理。MosaicML的MPT模型、TTIUAE的Falcon LLM系列以及Hugging Face的IDEFICS模型(DeepMind Flamingo的复现版)也使用公开可访问和有文档记录的数据集,并提供可视化工具。
支持不同开发模式的开放性和透明度对于促进人工智能系统的可持续治理至关重要。为了实现这一目标,最低法律透明度要求应允许数据主体行使其权利,并明确管理机器学习中公开可用数据使用的法律制度——例如,通过关于CDSM TDM豁免制度的操作指南。
引用方式
@inproceedings{Hugging Face Community Blog,
author = {Yacine Jernite},
title = {Training Data Transparency in AI: Tools, Trends, and Policy Recommendations},
booktitle = {Hugging Face Blog},
year = {2023}
}