伦理与社会通讯 #6:构建更好的 AI:数据质量的重要性

发布于 2024 年 6 月 24 日
在 GitHub 上更新

今年二月,Reddit 宣布与 Google 建立新的内容合作伙伴关系,他们将提供数据,以支持基于检索增强生成 (RAG) 技术的全新生成式 AI 搜索引擎。这次尝试并未按计划进行,很快,人们看到了诸如建议在披萨上加胶水之类的推荐。

在人工智能时代,海量数据推动着机器学习模型的成长和复杂化。但并非所有数据都是平等的;AI 系统需要高质量数据来产生高质量输出

那么,什么样的数据才算是“高质量”的,为什么从一开始就优先考虑数据质量至关重要?实现数据质量不仅仅是准确性或数量的问题;它需要在整个 AI 开发生命周期中贯彻一种全面、负责任的方法。随着数据质量重新受到关注,我们探讨了什么构成“高质量”数据,为什么从一开始就优先考虑数据质量至关重要,以及组织如何利用 AI 进行有益的举措,同时减轻隐私、公平、安全和可持续性方面的风险。

在本文中,我们首先对相关概念进行高层次的概述,然后再进行更详细的讨论。

什么是优质、高质量的数据?

好的数据不仅仅是准确或充足;它还应适合其预期用途。数据质量必须根据其支持的具体用例进行评估。例如,用于心脏病预测模型的预训练数据必须包括详细的患者病史、当前健康状况和精确的药物剂量,但在大多数情况下,出于隐私考虑,不应要求患者提供电话号码或地址。关键在于使数据与手头任务的需求相匹配。从政策角度来看,始终倡导对负责任的机器学习采取“安全源于设计” (safety-by-design) 的方法至关重要。这包括在数据阶段本身就采取深思熟虑的步骤。数据质量的理想方面包括(但不限于!)

  • 相关性 (Relevance): 数据必须直接适用于 AI 模型试图解决的特定问题,并对其有意义。不相关的数据会引入噪音,即数据中可能掩盖潜在模式并导致性能不佳或意外后果的随机错误或无关信息。“相关性”在各种关于数据质量工作中广泛认为至关重要的,因为它提供了对系统可能做什么或不做什么的控制,并有助于优化统计估计。
  • 全面性 (Comprehensiveness): 数据应捕捉到 AI 将遇到的真实世界场景的全部广度和多样性。不完整或狭窄的数据集可能导致偏见和被忽视的问题。这在数据质量工作中也被称为“完整性” (Completeness)
  • 时效性 (Timeliness): 特别是对于快速发展的领域,数据必须是最新并反映当前状况。过时的信息可能使 AI 系统无效甚至危险。这在数据质量工作中也被称为“时新性” (Currentness)“新鲜度” (Freshness)
  • 偏见缓解 (Mitigation of Biases): 收集数据会带来从数据源到收集协议等各方面的偏见。因此,数据选择工作必须尽一切努力避免编码无意的有害偏见,这些偏见可能导致系统加剧社会压迫、刻板印象、歧视和边缘化群体的代表性不足等问题。

虽然我们关注了一部分数据质量度量,但还有许多其他度量被定义出来,对机器学习数据集很有用,例如可追溯性 (traceability) 和一致性 (consistency)

为什么需要高质量数据?

投资于数据质量对于提高 AI 模型性能至关重要。在 AI 和机器学习日益融入决策过程的时代,确保数据质量不仅有益,而且是必不可少的。经过适当整理的数据使 AI 系统能够更有效、准确和公平地运行。它支持开发能够处理多样化场景的模型,通过优化资源使用促进可持续实践,并通过减轻偏见和增强透明度来维护道德标准。以下是数据质量的一些关键驱动因素:

  • 增强模型产出: 高质量数据通过消除噪音、纠正不准确之处和标准化格式来提高模型性能。
  • 鲁棒性与泛化能力: 多样化、多来源的数据可以防止过拟合,并确保模型在各种真实世界场景中都具有鲁棒性。当模型过度学习训练数据,包括其噪音和异常值,从而导致泛化能力差时,就会发生过拟合。
  • 效率: 高质量数据可以产生更高效、更紧凑的模型,需要更少的计算资源。
  • 表征性与包容性: 高质量数据应具有代表性和包容性,这有助于解决偏见、促进公平,并确保社会多元群体的代表性。
  • 治理与问责: 诸如数据来源、预处理和溯源的透明度等实践,确保了有效的 AI 治理和问责。
  • 科学可复现性: 高质量数据对于开放科学至关重要,因为它确保了研究结果的有效性,并有助于可复现性和进一步的研究。

实现数据高质量的流程是怎样的?

实现高质量数据集的过程涉及几个关键策略。细致的数据整理和预处理,如去重、内容过滤和人工反馈(例如,通过领域专业知识和利益相关者反馈),对于保持数据集与手头任务的相关性和准确性至关重要。参与式数据收集开放社区贡献增强了表征性和包容性。建立一个具有明确政策、标准和问责制的强大数据治理框架,可确保一致的数据管理。使用准确性和完整性等指标进行定期质量评估,有助于识别和纠正问题。详尽的文档,包括数据集卡片,可以提高可用性、协作性和透明度。最后,虽然合成数据可能是有益的,但应与真实世界数据结合使用,并进行严格验证,以防止偏见并确保模型性能。一些实现数据质量的方法包括:

下面我们将深入探讨这些不同的方面。

通过高质量数据提升模型性能

投资于数据质量对于提升 AI 系统性能至关重要。大量研究表明,更好的数据质量与改进的模型产出直接相关,最近的 Yi 1.5 模型发布也证实了这一点。实现高数据质量涉及细致的数据清理和预处理,以去除噪音、纠正不准确之处、填补缺失值并标准化格式。整合多样化的多源数据可以防止过拟合,并使模型接触到广泛的真实世界场景。

高质量数据的好处不仅限于改进指标。更干净、更小的数据集使模型能够更紧凑和参数高效,从而在训练和推理中需要更少的计算资源和能源。

通过高质量数据提升表征性

数据质量的另一个关键方面是表征性。模型通常在过度代表主流群体和观点的训练数据上训练,导致扭曲的物体表征、不平衡的职业和地点偏见,或对有害刻板印象的持续描绘。这意味着要包含社会所有群体的数据,并捕捉广泛的语言,尤其是在文本数据中。多样化的表征有助于减轻文化偏见,并提高模型在不同人群中的性能。此类数据集的一个例子是 CIVICS

参与式方法是实现这一目标的关键。通过让更多利益相关者参与数据创建过程,我们可以确保用于训练模型的数据更具包容性。像“众人拾柴数据高”这样的倡议鼓励社区为数据集做贡献,从而丰富了数据的多样性和质量。同样,Masakhane 项目专注于为非洲语言创建数据集,例如评估数据集,这些语言在 AI 研究中一直代表性不足。这些努力确保了 AI 系统在不同背景和人群中更加公平有效,最终促进了更具包容性的技术发展。

通过高质量数据实现治理与问责

保持高质量数据实践对于实现 AI 系统的有效治理和问责至关重要。数据来源、许可证以及任何应用的预处理过程的透明度都至关重要。开发者应提供关于数据溯源 (data provenance) 的清晰文档,包括数据来源、收集方式以及经历的任何转换。

这种透明度有助于外部审计和监督,从而能够对 AI 模型中使用的数据进行彻底检查和验证。清晰的文档和数据可追溯性还有助于识别潜在问题并实施缓解策略。这种透明度对于建立信任和促进负责任的 AI 开发至关重要,确保 AI 系统以道德和负责任的方式运行。

通过高质量数据实现适应性与泛化能力

另一个关键方面是确保数据反映出 AI 模型在不同情境下适应和泛化所需的多样性。这包括捕捉代表真实世界的广泛语言、文化、环境和边缘案例。涉及受影响社区的参与式数据收集方法可以丰富数据集并提高表征性,从而确保模型的鲁棒性和适应性。

持续评估模型在不同人群中的表现是识别泛化能力差距的关键。实现适应性强的 AI 取决于持续的数据收集和整理过程,这些过程能吸收真实世界的反馈循环。随着新产品的发布或商业环境的变化,训练数据应同步演进以反映这些变化。开发者应实施流程来识别数据漂移和模型性能下降,确保 AI 模型在变化的环境中保持相关性和有效性。

通过高质量数据实现科学可复现性与可复刻性

在研究领域,数据质量对研究结果的可复现性 (reproducibility) 和有效性 (validity) 有着深远的影响。质量差的训练数据可能损害实验的完整性,并导致不可复现的结果。严格的数据质量实践,例如对预处理步骤的细致文档记录和数据集的共享,使其他研究人员能够审视研究结果并在此前工作的基础上继续发展。

可复刻性 (replicability) 被定义为使用新数据得出与先前研究相同科学发现的过程,这是一个更为细致的概念。有时,一项研究的不可复刻性实际上可能通过将研究从一个狭窄的应用领域扩展到更广阔的领域来促进科学进步。无论如何,如果没有对数据收集程序和训练方法的适当文档记录,可复刻性也是困难的,而当前 AI 领域的可复现性和可复刻性危机可以通过高质量、文档完善的数据得到显著改善。

高质量数据需要高质量的文档

对于高质量数据而言,一个关键方面与代码一样,就是对数据进行详尽的文档记录。适当的文档能让用户理解数据的内容和背景,从而促进更好的决策,并增强 AI 模型的透明度和可靠性。Hugging Face Hub 提供的数据集卡片 (dataset cards) 是数据文档记录的创新方法之一。有多种方法可以记录数据,包括数据声明 (data statements)数据表 (datasheets)数据营养标签 (data nutrition labels)数据集卡片 (dataset cards),以及专门的研究论文。通常,这些文档方法涵盖数据来源和数据集构成、处理步骤、描述性统计(包括数据集中代表的人口统计信息)以及数据集的原始目的(关于数据透明度的重要性,详见此处)。数据文档,如数据集卡片,可以帮助实现:

  • 增强可用性: 通过提供清晰全面的数据集概览,数据集卡片让用户更容易理解和有效利用数据。
  • 改进协作: 详细的文档促进了更好的沟通和协作,因为每个人都对数据有共同的理解。
  • 明智决策: 借助关于数据的详细信息,用户可以就其应用和对各种任务的适用性做出更明智的决策。
  • 透明度和问责制: 详尽的文档促进了数据管理的透明度和问责制,从而在用户和利益相关者之间建立信任。

关于合成数据的说明

合成数据已成为真实世界数据的一种成本效益高的替代方案,为训练和测试 AI 模型提供了一个可扩展的解决方案,而无需承担与收集和管理大量真实数据相关的费用和隐私问题,例如在 Cosmopedia 项目中的实践。这种方法使组织能够根据特定需求生成多样化的数据集,从而加速开发周期并降低成本。然而,必须意识到潜在的缺点。如果生成数据的算法本身存在偏见,合成数据可能会无意中引入偏见导致模型产出出现偏差。将模型输出标记为生成内容非常重要,例如通过水印技术,支持跨不同模态概述)。此外,过度依赖合成数据可能导致模型崩溃 (model collapse),即模型过度拟合合成数据的模式。因此,虽然合成数据是一个强大的工具,但应谨慎使用,并辅以真实世界数据和稳健的验证过程,以确保模型的性能和公平性。

Hugging Face 的数据质量实践

确保高数据质量对于开发有效和可靠的 AI 模型至关重要。以下是 Hugging Face 团队采用的一些数据质量策略示例:

数据质量的一个关键方面是过滤和去重。例如,在创建像 FineWeb-Edu 这样的大型高质量数据集时,Hugging Face 使用了诸如 DataTrove 之类的工具。过滤涉及仅选择相关且高质量的数据,确保数据集全面而无不必要的噪音。去重则移除冗余条目,从而提高 AI 模型的效率和性能。这种细致的方法确保了数据集保持鲁棒性和相关性。

负责任的多模态数据创建是 Hugging Face 树立榜样的另一个关键领域。OBELICS 数据集展示了这方面的几个最佳实践。一个重要的实践是选择退出过滤 (opt-out filtering),即使用像 Spawning 这样的 API 移除已选择不进行再分发或模型训练的图像。这尊重了内容创作者的权利和偏好。此外,去重确保图像在整个数据集中出现不超过十次,减少了冗余并确保了多样化的表征。内容过滤也至关重要;使用开源分类器检测和排除 NSFW(不适宜工作场所)内容,并根据其 URL 过滤图像,以保持数据集的适当性和相关性。

处理多样化的数据类型是 Hugging Face 采用的又一策略。在创建 The Stack V2 时,该数据集涵盖了广泛的编程语言和框架,团队精心挑选了仓库和项目以确保多样性和全面性。自动和手动的质量检查验证了数据集中代码的句法正确性和功能相关性,从而保持了其高质量——例如,BigCode 项目中的去重工作

使用数据标注工具(如 Argilla)收集人工反馈对数据质量有显著影响,特别是通过让利益相关者参与数据创建过程。这方面的例子包括通过人工整理改进 UltraFeedback 数据集,从而产生了 Notus,这是 Zephyr 模型的改进版本;以及“众人拾柴数据高”倡议的社区努力。

除了这些具体实践之外,还有一些通用策略可以确保数据质量。建立一个强大的数据治理框架是基础。该框架应包括数据管理的政策、标准和流程,并明确定义角色和职责,以确保问责制并维持高标准。定期的质量评估也至关重要。这些评估可以使用准确性、完整性、一致性和有效性等指标,帮助及早发现和解决问题。数据剖析和统计分析等工具在此过程中能发挥重要作用。

您在进行数据质量方面的工作吗?快来 Hugging Face Hub 上分享您的工具和方法吧!

Hugging Face 最重要的部分是我们的社区。如果您是一名专注于提高机器学习数据质量的研究人员,尤其是在开放科学的背景下,我们希望支持并展示您的工作!

感谢阅读! 🤗

~ Avijit 和 Lucie,谨代表 Ethics & Society 常驻贡献者

如果您想引用这篇博文,请使用以下格式(作者按字母顺序排列)

@misc{hf_ethics_soc_blog_6,
  author    = {Avijit Ghosh and Lucie-Aimée Kaffee},
  title     = {Hugging Face Ethics and Society Newsletter 6: Building Better AI: The Importance of Data Quality},
  booktitle = {Hugging Face Blog},
  year      = {2024},
  url       = {https://huggingface.co/blog/ethics-soc-6},
  doi       = {10.57967/hf/2610}
}

社区

注册登录以发表评论