人工智能中的完整性威胁:数据投毒如何损害模型有效性

社区文章 发布于 2025 年 6 月 11 日

作者:大卫·斯特劳特 (David Strout)

原文发布于Duality AI 博客

image/jpeg

在信息安全的经典 CIA 三元组(保密性、完整性和可用性)中,完整性往往是人工智能系统中最微妙和危险的挑战。虽然保密性泄露或可用性中断通常是显而易见的,但完整性违规会随着时间的推移悄悄地破坏系统,直到损害发生才被发现。

在人工智能领域尤其如此,训练数据的质量和可信度直接决定了模型的行为方式。在 Duality,我们与国防部门合作伙伴的紧密合作促使我们开发出强大的保障措施,以在人工智能生命周期中保护数据完整性——我们相信这些经验教训对任何从事机器学习工作的人都很有价值。

在这篇博客中,我们将探讨数据投毒日益增长的威胁:它是什么,它是如何发生的,以及为什么它很重要。我们还将介绍保护数据免受操纵的最佳实践,以及高质量的合成数据如何为您的 AI 管道添加强大的保护层。

人工智能系统完整性的独特挑战

网络安全中的完整性是指在数据整个生命周期中保持数据的准确性、一致性和可信度。对于传统系统,这可能涉及防止未经授权的文件或数据库修改。然而,对于人工智能系统,风险要高得多。

与传统软件中代码以确定性方式决定行为不同,AI 模型从训练数据中的模式中推断其行为。这种根本性差异带来了独特的漏洞:对训练数据的细微修改可能会导致截然不同的模型行为,而无需更改一行代码 [1]。

数据投毒:无声的威胁

数据投毒攻击代表着重大的完整性威胁,恶意行为者会操纵训练数据以影响模型的行为。这些攻击在对数据集进行最小更改的情况下也能出奇地有效。

考虑以下场景:

  1. 标签翻转:通过更改分类数据集中仅一小部分标签,攻击者可以显著降低模型准确性或引入有针对性的错误分类。
  2. 后门攻击:在训练数据中插入特定模式可以创建“后门”,当这些模式出现在生产输入中时会触发意外行为。
  3. 概念漂移注入:策略性地添加逐渐改变模型对概念理解的示例,可能导致预测随着时间的推移而出现偏差。

这些攻击的微妙之处在于其特别令人担忧。数百万个示例的数据集可能会通过修改数百个实例而受到损害——这些更改几乎不可能通过人工检查检测到。

数据投毒的现实

数据投毒的威胁并非仅仅是理论上的。2020 年,研究人员发布了 MetaPoison,这是一种开源工具,它展示了数据投毒攻击在实际场景中的可行性。

MetaPoison 能够进行“干净标签”投毒攻击,这种攻击尤其令人担忧,因为被投毒的训练数据对人类检查员来说显得完全正常。该工具可以生成被投毒的图像,当这些图像包含在训练数据集中时,会导致模型在推理过程中错误地分类特定目标,同时在所有其他输入上保持正常性能 [2]。

MetaPoison 只是具有类似能力的一整个工具生态系统中的一个例子。此类工具的易用性凸显了对抗数据投毒攻击的迫切需求。这表明威胁不再局限于学术研究,而是已进入实际利用的领域。

放大效应

数据投毒的影响被现代 AI 开发固有的几个因素放大:

  • 模型复杂性:随着模型变得越来越复杂,它们对训练数据中细微模式的敏感度也越来越高。
  • 迁移学习:当预训练模型用作其他应用程序的基础时,被污染的数据可能会影响许多下游模型。
  • 自动化数据收集:随着越来越多的训练数据从各种来源自动收集,投毒的机会也随之增加。

研究表明,在某些情况下,即使只破坏一小部分训练数据集(通常少于 5%),也可以显著降低模型准确性或引入仅在特定条件下激活的特定后门行为 [3]。

防范数据投毒的保护措施

有几种方法可以帮助降低数据投毒攻击的风险:

1. 稳健的数据验证和溯源

实施严格的数据验证管道,跟踪每个训练示例的来源和历史,有助于识别可能受损的数据。这包括:

  • 数据源的加密签名:数字证明,通过加密验证数据的真实性,并验证数据来自受信任的源,并且在传输或存储过程中未被更改。这可以包括从来源通知到区块链交易的一切。
  • 数据修改的不可变审计跟踪:防篡改记录,记录对数据所做的每次更改,包括更改了什么、何时更改以及由谁更改。这些日志无法更改或删除,它们提供了维护数据完整性所需的透明度和问责制。
  • 传入数据的统计异常检测:统计检查可以发现不符合预期值范围、格式或分布的数据。特征分布的突然变化可能会揭示对训练数据进行细微投毒的尝试。

2. 定期模型审计

定期对精心策划的测试集上的模型行为进行评估,有助于检测可能表明投毒的意外性能变化。

3. 与可信伙伴合作生成合成数据

应对数据投毒攻击最有前景的方法之一是使用来自可信合作伙伴的合成数据生成工具。通过内部生成训练数据,组织可以大幅缩短数据监管链及其相关的攻击面。

合成数据具有以下几个主要优势:

  • 可控来源:当数据是生成而非收集时,其整个来源都是已知且可验证的。
  • 减少外部依赖:更少的第三方数据源意味着更少的受损机会。
  • 可定制的安全控制:内部生成允许实施针对特定需求的强大安全措施。
  • 可调整的体积和多样性:可以生成自然收集不可能达到的合成数据量和变化,从而提高模型鲁棒性。

随着人工智能模型在各种操作条件中承担更多角色,快速安全部署将需要一个值得信赖的数据供应链。上述每项功能都支持创建安全可靠的合成数据供应链——在这个供应链中,从生成到修改再到部署的每一步都是可追溯和可验证的。与传统供应链一样,最大限度地降低篡改风险取决于减少交接和保管点。

通过内部构建合成数据供应链,组织可以与值得信赖的安全合作伙伴协作,在其安全环境中部署合成数据生成工具。这种受保护的内部化可确保数据生成过程本身不会受到损害,同时缩短了监管链,减少了攻击面,并确保了高质量训练数据的完整性。

前进之路

在人工智能系统中维护数据完整性的挑战需要多方面的方法,包括技术保障、组织实践和行业标准。在 Duality,我们已经开发了对训练数据集以及用于生成数据集的数字孪生和孪生组件进行数字签名的能力。不可变的签名清单允许客户在训练周期的任何时候检查他们的数据,以确保其真实、完整且未被篡改。

虽然 Duality 主要致力于为国防部门解决这些挑战开发解决方案,但我们希望所有行业的供应商都能对这一关键问题投入大量的思考和资源。

随着人工智能日益融入关键基础设施、大批量制造、医疗保健、金融系统和其他敏感领域,这些系统的完整性成为公共安全和保障问题。组织必须超越将数据投毒仅仅视为技术挑战,并将其视为需要董事会级别关注的基本业务风险。

现在是行动的时候了——在重大事件发生并展示受损人工智能完整性的毁灭性潜力之前。通过投资于强大的数据治理、培训程序和持续监控,我们可以构建值得我们日益信任的人工智能系统。

想知道 Duality 如何帮助您的团队吗?

联系我们,讨论您的公司如何与 Duality 合作,或查看我们的免费订阅,获取您今天开始使用合成数据训练人工智能模型所需的二进制文件和学习资源!

参考文献和进一步阅读

[1] 《BadNets:识别机器学习模型供应链中的漏洞》(2019 年),Gu 等人著——该论文表明,影响不到 1% 训练数据的后门攻击可以达到 90% 以上的攻击成功率。https://arxiv.org/abs/1708.06733

[2] 《毒蛙!对神经网络的有针对性干净标签投毒攻击》(2018 年),Shafahi 等人著——展示了即使少量投毒示例也能显著影响模型性能。https://arxiv.org/abs/1804.00792

[3] 《针对联邦学习系统的数据投毒攻击》(2020 年),Tolpegin 等人著——演示了在联邦学习设置中,仅破坏 5% 的训练数据就能显著降低模型准确性。https://arxiv.org/abs/2007.08432

[4] 《使用数据投毒对深度学习系统进行有针对性的后门攻击》(2017 年),Chen 等人著——展示了数据投毒极少的情况下,后门攻击如何实现高成功率。https://arxiv.org/abs/1712.05526

[5] 《对图像分类器后门数据投毒攻击的系统评估》(2022 年),Jagielski 等人著——提供了对各种投毒技术及其有效率的全面分析。https://arxiv.org/abs/2204.06974

社区

注册登录发表评论