人工智能结构化危害报告:AIES 和 DEFCON 活动上的新研究论文!
📢 新论文被 AIES 2024 接收:人工智能的协同缺陷披露
我们很高兴地宣布,我们的论文《人工智能协同披露:超越安全漏洞》已被 AAAI/ACM 人工智能、伦理与社会大会 (AIES) 2024 接收!
作者: Sven Cattell、Avijit Ghosh 博士、Lucie-Aimée Kaffee
论文: https://arxiv.org/abs/2402.07039
为什么选择人工智能的协同披露?
随着人工智能系统在我们的日常生活中越来越普及,我们迫切需要健全的机制来识别和解决潜在危害。虽然网络安全社区有完善的漏洞披露实践,但人工智能领域缺乏报告算法缺陷的结构化流程。我们的论文旨在通过提出一个专门针对人工智能系统独特挑战的框架来弥补这一关键差距。
问题
目前,人工智能缺陷的识别通常依赖于第一方或第三方定期审计,或依赖调查记者在媒体上曝光问题。然而,这些方法在解决部署后可能出现的各种问题方面存在显著局限性。缺乏标准化、易于访问的报告流程意味着许多潜在缺陷可能未被发现或报告,从而可能导致危害。
我们提出一个名为“协同缺陷披露 (CFD)”的框架来解决这些挑战。通过为人工智能缺陷报告提供统一结构,CFD 旨在提高报告流程的可见性、可访问性和透明度。该框架创建了一个结构化渠道,使更广泛的个人(从人工智能研究人员和伦理学家到日常用户)能够报告他们遇到的问题。该框架提供了一种清晰、系统的方法来处理出现的报告,从而可能更快、更有效地响应已识别的缺陷。
主要贡献
调整 CVD 以适应人工智能: 我们建议调整网络安全领域的协同漏洞披露 (CVD) 流程,以创建专门为人工智能系统设计的协同缺陷披露 (CFD) 框架。
定义人工智能中的“缺陷”: 我们引入了人工智能系统中“缺陷”的概念,将其定义为超出模型设计定义的意图和范围的任何意外模型行为。此定义有助于明确应报告和解决的问题。
全面的模型卡: 我们倡导扩展模型卡,以提供系统意图和范围的详细文档,这对于有效的缺陷报告至关重要。此增强功能提高了透明度并有助于识别真正的缺陷。
独立仲裁: 我们的框架包括一个受信任的独立仲裁小组,负责调解缺陷识别过程中提交者和供应商之间的争议,确保公平公正的评估。
自动化验证: 我们提出了自动验证报告问题的机制,简化了流程并确保了可重现性。此功能有助于快速验证和解决报告的缺陷。
为什么它很重要
- 增强缺陷识别: 结构化披露流程鼓励更全面、系统地识别人工智能相关问题,从而提高整体系统安全性。
- 平衡利益: CFD 框架旨在平衡开发人工智能系统的组织的需求与更广泛社区了解和解决潜在危害的权利。
- 改进响应机制: 通过建立清晰的报告和解决缺陷的渠道,我们可能会加快解决已识别问题的过程,从而减少潜在的负面影响。
- 培养信任: 透明、标准化的缺陷披露流程有助于建立公众对人工智能系统及其开发组织的信任,这对于人工智能的更广泛采用至关重要。
从研究到实践:DEFCON 2024 上的 GRT2
为了将我们的研究付诸实践并在真实世界环境中测试所提出的框架,AI Village 及其合作伙伴正在 DEFCON 2024 上组织生成式红队 2 (GRT2) 活动。此活动将提供一个独特的机会来应用和完善协同缺陷披露 (CFD) 框架。
活动公告: https://grt.aivillage.org/announcement
GRT2 活动汇集了不同的利益相关者,以模拟和压力测试 CFD 流程。DEF CON 参与者将充当红队成员,识别并报告目标人工智能系统中的缺陷。一个由专家组成的独立仲裁团队将调解参与者与供应商之间的争议,这与传统 CVE 流程中的“根”角色相似。
我们研究的这种实践应用将有助于完善框架,提供对其实际实施的宝贵见解,并有助于开发更好的人工智能透明度平台。关于挑战的具体性质和不同利益相关者的更多细节即将公布!敬请关注 👀
展望未来
我们提出的 CFD 框架,结合 DEFCON 的 GRT2 活动中的实际测试,标志着在识别和解决人工智能系统问题方面迈出了更严格、更标准化的重要一步。我们希望这项工作能够激发关于有效人工智能治理和问责机制的讨论和进一步研究。
我们邀请人工智能伦理和安全社区参与我们的想法,提供反馈,并帮助完善这些概念,以期实现更安全、更透明的人工智能系统。如果您今年将参加 AIES 或 DEFCON,请与我们打招呼并讨论!
#AIES2024 #AIEthics #AIAccountability #StructuredHarmReporting #CoordinatedDisclosure #DEFCON #GenerativeRedTeam