人工智能民主化、开源和人工智能审计:来自柏林 DisinfoCon 小组的思考

社区文章 发布于 2024 年 10 月 8 日

上个月(2024 年 9 月),我有幸在 DisinfoCon 小组讨论“审计生成式 AI 模型:识别和减轻对民主话语的风险”上发言,同台发言的还有 Brando Benifei(欧盟议会)和 Oliver Marsh(算法观察)。我们讨论了开源 AI 的风险和潜力、透明度和问责制以及审计。

这篇博客文章涵盖了我基于小组讨论的见解和主持人 Francesca Giannaccini 的提问,对这些主题的一些思考。这些都是我经常在谈论开源 AI 和欧盟 AI 法案最新进展时遇到的问题。

访问 AI 模型

从您的角度来看,我们如何平衡 AI 民主化的愿望与减轻风险的需求?

使 AI 更广泛地可访问并支持开放访问和开放科学意味着 AI 开发中的权力下放。这是我们应该努力实现的目标,因为它能让更广泛的声音被听到——它也能够促进关于如何使 AI 模型安全的工作和研究。

同样重要的是要记住,开源 AI 模型并不意味着 AI 的更广泛可访问性。并非所有人都有运行 AI 模型的资源或技术理解。大多数人与 AI 系统交互,这些系统通常是聊天界面,然后也可以用来创建和传播虚假信息。事实上,我们看到目前通过这些更用户友好的聊天界面发生了大量的 AI 滥用。这意味着,我们不应该将开源 AI 置于更大风险的背景下。它允许研究人员和开发者发明新的工具来减轻风险,因为他们可以深入理解这些模型的工作原理。

这也是 Hugging Face 道德开放的方法——在我们自己的模型(以及合作创建的模型)的开发中,我们旨在示范道德 AI 开发可能的样子。例如,通过为我们合作的项目提出道德章程,使其透明化开发者在开发 AI 模型时将哪些价值观置于核心位置,或者通过提出机制让数据所有者选择不参与模型训练数据

对于我们托管的模型和数据集,我们提供工具以实现负责任的共享。有标记功能,使社区能够标记他们认为不适合共享或不符合我们行为准则内容政策的模型。模型可以被指定“不适合所有受众”标签,以表明数据集和模型不应该自动推荐给用户。例如,这对于需要共享和用于过滤但不能用于训练的数据集(例如仇恨言论数据集)很有用。我们鼓励通过模型卡数据集卡深入文档化 AI 人工制品,并使用促进负责任的 AI 开发和重用的OpenRAIL 许可证

开源 AI 的定义

您能为我们澄清一下开源的概念吗?“开放”模型总是能保证完全透明吗?

模型发布有不同的阶段。当我们谈论闭源模型时,我们通常指只能通过接口(例如聊天机器人)或 API(开发者与 AI 系统通信的方式,类似于聊天机器人)访问的模型。

当我们想要定义开放模型时,我们需要研究 AI 模型的开发生命周期。开源计划 (OSI) 正在制定开源 AI 的定义。根据此定义,如果以下内容可用,则 AI 模型被视为开源:数据,或足够详细的关于用于训练系统的数据信息,以便熟练人员可以重新创建模型的训练。在开放许可下用于训练和运行 AI 系统的代码和算法。最后,权重和参数,它们可以被视为模型本身。

目前,我们看到模型根据此定义发布,但也存在开放模型,其中我们只能访问模型权重,这些权重可用于运行模型,但无法实质性地更改或重新创建模型。

更好地理解开放性对监管的意义至关重要,但它也对我们能理解和访问模型的程度产生不同的影响。例如,对于闭源模型,我们无法访问模型的任何部分,因此对文档的要求需要比开放模型更严格,开放模型可以访问模型的不同方面,可以“看一看”。

审计 LLM 模型

鉴于该领域不断发展,您认为审计人工智能系统最有希望的方法是什么,以及审计过程的输出应该是什么样的?

在我们的论文《AI 协调缺陷披露:超越安全漏洞》中,我们提出了一种受网络安全启发的协调缺陷披露方法,其中所有用户都可以帮助发现和报告缺陷。拥有系统化的 AI 系统缺陷披露方法非常重要,以确保所有问题都能得到解决,而不仅仅是那些已经被人们和社区提出的问题。我的合著者在今年的 DEFCON(美国最大的黑客大会)上运行了一个红队和漏洞赏金计划

人工审计是一个费力的过程,它只能是评估 AI 系统的一块拼图。我想指出 AI 审计领域现有的工作,例如论文《AI 审计:通往 AI 问责制的破损巴士》,该论文发现只有一部分 AI 审计研究转化为预期的问责制成果。

目前正在进行社会影响评估方面的工作,我认为这非常相关。Hugging Face 参与了一项倡议,该倡议汇集了学术界和来自不同机构的代表,共同努力进行社会影响评估。随着 AI 的发展,这些评估也需要发展,因此,从一开始就将广泛的视角纳入讨论非常重要。

社区

注册登录以发表评论