道德与社会通讯 #4:文本到图像模型中的偏见

发布于 2023 年 6 月 26 日
在 GitHub 上更新

摘要:我们需要更好的方法来评估文本到图像模型中的偏见

引言

如今,文本到图像 (Text-to-Image, TTI) 生成技术风靡一时,成千上万的 TTI 模型被上传到 Hugging Face Hub。每种模态都可能受到不同来源的偏见影响,这就引出了一个问题:我们如何发现这些模型中的偏见?在当前的这篇博客文章中,我们分享了关于 TTI 系统中偏见来源的看法,以及解决这些问题的工具和潜在方案,展示了我们自己的项目以及来自更广泛社区的项目。

图像生成中编码的价值观和偏见

偏见和价值观之间存在着非常密切的关系,特别是当它们被嵌入到用于训练和查询特定文本到图像模型的语言或图像中时;这种现象严重影响了我们在生成图像中看到的输出。尽管这种关系在更广泛的 AI 研究领域是众所周知的,并且正在进行大量努力来解决它,但试图在单个模型中表示特定人群价值观的演变性质的复杂性仍然存在。这为发现和充分解决问题提出了一个持久的道德挑战。

例如,如果训练数据主要是英文的,它们很可能传达的是西方的价值观。结果,我们得到了对不同或遥远文化的刻板印象。当我们比较 ERNIE ViLG (左) 和 Stable Diffusion v 2.1 (右) 对于相同提示 “北京的一所房子” 的结果时,这种现象就显得很明显。


results of ERNIE ViLG (left) and Stable Diffusion v 2.1 (right) for the same prompt, a house in Beijing

偏见的来源

近年来,关于在自然语言处理 (Abid 等人,2021) 和计算机视觉 (Buolamwini and Gebru,2018) 的单一模态 AI 系统中检测偏见的研究取得了重要进展。由于机器学习模型是由人构建的,偏见存在于所有机器学习模型中 (实际上,也存在于所有技术中)。这可能表现为图像中某些视觉特征的过度或不足表示 (例如,所有办公室职员的图像都打着领带),或者文化和地理刻板印象的存在 (例如,所有新娘的图像都穿着白色婚纱和面纱,而不是更具代表性的世界各地新娘的图像,比如穿着红色纱丽的新娘)。鉴于 AI 系统部署在日益广泛应用于不同部门和工具 (例如 FireflyShutterstock) 的社会技术环境中,它们特别有可能放大现有的社会偏见和不平等。我们旨在下面提供一个非详尽的偏见来源列表:

训练数据中的偏见: 像用于文本到图像的 LAION-5B、用于图像字幕的 MS-COCO 以及用于视觉问答的 VQA v2.0 等流行的多模态数据集,被发现含有大量的偏见和有害关联 (Zhao 等人,2017, Prabhu and Birhane, 2021, Hirota 等人,2022),这些偏见会渗透到在这些数据集上训练的模型中。例如,Hugging Face Stable Bias 项目 的初步结果显示,图像生成中缺乏多样性,并且固化了对文化和身份群体的普遍刻板印象。比较 Dall-E 2 生成的 CEO (右) 和经理 (左) 的图像,我们可以看到两者都缺乏多样性。


Dall-E 2 generations of CEOs (right) and managers (left)

预训练数据过滤中的偏见: 在数据集用于训练模型之前,通常会进行某种形式的过滤;这会引入不同的偏见。例如,Dall-E 2 的创建者在他们的 博客文章 中发现,过滤训练数据实际上可能会放大偏见——他们推测这可能是因为现有的数据集偏向于在更性化的背景下表现女性,或者是由于他们使用的过滤方法本身存在偏见。

推理中的偏见: 用于指导 Stable Diffusion 和 Dall-E 2 等文本到图像模型训练和推理的 CLIP 模型存在许多有据可查的偏见,涉及年龄、性别、种族或民族,例如将标记为白人中年男性的图像视为默认值。这可能会影响使用它进行提示编码的模型的生成结果,例如将未指定或未充分指定的性别和身份群体解释为白人和男性。

模型潜在空间中的偏见: 在探索模型潜在空间和引导图像生成沿着不同轴 (如性别) 以使生成结果更具代表性方面,已经进行了初步工作 (见下图)。然而,需要更多的工作来更好地理解不同类型扩散模型的潜在空间结构以及可能影响生成图像中偏见的因素。


Fair Diffusion generations of firefighters.

事后过滤中的偏见: 许多图像生成模型都带有内置的安全过滤器,旨在标记有问题的内容。然而,这些过滤器的工作效果以及它们对不同类型内容的鲁棒性还有待确定——例如,对 Stable Diffusion 安全过滤器进行红队测试的努力表明,它主要识别色情内容,而未能标记其他类型的暴力、血腥或令人不安的内容。

检测偏见

我们上面描述的大多数问题都无法用单一解决方案解决——事实上,偏见是一个复杂的话题,无法仅用技术来有意义地解决。偏见与它所存在的更广泛的社会、文化和历史背景紧密交织。因此,解决 AI 系统中的偏见不仅是一个技术挑战,也是一个需要多学科关注的社会技术挑战。然而,结合包括工具、红队测试和评估在内的方法,可以帮助获得重要的见解,为模型创建者和下游用户提供关于 TTI 和其他多模态模型中包含的偏见的信息。

我们将在下面介绍其中一些方法。

用于探索偏见的工具: 作为 Stable Bias 项目的一部分,我们创建了一系列工具,用于探索和比较不同文本到图像模型中偏见的视觉表现。例如,平均扩散人脸工具可以让你比较不同职业和不同模型的平均表征——如下所示,这是 Stable Diffusion v1.4、v2 和 Dall-E 2 中“清洁工”的平均表征。


Average faces for the 'janitor' profession, computed based on the outputs of different text to image models.

其他工具,如 人脸聚类工具色彩丰富度职业浏览器 工具,允许用户探索数据中的模式,并识别相似性和刻板印象,而无需归属标签或身份特征。事实上,重要的是要记住,生成的个人图像并非真实的人,而是人工创造物,因此重要的是不要将它们视为真实的人类。根据上下文和用例,像这样的工具既可以用于叙事,也可以用于审计。

红队测试 (Red-teaming): “红队测试”包括通过提示 AI 模型并分析其结果来对其潜在的漏洞、偏见和弱点进行压力测试。虽然在实践中已用于评估语言模型 (包括我们参与的即将在 DEFCON 举行的生成式 AI 红队测试活动),但目前还没有成熟和系统化的方法来对 AI 模型进行红队测试,它仍然相对临时。事实上,AI 模型中存在如此多潜在的失败模式和偏见,以至于很难全部预见到,而生成模型的随机性使得重现失败案例变得困难。红队测试为模型局限性提供了可操作的见解,并可用于增加防护措施和记录模型局限性。目前没有红队测试的基准或排行榜,这凸显了在开源红队测试资源方面需要更多的工作。 Anthropic 的红队测试数据集是唯一开源的红队测试提示资源,但仅限于英文自然语言文本。

评估和记录偏见: 在 Hugging Face,我们大力倡导模型卡和其他形式的文档 (例如,数据表、README 文件等)。对于文本到图像 (以及其他多模态) 模型,使用上述探索工具和红队测试工作所做的探索结果可以与模型检查点和权重一起分享。问题之一是,我们目前没有用于衡量多模态模型 (特别是文本到图像生成系统) 中偏见的标准基准或数据集,但随着社区在这方面开展更多工作,可以在模型文档中并行报告不同的偏见指标。

价值观与偏见

上面列出的所有方法都是检测和理解图像生成模型中嵌入的偏见的一部分。但是我们如何积极地与它们互动呢?

一种方法是开发新模型,以我们希望社会成为的样子来呈现社会。这意味着创建的 AI 系统不仅模仿我们数据中的模式,而且积极推广更公平、公正的观点。然而,这种方法提出了一个关键问题:我们正在将谁的价值观编程到这些模型中?价值观因文化、社会和个人而异,这使得在 AI 模型中定义一个“理想”社会应该是什么样子成为一项复杂的任务。这个问题确实复杂且多面。如果我们避免在 AI 模型中重现现有的社会偏见,我们将面临定义一个“理想”社会表征的挑战。社会不是一个静态的实体,而是一个动态且不断变化的结构。那么,AI 模型是否应该随着时间的推移适应社会规范和价值观的变化?如果需要,我们如何确保这些转变真正代表社会中的所有群体,特别是那些经常被低估的群体?

此外,正如我们在之前的通讯中提到的,没有单一的方法来开发机器学习系统,开发和部署过程中的任何步骤都可以提供解决偏见的机会,从一开始就包括谁,到定义任务,到管理数据集,训练模型等等。这也适用于多模态模型以及它们最终在社会中部署或产品化的方式,因为多模态模型中偏见的后果将取决于其下游用途。例如,如果一个模型在人机协作的环境中用于图形设计 (例如由 RunwayML 创建的那些),用户有许多机会检测和纠正偏见,例如通过更改提示或生成选项。然而,如果一个模型被用作帮助法医艺术家创建潜在嫌疑人警察素描的工具的一部分 (见下图),那么风险就高得多,因为这可能在高风险环境中强化刻板印象和种族偏见。


Forensic AI Sketch artist tool developed using Dall-E 2.

其他更新

我们还在道德和社会的其他方面继续开展工作,包括

  • 内容审核
    • 我们对我们的内容政策进行了重大更新。自上次更新以来已近一年,Hugging Face 社区在此期间大幅增长,所以我们觉得是时候了。在这次更新中,我们强调同意是 Hugging Face 的核心价值观之一。要了解更多关于我们思考过程的信息,请查看公告博客
  • AI 问责政策
    • 我们向 NTIA 提交了关于AI 问责政策征求意见的回应,其中我们强调了文档和透明度机制的重要性,以及利用开放协作和促进外部利益相关者参与的必要性。您可以在我们的博客文章中找到我们回应的摘要和完整文档的链接!

结束语

正如您从我们上面的讨论中可以看出的,检测和处理多模态模型 (如文本到图像模型) 中的偏见和价值观问题,在很大程度上仍然是一个悬而未决的问题。除了上面引用的工作外,我们还与整个社区就这些问题进行互动——我们最近在 FAccT 会议上共同领导了一场关于该主题的 CRAFT 会议,并继续在此主题上进行以数据和模型为中心的研究。我们特别兴奋探索的一个方向是更深入地探究注入文本到图像模型中的价值观及其所代表的含义 (敬请期待!)。

社区

注册登录 以发表评论