简介
欢迎来到计算机视觉中伦理与偏见单元的简介章节。本章将为我们将在本单元后面遇到的许多重要概念奠定基础。在本节中,我们将
- 结合示例,介绍流行的 ImageNet Roulette 案例研究,探讨计算机视觉中的伦理和偏见。
- 探讨它可能对个人和某些群体产生的影响。
- 了解实验的后果。
- ImageNet 团队为解决和缓解这些问题所做的努力。
- 以一些关于案例研究的问题结束本章,并为后续章节奠定基础。
让我们开始吧 🤗
ImageNet Roulette:分类中偏见的一个案例研究
想象一下,你星期天早上醒来,玩弄你的手机。你偶然发现了一个应用程序,如果你上传不同的图片或自拍,它会尝试返回一些讽刺和有趣的标签。你并不介意一些乐趣,所以你尝试通过上传自拍来使用该应用程序,令你震惊的是,它返回了一个令人震惊的标签。它将你描述为犯罪嫌疑人(这种罪行也可能非常危险和令人发指)。你还在同一个应用程序上看到了一些关于不同人的挑衅性标签的社交媒体帖子,增加了种族和性别定性的可能性。其中一些标签可能意味着一个犯罪者,一个具有特定面部特征与种族相关联的人,或一个人的祖先。这个应用程序经常返回非常冒犯性的标签,可能会损害自身利益并针对特定人群。应用程序中存在各种各样的此类标签,这些标签可能会基于宗教、种族、性别或年龄冒犯人们,你只是感到震惊,也对正在发生的事情感到困惑。
人工智能使我们的生活更轻松、更舒适,但很多时候,如果人工智能没有得到控制,它可能会给人们的生活带来灾难。人类应该更加包容,并了解他人的需求和偏好。在开发和部署人工智能模型时,必须纳入和反映相同的人类价值观。人工智能模型不应该产生负面情绪或试图操纵任何人反对某个群体。
ImageNet 简介:用于对象识别的超大规模数据集
ImageNet 是一个超大规模数据集,它是为了大规模对象识别基准而创建的。其目标是描绘出整个物体世界,使我们周围的机器在场景理解方面变得更智能,而人类在这方面要好得多。这个数据集是最早尝试创建用于对象识别的大规模数据集之一。
ImageNet 团队开始从互联网上的各种来源抓取图像数据。原始数据集包含约 14,197,122 张图像,包含 21,841 个类别;这被称为 Imagenet-21K,反映了大约 21K 个类别。注释是使用 Amazon Mechanical Turk 进行众包的。这个数据集的一个较小的子集称为 ImageNet-1K,包含 1,281,167 张训练图像、50,000 张验证图像和 100,000 张测试图像,以及 1000 个类别,它被用作流行的 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 的基础。ILSVRC 成为许多有抱负的公司和实验室在计算机视觉领域工作的竞争场所,以期在准确标记对象方面超越以前的方法。ImageNet 的结构基于 WordNet,这是一个普林斯顿大学开发的词语分类数据库。
ImageNet Roulette 背后的动机 🃏
现在,让我们谈谈我们之前讨论过的应用程序。这个应用程序几年前以网络应用程序的形式存在于互联网上。这是一个名为 ImageNet Roulette 的有意进行的实验,它仍然是最流行的案例之一,说明如果训练数据没有按照指南仔细准备,人工智能模型可能会出错。该项目由艺术家特雷弗·佩格伦和研究员凯特·克劳福德开发。他们根据数据集中找到的“人”类别的 2,833 个子类别训练了他们的模型。
该模型使用 Caffe 对“人”类别中的图像和标签进行训练。该应用程序提示用户输入图像,然后人脸检测器检测图像中的人脸。然后将检测到的人脸发送到 Caffe 模型进行分类。最后,该应用程序返回一张带有围绕检测到的人脸的边界框和 Caffe 模型预测的标签的图像。
ImageNet Roulette 背后的主要动机是展示分类人的固有偏见。它只使用 ImageNet 数据集中(如前所述)的“人”类别进行训练。那么哪里出了问题?对不同图像的推理在许多层面上都反映了有害和挑衅性的内容。该系统中偏见的最大原因主要是由于 ImageNet 类别已经存在。这些类别反映了他们在标注图像时如何显得荒谬、冒犯和挑衅。其中一些标签(在将它们从最初的标签改写为避免触发后)可能意味着一个吸毒者,一个品格有问题的人,一个反对特定人群的人,一个不成功的人,一个失败者等等。
ImageNet 中固有地存在着各种各样的标签,这些标签根据性别、种族、职业等对人进行分类。那么哪里出了问题?这些标签都来自 WordNet 的结构。这正是偏见渗入该模型的地方(由于忽略了数据准备过程,大量下载了无关的图像)。我们将在本章后面
探讨 ImageNet 团队提到的原因。
你希望在没有任何检查的情况下部署此类模型吗?如果部署了,你是否同意让周围的人称你为不成功的人并发布病毒式帖子?这就是在准备数据集时出错且未被注意到的问题。
ImageNet 随机抽样带来的影响
让我们来探讨一下这个实验带来的影响。
- 它揭示了 ImageNet 标注中根深蒂固的偏见,这些偏见往往具有冒犯性和刻板印象,尤其是在种族和性别方面。
- 该实验还质疑了用于训练 AI 模型的数据集的完整性,尤其是在 ImageNet 数据集中。它强调了在创建和标注训练数据时需要进行更严格的审查和伦理考量。
- 令人震惊的结果成为了围绕 AI 伦理考量的讨论催化剂。它引发了 AI 社区内关于确保公平公正的训练数据的责任的更广泛讨论,强调了伦理数据实践的必要性。总的来说,如果像这样的模型被部署在现实生活中的应用中,它可能会对不同的人和目标群体产生令人担忧的影响。
ImageNet 随机抽样的后果
最初,由于 ImageNet 是一个物体识别基准,因此“人”类别并没有引起注意。但在这个实验之后,社区发生了一些重大的变化。在这个案例研究中,创建者能够展示 ImageNet 中固有偏见的问题(在 2018 年左右之前一直被掩盖,当时一些研究开始出现)。几天后,ImageNet 发布了一篇研究论文,总结了他们由 NSF 资助的一年期项目。从 2019 年 1 月起,完整 ImageNet 数据集已停止下载,而 1000 类数据集 ImageNet-1K 则不受影响。ImageNet 团队提供了一些潜在的问题以及解决方法(令人惊讶的是,他们的报告中没有提及 ImageNet 随机抽样)。
问题 1:WordNet 中的冒犯性同义词集 WordNet 包含许多作为图像标签不合适的冒犯性同义词集。不知何故,许多这些标签潜入了 ImageNet 并被包含在内。
解决方案:a. ImageNet 指定了一组内部人工标注员,将同义词集分为三类:冒犯性、敏感性和安全。冒犯性标签是指种族或性别歧视性语言,敏感性标签并非冒犯性,但可能根据上下文造成冒犯,安全标签则不具冒犯性。b. 在“人”类别中的 2832 个同义词集中,识别出 1593 个不安全同义词集(冒犯性和敏感性),其余 1239 个同义词集暂时被视为安全。c. 通过移除不安全同义词集,准备了一个新版本的 ImageNet,总共删除了约 600,000 张图像。
问题 2:不可成像的概念 一些同义词集可能不具有冒犯性,但将它们包含在整个数据集中也不合逻辑。例如,我们不能将图像中的人分类为慈善家。类似地,可能存在许多无法使用图像视觉捕捉的同义词集。
解决方案
a. 对于此类概念,要求多名工作人员对 2394 个“人”同义词集(安全 + 敏感)进行评分。b. 评分基于同义词集在 1-5 的范围内唤起心理意象的难易程度,1 表示非常难,5 表示非常容易。c. 中位数评分为 2.36,大约 219 个同义词集的评分超过 4,具有非常低成像性的图像被删除。
问题 3:图像的多样性 ImageNet 中许多图像可能具有较低的代表性。例如,对特定职业的图像搜索可能最终返回与现实世界不同的性别比例。建筑工人或黑帮的图像可能更倾向于特定的性别或种族。不仅在搜索过程中,而且在标注和数据清理过程中,标注员也可能倾向于以一种已经存在的社会刻板印象的方式来回应特定类别。解决方案:a. 为了减轻搜索和标注中的此类刻板印象,图像应具有更高的视觉唤醒度(视觉上更强烈)。b. ImageNet 团队对大多数可成像属性(如性别、颜色和年龄)进行了人口统计分析。c. 在此分析之后,通过删除同义词集中过度表示的属性来平衡数据集,从而实现更统一的性别、颜色和年龄平衡。
问题 4:隐私问题 虽然分类受到一些固有偏见的影响,但为了保护个人的身份,隐私也是同样重要的因素。如果该实验中的这些分类信息被泄露,将对人们的生活和整体福祉产生巨大影响。为确保这一点,AI 模型不仅应该公平,还应该保护受试者的隐私。
解决方案
a. ImageNet-1K 数据集有 3 个“人”类别。进行了单独的面部标注,并创建了数据集的模糊面部版本。b. 将模糊和马赛克等图像模糊技术应用于这些图像。c. 研究表明,这些图像在物体识别任务的基准测试中导致的准确率下降非常小,并且适合于训练隐私感知视觉分类器。
💡有关 ImageNet 随机抽样实验的更多详细信息,您可以阅读有关 ImageNet 随机抽样的文章。该实验发布在 Excavating AI 上,该网站详细讨论了此事。要了解有关 ImageNet 在缓解这些问题方面立场和研究的更多信息,您可以查看他们提交的完整技术报告 此处。
结论
在后面的章节中,我们也将遵循案例研究的相同流程,并尝试回答一些基本问题。虽然我们将讨论一般的 AI 模型,但我们的重点将主要放在 CV 模型及其相关的伦理问题上。
- 探索,案例研究或实验的全部内容是什么?
- 可能出现或已经出现哪些问题,以及在哪里出现?
- 对目标群体和其他方面的影响是什么(影响评估)?
- 如何使用指标评估 CV 模型中的偏差?
- 如何缓解这些问题,以实现 CV 模型的公平公正开发?
- 社区和其他目标群体在促进和培养开放对话中的作用是什么?
总的来说,在整个单元中,我们将遇到各种与伦理和偏差相关的案例研究,我们将评估偏差并尝试思考如果偏差得不到解决会产生什么影响。我们还将探索各种减轻偏差的策略,并使 CV 模型安全且包容,以便使用。
< > 在 GitHub 上更新