社区计算机视觉课程文档

简介

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始使用

简介

欢迎来到计算机视觉中的伦理与偏见单元的导言章节。本章将为我们在本单元后面将遇到的许多重要概念奠定基础。在本章中,我们将

  • 结合示例,在计算机视觉伦理与偏见的背景下,介绍流行的 ImageNet Roulette 案例研究。
  • 探讨它可能对人和某些群体产生什么影响。
  • 了解实验的后果。
  • ImageNet 团队为解决和缓解这些问题所做的努力。
  • 在本章结尾,提出一些关于案例研究的问题,并为接下来的章节奠定基础。

让我们开始探索吧 🤗

ImageNet Roulette:分类偏见案例研究

想象一下,你周日早上醒来,玩着手机。你偶然发现一个应用程序,如果你上传不同的图像或自拍,它会尝试返回讽刺和有趣的标签。你不介意找点乐子,所以你尝试了这个应用程序,上传了一张自拍,令你震惊的是,它返回了一个令人震惊的标签。它把你列为犯罪嫌疑人(这种罪行也可能是高度危险和令人发指的)。你还在同一个应用程序的社交媒体帖子上看到了不同的人带有挑衅性标签,增加了种族和性别歧视的可能性。其中一些标签可能意味着某人是罪犯、某人的面部特征与种族有关,或者某人的祖先。这个应用程序经常返回非常冒犯性的标签,可能会损害自身利益并针对特定人群。该应用程序中存在各种各样的此类标签,这些标签可能会基于人们的宗教、种族、性别或年龄冒犯他们,你感到震惊,并且对正在发生的事情感到困惑。

人工智能让我们的生活更轻松、更舒适,但很多时候,如果不对人工智能进行检查,它可能会给人们的生活带来灾难。人类应该更具包容性,并意识到他人的需求和偏好。在开发和部署人工智能模型时,必须融入和反映相同的人类价值观。人工智能模型不应产生负面情绪,也不应试图操纵任何人反对某个群体。

ImageNet 简介:用于对象识别的大规模数据集

ImageNet 是一个大规模数据集,它为大规模对象识别基准而创建。其目的是绘制出整个对象世界,使我们周围的机器在场景理解方面更加智能,而人类在这方面要出色得多。该数据集是创建用于对象识别的大规模数据集的最早尝试之一。

ImageNet 团队开始从互联网上的各种来源抓取图像数据。原始数据集包含约 14,197,122 张图像,共 21,841 个类别;这被称为 Imagenet-21K,反映了约 21K 个类别。注释是通过亚马逊 Mechanical Turk 众包完成的。该数据集的一个较小子集称为 ImageNet-1K,包含 1,281,167 张训练图像、50,000 张验证图像和 100,000 张测试图像,共 1000 个类别,它是广受欢迎的 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 的基础。ILSVRC 成为了许多有抱负的公司和实验室在计算机视觉领域工作的竞争场所,旨在超越以前的方法,准确地标记对象。ImageNet 的结构基于 WordNet,这是一个在普林斯顿大学开发的词语分类数据库。

💡您可以在此处阅读更多关于 ImageNet 的信息。还可以查看 Fei Fei Li 教授关于同一主题的TED 演讲

ImageNet Roulette 背后的动机 🃏

现在,让我们来谈谈我们之前讨论过的应用程序。几年前,这个应用程序作为一个 Web 应用程序存在于互联网上。这是一个被称为 ImageNet Roulette 的有意实验,并且仍然是 AI 模型在训练数据未根据指南仔细准备的情况下可能出错的最流行的案例之一。这个项目由艺术家 Trevor Paglen 和研究员 Kate Crawford 开发。他们根据数据集中“人”类别的 2,833 个子类别训练了他们的模型。

该模型使用 Caffe 在“人”类别中的图像和标签上进行训练。该应用程序提示用户提供图像,人脸检测器检测图像中的人脸。然后,检测到的人脸被发送到 Caffe 模型进行分类。最后,该应用程序返回一个图像,其中在检测到的人脸周围有一个边界框,以及 Caffe 模型预测的标签。

ImageNet Roulette 背后的主要动机是展示分类人时固有的偏见。它仅根据 ImageNet 数据集(如前所述)中的“人”类别进行训练。那么问题出在哪里呢?对不同图像的推断反映了有害和挑衅的多种层面。此系统中偏见的最大原因是很大程度上由于已有的 ImageNet 类别。这些类别反映了他们在注释图像时的荒谬、冒犯性和挑衅性。一些标签(在从初始标签重新措辞以避免触发后)可能意味着:瘾君子、品格可疑的人、反对特定人群的人、不成功的人和失败者等等。

ImageNet 中固有一些基于性别、种族、职业等对人进行分类的各种标签。问题出在哪里呢?这些标签都来自 WordNet 的结构。这正是偏见悄悄进入此模型的地方(由于忽略了数据准备过程,大量下载了不相关的图像)。我们将在本章稍后探讨 ImageNet 团队提到的原因。

您希望部署此类未经检查的模型吗?如果部署,您是否可以接受周围的人称您为不成功的人并发布病毒式帖子?这就是在准备数据集时出错和未被注意到的地方。

ImageNet Roulette 的影响

让我们探讨一下这个实验的影响

  1. 它揭示了 ImageNet 注释中根深蒂固的偏见,这些偏见通常具有冒犯性和刻板印象,尤其是在种族和性别方面。
  2. 该实验还质疑了用于训练 AI 模型的数据集的完整性,尤其是在 ImageNet 数据集中。它强调需要在创建和注释训练数据时进行更严格的审查和伦理考量。
  3. 令人震惊的结果成为了围绕 AI 伦理考量进行讨论的催化剂。它引发了 AI 社区内更广泛的对话,讨论确保公平和公正的训练数据的责任,强调了道德数据实践的必要性。总的来说,如果像这样的模型部署在现实生活中的应用程序中,可能会对不同的人和目标群体产生令人震惊的影响。

ImageNet Roulette 的后果

最初,“人”类别没有引起注意,因为 ImageNet 是一个对象识别基准。但在这次实验之后,社区发生了一些关键变化。在本案例研究中,创建者能够展示 ImageNet 中固有偏见的问题(在 2018 年左右之前一直处于阴影之下,当时一些研究开始出现)。几天后,ImageNet 发布了一份研究论文,总结了他们由 NSF 资助的一年项目。完整的 ImageNet 数据集自 2019 年 1 月起被禁用下载,而 1000 个类别的 ImageNet-1K 数据集未受影响。ImageNet 团队提供了一些潜在的问题以及处理这些问题的方法(令人惊讶的是,他们的报告中没有提及 ImageNet Roulette)。

问题 1:WordNet 中冒犯性的同义词集 WordNet 包含许多不适合作为图像标签的冒犯性同义词集。不知何故,许多这些标签悄悄进入 ImageNet 并被包含在内。

解决方案: a. ImageNet 任命了一组内部手动注释员,将同义词集分为三类:冒犯性敏感安全。冒犯性标签是种族或性别歧视性语言,敏感标签本身并不冒犯,但可能会根据上下文引起冒犯,安全标签则不冒犯。 b. 在人类别中的 2,832 个同义词集中,识别出 1,593 个不安全的同义词集(冒犯性和敏感性),其余 1,239 个同义词集暂时被认为是安全的。 c. 通过删除不安全的同义词集,准备了新版本的 ImageNet,总共删除了约 600,000 张图像。

问题 2:不可图像化的概念 有些同义词集可能不具有冒犯性,但将它们包含在整个数据集中也不合逻辑。例如,我们无法将图像中的人归类为慈善家。同样,可能有许多同义词集无法通过图像在视觉上捕获。

解决方案

a. 对于此类概念,要求多名工作人员对 2,394 个人同义词集(安全 + 敏感)中的每一个进行评级。 b. 评级基于同义词集引起心理意象的难易程度,范围为 1-5,1 为非常困难,5 为非常容易。 c. 中位评分为 2.36,大约有 219 个同义词集的评分高于 4,图像性非常低的图像被删除。

问题 3:图像的多样性 ImageNet 中的许多图像可能代表性不足。例如,特定职业的图像搜索最终可能会返回与现实世界中不同的性别比例。建筑工人或歹徒的图像可能更倾向于特定性别或种族。不仅在搜索期间,而且在注释和数据清理期间,注释员可能倾向于以已经存在的社会刻板印象方式响应特定类别。 解决方案: a. 为了减轻搜索和注释中的此类刻板印象,图像应具有更高的视觉唤醒度(视觉上更强烈)。 b. ImageNet 团队对大多数可图像化的属性(如性别、颜色和年龄)进行了人口统计分析。 c. 在此分析之后,通过删除同义词集中过度表示的属性来平衡数据集,从而实现更均匀的性别、颜色和年龄平衡。

问题 4:隐私问题 虽然分类受到一些固有偏见的影响,但为了保护个人身份,隐私也是一个同等重要的因素。如果实验中的这些分类被广泛传播,将对人们的生活和整体福祉产生巨大影响。为了确保这一点,AI 模型不仅应该公平,还应该保护受试者的隐私。

解决方案

a. Imagenet-1K 数据集有 3 个人类别。进行了单独的人脸注释,并创建了数据集的人脸模糊版本。 b. 对这些图像应用了图像模糊处理技术,如模糊和马赛克。 c. 结果表明,这些图像在对象识别任务上进行基准测试时,只会导致非常小的精度下降,并且适用于训练具有隐私意识的视觉分类器。

💡有关 ImageNet Roulette 实验的更多详细信息,您可以关注关于 ImageNet Roulette 的文章。该实验发布在 Excavating AI 上,其中详细讨论了这一点。要了解更多关于 ImageNet 在缓解这些问题方面的立场和研究,您可以查看他们提交的完整技术报告此处

结论

在后面的章节中,我们还将遵循相同的案例研究流程,并尝试回答一些基本问题。虽然我们将讨论通用 AI 模型,但我们的重点将主要放在 CV 模型以及围绕它们的伦理问题上。

  1. 探索,案例研究或实验是关于什么的?
  2. 哪里可能出错或哪里出错,以及哪里出了问题?
  3. 对目标群体的影响和其他影响(影响评估)是什么?
  4. 如何使用指标评估 CV 模型中的偏见?
  5. 如何缓解这些问题,以实现 CV 模型的公平和道德开发。
  6. 社区和其他目标群体在促进和培养公开对话中的作用。

总之,在整个单元中,我们将遇到各种与伦理和偏见相关的案例研究,将评估偏见,并尝试思考如果偏见未解决可能会产生什么影响。我们还将探索各种减轻偏见的策略,并使 CV 模型安全且具有包容性。

< > 在 GitHub 上更新