社区计算机视觉课程文档

引言

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

引言

欢迎来到计算机视觉伦理与偏见单元的引言章节。本章将为我们稍后在本单元中遇到的许多重要概念奠定基础。在本章中,我们将:

  • 以伦理和偏见为背景,结合实例探讨热门的ImageNet Roulette案例研究。
  • 探讨它可能对人们和特定群体产生的影响。
  • 审视该实验的后果。
  • ImageNet团队为解决和减轻这些问题所做的努力。
  • 用关于案例研究的一些问题结束本章,并为后续章节奠定基础。

那么,让我们深入探讨吧 🤗

ImageNet Roulette:分类偏见案例研究

想象一下,你周日上午醒来,玩着手机。你偶然发现了一个应用程序,它会尝试在你上传不同的图片或自拍时返回讽刺有趣的标签。你不介意找点乐子,所以你上传了一张自拍尝试这个应用程序,结果令你震惊的是,它返回了一个令人不安的标签。它将你标记为犯罪嫌疑人(这种犯罪也可能是高度危险和令人发指的)。你还在社交媒体上看到不同的人使用同一个应用程序发布带有煽动性标签的帖子,增加了种族和性别歧视的可能性。其中一些标签可能意味着一个人是罪犯,一个人具有与其种族相关的特定面部特征,或者一个人的血统。这个应用程序经常返回非常冒犯的标签,可能会损害个人利益并针对特定人群。应用程序中存在各种各样的标签,它们可能根据宗教、种族、性别或年龄冒犯人们,你对此感到震惊和困惑。

人工智能让我们的生活更轻松舒适,但很多时候,如果人工智能没有得到有效监管,它可能会给人们的生活带来混乱。人类应该更加包容,并意识到他人的需求和偏好。在开发和部署人工智能模型时,必须融入并体现这些人类价值观。人工智能模型不应制造负面情绪,也不应试图煽动任何人反对某个群体。

ImageNet 简介:用于目标识别的大规模数据集

ImageNet 是一个大规模数据集,旨在进行大规模目标识别基准测试。其目标是绘制出整个对象世界,使我们周围的机器在场景理解方面变得更智能,而人类在这方面做得更好。这个数据集是同类中最早尝试创建大规模目标识别数据集的尝试之一。

ImageNet 团队开始从互联网上的各种来源抓取图像数据。最初的数据集包含约 14,197,122 张图像和 21,841 个类别;这被称为 ImageNet-21K,反映了约 21K 个类别。标注工作通过亚马逊土耳其机器人进行众包。该数据集的一个较小子集 ImageNet-1K 包含 1,281,167 张训练图像、50,000 张验证图像和 100,000 张测试图像,共 1000 个类别,它被用作流行的 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 的基础。ILSVRC 成为许多有抱负的计算机视觉公司和实验室超越以前的目标准确标注方法,并在竞争中取得成功的舞台。ImageNet 的结构基于 WordNet,这是一个由普林斯顿大学开发的单词分类数据库。

💡 您可以在此处阅读更多关于 ImageNet 的信息。还可以观看 Fei Fei Li 教授关于同一主题的TED 演讲

ImageNet Roulette 🃏 的动机

现在,让我们谈谈我们之前讨论过的那个应用程序。几年前,这个应用程序作为一款网络应用程序存在于互联网上。这是一个被称为 ImageNet Roulette 的有意实验,至今仍是 AI 模型如果训练数据没有经过仔细指导准备就可能出错的最受欢迎案例之一。这个项目由艺术家 Trevor Paglen 和研究员 Kate Crawford 开发。他们根据数据集中“人物”类别下的 2,833 个子类别训练了他们的模型。

该模型使用 Caffe 在“人物”类别中的图像和标签上进行训练。该应用程序会提示用户上传图像,然后人脸检测器会检测图像中的人脸。检测到的人脸随后被发送到 Caffe 模型进行分类。最后,该应用程序返回一个带有检测到的人脸周围边界框的图像以及 Caffe 模型预测的标签。

ImageNet Roulette 的主要动机是展示在对人进行分类时固有的偏见。它仅使用 ImageNet 数据集中的“人物”类别(如前所述)进行训练。那么,出了什么问题呢?对不同图像的推断反映出在许多层面上都是有害和挑衅的。该系统中偏见的最大原因是 ImageNet 中已有的类别。这些类别反映出它们在标注图像时是多么荒谬、冒犯和挑衅。一些标签(在将其初始标签改写以避免触发后)将意味着吸毒者、品格可疑者、反对特定群体的人、不成功的人、失败者等等。

ImageNet 中固有的各种标签根据性别、种族、职业等对人进行分类。那么,问题出在哪里呢?这些标签都源自 WordNet 的结构。这正是偏见潜入这个模型的地方(由于忽略了数据准备过程,不相关的图像被批量下载)。我们将在本章的后面探讨 ImageNet 团队提到的原因。

您愿意让这样的模型未经任何检查就部署吗?如果部署了,您是否愿意让您周围的人称您为不成功的人并发布病毒式帖子?这就是在准备数据集时出错和被忽视的地方。

ImageNet Roulette 的影响

让我们探讨一下这个实验产生的影响:

  1. 它揭示了 ImageNet 标注中根深蒂固的偏见,这些偏见通常带有冒犯性和刻板印象,尤其是在种族和性别方面。
  2. 该实验还质疑了用于训练人工智能模型的数据集的完整性,特别是在 ImageNet 数据集中。它强调了在创建和标注训练数据时需要更严格的审查和伦理考量。
  3. 令人震惊的结果促使了围绕人工智能伦理考量的讨论。它促使人工智能社区进行更广泛的对话,讨论确保公平公正的训练数据的责任,强调了伦理数据实践的必要性。一般来说,如果此类模型在实际应用中部署,它可能对不同人群和目标群体产生令人担忧的影响。

ImageNet Roulette 的后果

最初,“人物”类别并未引起注意,因为 ImageNet 是一个目标识别基准。但在此实验之后,社区发生了一些关键变化。在此案例研究中,创建者能够展示 ImageNet 中固有的偏见问题(直到 2018 年左右,一些研究开始出现时才浮出水面)。几天后,ImageNet 发布了一份研究论文,总结了他们由 NSF 资助的为期一年的项目。自 2019 年 1 月起,完整的 ImageNet 数据集已禁用下载,而 1000 个类别的 ImageNet-1K 数据集未受影响。ImageNet 团队提供了一些根本问题和处理方法(令人惊讶的是,ImageNet Roulette 在他们的报告中并未提及)。

问题 1:WordNet 中冒犯性的同义词集 WordNet 包含许多不适合作为图像标签的冒犯性同义词集。不知何故,许多这些标签悄悄进入 ImageNet 并被包含在内。

解决方案: a. ImageNet 任命了一组内部人工标注员,将同义词集分为三类:冒犯性敏感性安全。冒犯性标签是种族或性别歧视的侮辱性词语,敏感性标签不冒犯但根据上下文可能引起冒犯,安全标签则不冒犯。b. 在人物类别中的 2,832 个同义词集中,识别出 1,593 个不安全同义词集(冒犯性和敏感性),其余 1,239 个同义词集暂时被认为是安全的。c. 通过删除不安全的同义词集,准备了一个新版本的 ImageNet,总共删除了大约 600,000 张图像。

问题 2:不可图像化概念 某些同义词集可能不具冒犯性,但将其包含在整个数据集中也不合逻辑。例如,我们无法将图像中的人归类为慈善家。同样,可能有很多同义词集无法通过图像进行视觉捕捉。

解决方案

a. 对于此类概念,我们要求多名工作人员对 2,394 个人物同义词集(安全 + 敏感)进行评分。b. 评分基于同义词集唤起心理图像的难易程度,从 1 到 5 分,1 分表示非常难,5 分表示非常容易。c. 中位数评分为 2.36,大约 219 个同义词集的评分高于 4 分,图像可图像性非常低的图像被移除。

问题 3:图像多样性 ImageNet 中的许多图像可能代表性不足。例如,搜索特定职业的图像可能会返回与现实世界不同的性别比例。建筑工人或黑帮的图像可能更倾向于特定性别或种族。不仅在搜索过程中,在标注和数据清理过程中,标注员也可能倾向于以一种已经社会刻板印象的方式响应特定类别。解决方案: a. 为了减轻搜索和标注中的此类刻板印象,图像应具有更高的视觉唤起性(视觉上更强烈)。b. ImageNet 团队对最易图像化的属性(如性别、肤色和年龄)进行了人口统计学分析。c. 经过此分析,通过删除同义词集中过度代表的属性来平衡数据集,从而实现更均匀的性别、肤色和年龄平衡。

问题 4:隐私问题 尽管分类存在一些固有偏差,但为了保护个人身份,隐私同样是一个重要因素。如果实验中的这些分类病毒式传播,将对人们的生活和整体福祉产生巨大影响。为确保这一点,人工智能模型不仅应公平,还应保护受试者的隐私。

解决方案

a. ImageNet-1K 数据集包含 3 个人物类别。我们进行了单独的人脸标注,并创建了数据集的人脸模糊版本。b. 对这些图像应用了图像混淆技术,如模糊和马赛克。c. 结果表明,这些图像在目标识别任务的基准测试中,准确性下降极小,并且适用于训练具有隐私意识的视觉分类器。

💡有关 ImageNet Roulette 实验的更多详细信息,您可以阅读 ImageNet Roulette 的文章。该实验发布在Excavating AI上,其中详细讨论了这一点。要了解 ImageNet 在缓解这些问题方面的立场和研究,您可以查看他们提交的完整技术报告此处

结论

在后面的章节中,我们也将遵循相同的案例研究流程,并尝试回答一些基本问题。尽管我们将讨论一般的人工智能模型,但我们的重点将主要放在计算机视觉模型及其相关的伦理问题上。

  1. 探索,案例研究或实验究竟是关于什么的?
  2. 哪里出了问题或者可能出问题?
  3. 对目标群体的影响以及其他影响(影响评估)是什么?
  4. 如何使用指标评估计算机视觉模型中的偏见?
  5. 如何缓解这些问题,以实现计算机视觉模型的公平和伦理发展。
  6. 社区和其他目标群体在促进和培养开放对话中的作用。

总之,在整个单元中,我们将遇到各种与伦理和偏见相关的案例研究,将评估偏见并思考如果偏见未解决可能产生的影响。我们还将探索各种策略来减轻偏见,并使计算机视觉模型安全且具有包容性,以供使用。

< > 在 GitHub 上更新