社区计算机视觉课程文档

计算机视觉的应用

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

计算机视觉的应用

在当今世界,计算机视觉系统执行着越来越具挑战性的任务。其中一些任务甚至人类都难以完成。以印度为例,你知道印度是世界上注册两轮车数量最多的国家吗?有那么多司机,其中一些人会忘记戴头盔。这是一种危险的行为,可能导致严重伤害。为了解决这个问题,印度政府与其他机构合作,开发了一个计算机视觉系统,可以自动识别未戴头盔的骑手及其车牌。该系统对他们处以严厉罚款,以阻止人们违法。

当然,罚款并不是计算机视觉的唯一应用。它在医疗保健、零售和许多其他行业都有应用。这里,我们提供一些计算机视觉系统的高层示例。

计算机视觉系统高级概述及示例

自动驾驶汽车

Example of Computer Vision tasksin autonomous vehicle, source Andrej Karpathy

自动驾驶汽车严重依赖计算机视觉来感知和解释环境。它们利用摄像头和传感器识别道路上的物体、行人、交通标志、车道线和其他车辆。基于分析的数据,计算机视觉算法帮助这些车辆做出实时决策,例如转向、加速或制动。特斯拉、Waymo 和 Uber 等公司正在积极研究这项技术,以使交通更安全、更高效。

零售和电子商务

计算机视觉正在彻底改变零售业。许多在线零售商和实体店都在将其用于各种目的。其中一个重要应用是物体识别和推荐系统。通过分析产品的图像或视频,计算机视觉算法可以识别物品,理解其特征,并向客户推荐类似产品。例如,亚马逊、eBay 和沃尔玛等平台利用计算机视觉根据用户的浏览或购买历史推荐相关产品。此外,在实体店中,计算机视觉驱动的系统可以跟踪库存水平,检测库存短缺,甚至分析客户行为,以优化商店布局和营销策略,最终帮助他们提升商店。

装配线中的质量控制

计算机视觉在装配线质量控制中的应用有助于在检测和纠正缺陷方面实现更高的准确性、效率和一致性,从而减少浪费,提高产品质量,并简化制造过程。它被广泛应用于许多领域。

缺陷检测:计算机视觉系统可以实时分析装配线上的产品,识别肉眼可能无法立即看到的缺陷或不规则之处。例如,计算机视觉可以检查制造中的电子元件、汽车零件或包装商品,以发现瑕疵、划痕、凹痕或不正确的组装。这些系统将产品与标准参考进行比较,以确定其是否符合质量标准。

自动化检测:传统的质量控制通常涉及人工检测,这既耗时又容易出错。计算机视觉系统通过使用摄像头和机器学习算法来捕获产品在装配线上的图像或视频,从而实现此过程的自动化。然后分析这些图像以检测与标准的偏差,从而确保大规模生产中的一致性和高质量。

实时反馈和维护系统:通过将计算机视觉集成到装配线中,制造商可以收到有关产品质量的实时反馈。如果检测到缺陷,系统可以触发立即操作,例如提醒操作员、将有缺陷的产品分流进行返工,甚至调整机器以纠正问题,从而最大限度地减少缺陷产品的生产并优化整个生产过程。

医学图像分析

Example of Tumor Detection in Medical Imaging

医学图像分析应用计算机视觉和机器学习技术来解释和提取来自X射线、CT扫描、MRI、超声和组织病理学切片等医学图像的信息。

  • 诊断辅助:计算机视觉通过分析医学图像辅助诊断疾病和病症。例如,在放射学中,算法可以检测X射线或MRI中的肿瘤和骨折等异常。这些系统通过突出关注区域或提供有助于决策的定量数据来协助医疗专业人员。

  • 分割和检测:医学图像分析涉及对图像内的特定结构或异常进行分割和检测。此过程有助于隔离器官、组织或病理,以便进行更仔细的检查。例如,在癌症检测中,计算机视觉算法可以从MRI或CT扫描中分割和分析肿瘤,从而协助治疗计划和监测。

  • 治疗计划和监测:计算机视觉通过提供精确测量、跟踪随时间的变化以及协助手术计划来促进治疗计划。它帮助医生了解疾病的范围和进展,使他们能够相应地计划和调整治疗策略。医生已经能够手动完成大部分这些任务,但现在计算机视觉系统可以自动完成,从而使医生能够执行其他任务。

  • AI 辅助放射学:放射学中基于 AI 的系统通过自动化常规任务、减轻工作量和提高准确性来协助放射科医生。这些系统可以标记潜在的异常发现,提供定量分析,甚至根据医学图像中识别的模式预测潜在的健康问题。

  • 药物开发与研究:在药物开发和医学研究中,计算机视觉技术有助于分析细胞结构、组织样本或遗传物质。这有助于在微观层面理解疾病,从而促进新药、疗法或诊断工具的开发。

计算机视觉系统面临的挑战

计算机视觉系统面临着众多挑战,这些挑战源于在现实世界场景中处理视觉信息的复杂性,包括数据质量差、隐私和伦理问题以及其他问题,如下表所示:

因素 挑战
数据可变性 从现实世界收集的数据高度多样化,光照、视角、遮挡和背景各不相同,这使得开发可靠的计算机视觉系统具有挑战性。
可伸缩性 由于视觉数据的不断增加,计算机视觉系统需要具有可扩展性,以管理大型数据集并满足实时处理要求。
准确率 在物体检测、场景解释和跟踪方面实现高精度是一个重大挑战,尤其是在复杂或杂乱的场景中,这通常是由于噪声、不相关特征和图像质量差造成的。
对噪声的鲁棒性 真实世界的数据充满噪声,包含缺陷、传感器伪影和失真。计算机视觉系统必须足够健壮,才能有效处理这些噪声数据。
与其他技术的集成 将计算机视觉与自然语言处理、机器人技术或增强现实等技术集成带来了系统互操作性方面的挑战,扩展了机器学习和计算机视觉的可用性。
隐私和伦理问题 计算机视觉的实际应用,尤其是在监控、面部识别和数据收集方面,引发了对隐私和伦理的担忧,因此需要妥善处理数据库和个人信息。
实时处理 自动驾驶汽车和增强现实等应用需要实时处理,这给实现必要的计算效率带来了挑战,通常需要大量的计算能力和功能强大的云平台。
长期可靠性 在现实场景中长期保持计算机视觉系统的可靠性具有挑战性,因为确保持续的准确性和灵活性可能很困难。
泛化性 开发在不同上下文和领域具有良好泛化能力的模型是一项重大挑战,这要求模型能够适应不断变化的环境,而无需大量再训练。
校准和维护 在现实世界环境中校准和维护摄像头和传感器等硬件带来了挑战,这通常是由于后勤复杂性以及需要承受极端天气条件。

伦理考量

Another summary of Ethical Considerations. Created Isabella Bicalho-Frazeto and Seshu Pavan

随着计算机视觉技术日益融入我们生活的方方面面,对其伦理考量变得至关重要。这些伦理考量早在人工智能技术普及之前就已存在,并且与它的诞生息息相关。

伦敦医院生存预测器就是一个很好的例子。它创建于1972年,其任务是预测患者是否能从昏迷中恢复。它有一个刻度盘,指示“生存”或“不可逆的脑损伤”。这是模式识别和人工神经网络最早的应用之一。即使在早期阶段,这也引起了担忧。医生被建议不要仅凭预测器的判断做出决定,该机器也从未用于移除患者的生命支持。

时过境迁,世界变得更加数字化、互联互通,模型的伦理考量也必须随之改变。现在,我们从全球角度考虑公平性和偏见。在此背景下,公平性是指模型以公平的方式行事,不对某个群体或个人进行目标歧视或不公平偏见。偏见是指对某人或某个群体的好恶倾向。在实践中考虑公平性和偏见可能很棘手。

与性能指标不同,公平性没有一个数学指标。要评估它,你必须理解当前的问题。更复杂的是,偏见可能在模型开发的任何阶段出现;在数据、人工智能设计、部署和模型应用中。

Example of accuracy, precision, bias and unfairness in models. Created by Marilia Melo Favalesso and Isabella Bicalho-Frazeto. Adapted with permission by Isabella Bicalho-Frazeto and Seshu Pavan.

为了协助解决这个问题,人们做出了多项努力,包括在模型卡(伴随模型并提供其重要信息的特殊文件)中系统地报告模型风险、限制和偏见。关于这个主题还有很多话要说,这就是为什么本课程中有一个专门的章节。然而,我们在此介绍一些关键概念,以提供对其背后一些伦理考量的高层概述。我们将其总结在下表中。

道德考量 挑战
隐私问题 计算机视觉通常涉及收集和分析视觉数据,这引发了对个人隐私的担忧。问题包括未经授权的监控、面部识别以及敏感信息被滥用的可能性。
偏见和公平性 数据、算法或计算机视觉系统设计中的偏见可能导致不公平的结果,从而延续社会不平等。确保数据收集、算法设计和决策的公平性对于防止基于种族、性别或其他因素的歧视至关重要。
准确性和问责制 计算机视觉系统必须准确可靠。问责措施对于纠正错误或故障是必要的,以确保系统开发人员对其造成的任何意外后果负责。
知情同意和知情决策 获得计算机视觉系统收集或使用其数据的个人的知情同意至关重要。用户应了解其数据将如何使用,并有权对其使用做出知情决策。
两用顾虑 计算机视觉技术既有有益用途,也有潜在有害用途。确保该技术不被用于恶意目的(例如监视或侵犯隐私)至关重要。
透明度和可解释性 计算机视觉系统在功能和决策方面应透明。用户应能够理解这些系统如何工作以及其决策背后的原因。
儿童保护 在处理涉及儿童的视觉数据时必须特别小心。应采取保障措施保护未成年人免受隐私侵犯或任何其他潜在伤害。
文化和情境敏感性 计算机视觉系统应注意文化差异和多样化语境,以避免基于文化或区域规范的误解或偏见。
人工监督 人工监督和干预对于确保计算机视觉系统合乎道德地运行并做出准确决策至关重要。人类应能够在系统决策可能造成损害的情况下进行干预。
环境影响 计算机视觉系统的开发和部署应考虑其环境影响。这包括能源消耗、电子废物和其他生态因素。
教育和伦理培训 培训计划和教育倡议对于提高开发人员、用户和政策制定者对计算机视觉技术伦理影响的认识至关重要。
< > 在 GitHub 上更新