社区计算机视觉课程文档
视觉
并获得增强的文档体验
开始使用
视觉
我们大多数人都知道阳光负责维持我们星球上的生命,但你有没有想过这是如何塑造我们的生活的?首先,地球上几乎每个生物都有某种感知它的方式(甚至包括一些细菌和单细胞生物)。人类也拥有这种能力,但我们与光相互作用的系统要复杂得多。我们通过晶状体捕捉光线,然后在眼睛中发出电信号,电信号通过电缆状结构(我们的神经系统),然后信号被重建,告诉我们大脑中周围环境的样子。
这个过程就是我们所说的视觉。这是我们进化过程中的一个基本步骤。它非常重要,以至于科学家们假设,中枢神经系统的发展(最终将我们引向我们的大脑)是在视觉出现之后。这是有道理的,如果没有传感器捕获如此大量的信息,为什么要浪费资源来制造开发它所需的机器呢?
视觉对人类的重要性

如果你曾经自发地踢过球,你的大脑会在瞬间无意识地执行无数任务。它正确识别球,跟踪其运动,预测其轨迹,计算球到达你所在位置的速度,预测你的脚的轨迹,调整冲击的强度和角度,并将信号从你的大脑发送到你的脚以改变其位置。将图像作为输入(在本例中为视网膜捕获的信号)并将其转换为信息(踢球)是计算机视觉的核心。我们将在下一章中详细介绍这一点。
令人震惊的是,我们不需要为此接受任何正规教育。对于我们每天做出的大多数决定,我们都不会上课。没有心算 101 可以估算出踢球所需的脚力。我们是从成长过程中的反复试验中学到这一点的。我们中的一些人可能根本就没学会。这与我们构建程序的方式形成了鲜明的对比。程序大多是基于规则的。
让我们尝试复制我们大脑所做的第一个任务:检测到有一个球。一种方法是定义什么是球,然后在图像中详尽地搜索一个球。定义什么是球实际上是困难的。球可以小到网球,但也可以大到悠波球,所以尺寸对我们没有太大帮助。我们可以尝试描述它的形状,但有些球,比如橄榄球,并不总是完全是球形的。并非所有球形物体都是球,否则气泡、糖果,甚至我们的星球都将被认为是球。

纯编程与机器学习方法
我们可以做一个暂定的定义,说“球是用于运动或玩耍的球状物体”。这似乎是正确的,但我们遇到了另一个问题。你怎么知道他们正在进行体育运动?你用什么来检测他们是否在这样做?如果是一只狗带着一个球呢?那不是球吗?如果它是一个球本身,没有人,也没有体育运动呢?但是像羽毛球这样的东西呢?它是我们用来玩耍的东西,它不是完全球形的,但我们不认为它是一个球。所有这些细微之处加起来,使得人类无意识地解决的简单问题已经很难分解成简单的规则。
我们自己知道这些事情。这种隐含的理解来自我们多年来构建的关于球的样子的心理图像。虽然羽毛球不符合球的心理图像,但很难解释为什么。这不仅仅是因为它的尺寸或羽毛。有类似大小的球,即使我们用羽毛覆盖一个球,我们仍然会认出它是一个球。

所有这一切都是为了向你展示,我们区分物体的能力超出了严格的定义;我们经常从相关的概念中概括,并依赖于上下文线索。当一个熟悉的概念呈现出不同的形式时,我们仍然可以毫不费力地识别它——这种能力对我们来说是自然的。然而,它不是由僵化、硬编码规则支配的系统所固有的。
这突显了对更强大的系统的必要性——能够适应各种场景的系统。这就是为什么该领域与人工智能如此密切相关的原因。视觉是上下文丰富的,我们需要能够像我们一样利用这些线索的模型。
让我们以印第安纳·琼斯从巨石下逃跑为例。那里有一个球,也有跑步,但很少有人会称之为运动!我们知道这一点是因为我们依赖于一些上下文线索。印第安纳·琼斯逃离的球看起来很重,而且是他体型的两倍。他的脸上反映出他的痛苦。空间非常狭窄,看起来像一个洞穴,这对于运动来说是不寻常的。此外,我们认出他的服装,这通常不是运动员的穿着方式。
创建能够模拟人类视觉和认知的智能系统的动机
尽管它们具有相似的输入和输出,但人类视觉和计算机视觉是不同的过程。有时它们会重叠。然而,计算机视觉主要关注视觉系统中算法和模型的开发和理解及其决策。它不限于创建复制人类视觉的系统。它可以用于对人类来说过于繁琐、耗时、昂贵或容易出错的问题。我们的球的例子仍然是一个简单的例子,你可能不认为它非常有用。然而,能够跟踪球的模型可以用于体育赛事,以便在比赛期间提供更快、更公平的决策。随着图像到文本和文本到语音模型的普及,我们还可以通过自动跟踪球及其运动员并实时描述,使视力障碍人士更容易观看现场体育赛事。因此,即使是简单的用例也可能对社会产生积极影响。我们将在第 3 节中对此进行更多讨论。
我们现在正处于人工智能复兴的开端。这是一个我们可以自由训练、部署和分享模型的时刻。这是一个我们的模型可以检测到图像中我们自己无法看到的东西的时刻。
计算机视觉的局限性也得到了扩展。我们现在可以从文本生成图像,并从图像生成描述性文本。我们可以从智能手机上做到这一点。计算机视觉应用程序无处不在。可能性等待我们去探索,这正是我们将在本课程中做的事情。
我们欢迎你来到计算机视觉领域。请就座。享受旅程。这将是令人惊叹的。
< > 在 GitHub 上更新