社区计算机视觉课程文档

数字处理中的图像获取基础

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始吧

数字处理中的图像获取基础

数字处理中的图像获取是将物理现象(我们在现实生活中看到的内容)转化为数字表示(我们在计算机中看到的内容)的第一步。它始于光源与被成像物体之间的相互作用。这种光照可以是各种类型,从传统光源到更复杂的形式,如电磁或超声波能量。相互作用导致能量从场景中的物体反射或透射。这种能量由传感器捕获,传感器将一种形式的能量转换为另一种形式(例如,传感器将入射能量转换为电电压)。然后对电压信号进行数字化,从而产生数字图像。为此,我们需要先进的技术和精确的校准,以确保我们对物理场景有准确的表示。在接下来的部分中,我们将探讨其中的一些技术。

 The first photograph of Moon by Ranger 7 in 1964 (Courtesy of NASA)

传感器技术及其在图像获取中的作用

如前所述,数字成像的第一步是传感器。为了创建一个二维图像,单个传感元件(如光电二极管)沿着 x 和 y 轴移动。相反,更常见的传感器条带在一维方向上线性地捕获图像。因此,为了获得完整的二维图像,这些条带需要垂直移动。这种技术通常存在于平板扫描仪等设备中,并用于机载成像系统。在更专业的应用中,如医学成像(例如,CAT 扫描),使用环形配置的传感器条带。这些设置涉及复杂的重建高级算法,以将捕获的数据转换为有意义的图像。

传感器阵列,如数码相机中的 CCD,由传感元件的二维阵列组成。它们在没有运动的情况下捕获完整的图像,因为每个元件都检测场景的一部分。这些阵列的优点是不需要运动即可捕获图像,不像单个传感元件和传感器条带那样。捕获的能量被聚焦到传感器阵列上,转换为模拟信号,然后数字化以形成数字图像。

数字图像的形成和表示

数字图像形成的核心是函数f(x,y)f(x,y),它由光源决定i(x,y)i(x,y),以及场景的反射率r(x,y)r(x,y)

Image acquisition by collecting the reflected light from the scene

在基于透射的成像中,例如 X 射线,透射率取代了反射率。图像的数字表示本质上是一个数值矩阵或数组,每个值对应于一个像素。将连续图像数据转换为数字格式的过程包括两个方面

  • 采样,它将坐标值数字化
  • 量化,它将振幅值转换为离散量。

数字图像的分辨率和质量在很大程度上取决于以下因素

  • 使用的样本数量和离散强度级别。
  • 成像系统的动态范围,即最大可测量强度与最小可检测强度之比。这也对图像的外观和对比度起着至关重要的作用。
The first digital photograph by Russell A. Kirsch in 1957

了解数字成像中的分辨率

空间分辨率是指图像中可区分的最小细节,通常用每单位距离的线对数或每单位距离的像素数来衡量。空间分辨率的意义是与上下文相关的,根据使用的空间单位而有所不同。例如,一台 2000 万像素的相机通常比一台 800 万像素的相机提供更高的细节分辨率。强度分辨率与可检测的最小强度变化有关,通常受硬件能力的限制。它以二进制增量进行量化,例如 8 位或 256 级。对这些强度变化的感知受多种因素影响,包括噪声、饱和度以及人眼的辨别能力。

The illustration of image resolution

图像修复与重建技术

图像修复侧重于利用对退化现象的了解来恢复退化的图像。这通常涉及对退化过程进行建模并应用逆过程以恢复原始图像。

An example for image restoration where the image is restored and colorized

相反,图像增强则更具主观性。它旨在改善图像的视觉外观。修复技术包括处理诸如噪声之类的问题,这些问题可能源于图像采集或传输过程中的各种来源。由于其降噪能力,先进的滤波器(自适应和非自适应)在此情况下使用。在医学成像中,尤其是计算机断层扫描 (CT) 中,从投影中重建图像是一个至关重要的应用。

The first photograph of a person Louis Daguerre, 1838 at the Boulevard du Temple, in Paris

图像处理中的颜色

颜色是图像处理中一个强大的描述符。它在物体识别和识别中发挥作用。彩色图像处理包括伪彩色处理和全彩色处理。

The first colour photograph by James Clerk Maxwell in 1861 using 3 colour filters

伪彩色处理将颜色分配给灰度强度,而全彩色处理使用传感器中的实际颜色数据。理解颜色的基本原理,包括人类的颜色感知、光谱和色光的属性,至关重要。颜色的基本原理涉及人类视觉的三色性,即感知红色、绿色和蓝色。另一方面,颜色感知是指我们眼睛中的三种类型视锥细胞的刺激方式。最后,光谱是电磁光谱中引起不同视觉感觉的波长范围。

不同的颜色模型,如用于显示器和摄像头的 RGB 和用于打印的 CMY/CMYK,标准化了数字图像中的颜色表示。在 RGB 颜色模型中,图像具有三个分量(即通道),分别对应红色、绿色和蓝色。RGB 图像中的像素深度决定了可能的颜色数量,典型的全彩色图像具有 24 位深度(每个颜色分量 8 位)。这允许超过 1600 万种可能的颜色!RGB 色彩立方体代表了此模型中可实现的颜色范围,灰度从黑色到白色延伸。

Figure 9: The colour channels of an image

图像压缩

数据压缩减少了表示信息所需的数据。它区分了数据(传达信息的工具)和信息本身。它针对冗余,即与信息无关或重复的数据。例如,10:1 的压缩比表示 90% 的数据冗余。

在数字图像压缩中,特别是使用二维强度数组时,三种主要类型的冗余是

  • 编码冗余:编码冗余在图像中特别普遍,在这些图像中,强度值的分布没有均匀地分布在所有可能的值上,这表现为非均匀直方图。在这样的图像中,某些强度值比其他强度值出现得更频繁,然而自然二进制编码为表示每个强度值分配了相同数量的位,无论其频率如何。这意味着常见的价值观没有比稀有价值观更有效地编码,导致位的使用效率低下,从而导致编码冗余。理想情况下,更频繁的值应该分配更短的代码,而更不频繁的值应该分配更长的代码,以最大限度地减少使用的位数,而自然二进制编码在非均匀直方图中并非如此。
  • 空间和时间冗余:空间和时间冗余出现在图像内或跨视频帧的相关像素值中。
  • 无关信息:无关信息包括人类视觉系统忽略或对图像目的不必要的数据。

有效的编码考虑事件概率,例如图像中的强度值。诸如行程长度编码之类的技术减少了具有恒定强度线的图像中的空间冗余,显着压缩数据。类似地,可以解决视频序列中的时间冗余。然而,删除无关信息会导致量化,即定量信息的不可逆损失。信息论,包括熵之类的概念,有助于确定准确表示图像所需的最小数据量。压缩后的图像质量使用客观保真度标准(输入和输出的数学函数)和主观保真度标准(人类评估)进行评估。

图像压缩系统使用编码器和解码器。编码器通过映射(减少空间/时间冗余)、量化(丢弃无关信息)和符号编码(将代码分配给量化器输出)来消除冗余。解码器反转这些过程,除了量化。图像文件格式、容器和标准(如 JPEG 和 MPEG)用于数据组织和存储。霍夫曼编码是一种值得注意的消除编码冗余的方法,通过首先对最不可能的源符号进行编码来创建有效的表示。

< > 在 GitHub 上更新