社区计算机视觉课程文档

图像

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

图像

在计算机视觉课程中,我们会向你解释什么是图像,这可能有点奇怪。想必你来到这里是因为你想了解更多关于处理图像和视频格式的信息。这看起来微不足道,但你将在这里获得惊喜!在图像方面,其内涵远不止表面看到的(双关语)。

图像的定义

图像是对物体、场景、人物甚至概念的视觉表示。它们可以是照片、绘画、图画、图表、扫描件等等!令人惊讶的是,图像也是一个函数。更准确地说,图像是一个 n 维函数。我们首先将其视为二维n=1n=1。我们称之为F(X,Y)F(X,Y),其中XXYY是空间坐标。不要被这个花哨的名字分散注意力。空间坐标只是我们用来描述物理空间中物体位置的系统,最常见的是二维笛卡尔坐标系。F 在坐标对xi,yix_i, y_i处的幅度是该点图像的强度或灰度级。强度使你感知到光和暗。通常,当我们拥有坐标对x1x_1y1y_1时,我们将其称为像素(图像元素)。

图像是离散的,而构成它们的处理过程是连续的。图像生成过程将在下一章中讨论。现在,重要的是,FF在特定坐标处的值具有物理意义。该函数F(X,Y)F(X,Y)具有两个组成部分:光源的照明量和场景中物体反射的照明量。强度图像的强度也受到限制,因为该函数通常是非负的,并且其值是有限的。

这不是创建图像的唯一方法。有时,它们是由计算机在人工智能的帮助下或不借助人工智能创建的。我们专门有一章介绍那些在人工智能的帮助下创建的图像。我们在这里介绍的大多数术语仍然适用。

另一种类型的图像是体积图像或 3D 图像。3D 图像的维度数等于 3。因此,我们有F(X,Y,Z)F(X,Y,Z)函数。我们的大多数推理仍然适用,唯一的区别是三元组

xi,yi,zix_i,y_i,z_i被称为体素(体积元素)。这些图像可以在 3D 中获取;也就是说,图像的获取方式是在 3D 空间中重建的。此类图像的示例包括医学扫描、磁共振和某些类型的显微镜。也可以从 2D 图像重建 3D 图像。重建是一项具有挑战性的任务,它也有其专门的章节。

现在我们已经讨论了空间,我们可以谈谈颜色了。好消息是您可能也听说过图像通道。您可能不理解它们的意思,但不要害怕!图像通道只是构成图像的不同颜色分量。参考F(X,Y)F(X,Y),我们将有FF每个颜色分量。每种颜色都有自己的强度级别。对于拾取红色的通道,高强度表示颜色非常红,低强度表示那里几乎没有红色。

如果您只查看F(x,y)F(x,y)一种颜色,它的范围从 0 到 255,其中 0 表示没有强度,255 表示最大强度。在不同的颜色系统中,组合这些值可能会有所不同。因此,在解释这些值时,了解数据来源非常重要。

有一些特殊类型的图像,其中坐标F(xi,yi)F(x_i,y_i)不描述强度值,而是标记像素。导致此类图像的最简单操作示例是分离前景和背景。所有前景都接收标签 1,所有背景都接收标签 0。这些图像通常被称为标记图像。当只有两个标签时,例如我们的示例,我们称它们为二值图像或掩码。

您可能听说过 4D 甚至 5D 图像。此术语主要由生物医学领域的人员和显微镜学家使用。再说一次,不要害怕!这个名称来自对体积数据进行时间成像、使用不同通道或不同成像模式(即照片和 X 射线)的人员。其思想是每个新的信息来源都成为一个额外的维度。因此,5D 图像是体积图像(3D)在时间上成像(4D)并使用不同的通道(5D)。

但是图像如何在计算机中表示呢?最常见的是通过矩阵。将图像视为二维数值数组很容易。这是一个优势,因为计算机可以很好地处理数组。将矩阵视为图像有助于理解卷积神经网络和图像预处理中的一些过程。我们稍后将看到更多细节。

或者,图像可以表示为图,其中每个节点都是一个坐标,边是相邻的坐标。花点时间让它沉淀下来。这也意味着用于图的算法和模型也可以用于图像!反之亦然——您可以将图转换为图像并将其视为图片进行分析。

到目前为止,我们提出了一个相当灵活的图像定义。此定义可以适应获取视觉数据的不同方式,但它们都突出了相同的关键方面:图像包含大量空间信息的数​​据点。关键区别在于空间分辨率(2D 或 3D)、颜色系统(RGB 或其他)以及它们是否具有附加的时间分量。

图像与其他数据类型

图像与视频的区别

如果您一直在关注,您可能已经了解到视频是带有时间分量的图像的视觉表示。对于 2D 图像采集,您可以添加一个时间维度,以便F(X,Y,T)F(X,Y,T)成为您的成像函数。

图像自然可以具有时间上的隐藏分量。毕竟,它们是在特定时间点拍摄的,不同的图像也可能在时间上相关。但是,图像和视频在对这些时间信息进行采样的方式上有所不同。图像是在单个时间点的静态表示,而视频是一系列图像以产生运动错觉的速度播放。这个速率就是我们所说的每秒帧数。

这是如此基础,以至于本课程专门有一章介绍视频。在那里,我们将回顾处理此新增维度所需的调整。

图像与表格数据

在表格数据中,维度通常由描述一个数据点的特征(列)的数量来定义。在视觉数据中,维度通常指的是描述数据的维度的数量。对于 2D 图像,我们通常指的是数字xix_iyiy_i作为图像大小。

另一个方面是生成描述视觉数据的特征。它们是通过传统的预处理或深度学习方法生成的。我们将此称为特征提取。它涉及在特征提取章节中更详细讨论的不同算法。它与表格数据的特征工程形成对比,在特征工程中,新的特征是在现有特征的基础上构建的。

表格数据通常需要处理缺失值、编码分类变量和重新缩放数值特征。图像数据类似的过程是图像大小调整和强度值归一化。我们将这些过程称为预处理,我们将在“计算机视觉预处理”章节中更详细地讨论它们。

关键差异

下表总结了不同数据类型的关键方面。

特征 图像 视频 音频 表格数据
1 类型 时间中的单个时刻 随时间推移的图像序列 时间中的单个时刻 以行和列组织的结构化数据
2 数据表示 通常是二维像素数组 通常是三维帧数组 通常是一维音频样本数组 通常是二维特征数组,列为特征,行表示单个数据样本(例如电子表格、数据库表)
3 文件类型 JPEG、PNG、RAW 等。 MP4、AVI、MOV 等。 WAV、MP3、FLAC 等。 CSV、Excel(.xlsx、.xls)、数据库格式等。
4 数据增强 翻转、旋转、裁剪 时间抖动、速度变化、遮挡 添加背景噪声、混响、频谱操作 ROSE、SMOTE、ADASYN
5 特征提取 边缘、纹理、颜色 边缘、纹理、颜色、光流、轨迹 频谱图、梅尔频率倒谱系数 (MFCC)、色度特征 统计分析、特征工程、数据聚合
6 学习模型 CNN RNN、3D CNN CNN、RNN 线性回归、决策树、随机森林、梯度提升
7 机器学习任务 图像分类、分割、目标检测 视频动作识别、时间建模、跟踪 语音识别、说话人识别、音乐类型分类 回归、分类、聚类
8 计算成本 成本较低 成本较高 中等至高 与其他类型相比,通常成本较低
9 应用 用于安全访问控制的面部识别 用于实时通信的手语翻译 语音助手、语音转文本、音乐类型分类 预测建模、欺诈检测、天气预报
< > 在 GitHub 上更新