社区计算机视觉课程文档

图像

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始

图像

在计算机视觉课程中向您解释什么是图像可能有点奇怪。想必,您最初来到这里是因为您想了解更多关于处理图像和视频格式的信息。这似乎很简单,但您会感到惊讶!说到图像,其中蕴含的远比肉眼所见要多得多(双关语)。

图像的定义

图像是物体、场景、人物甚至概念的视觉表示。它们可以是照片、绘画、图画、示意图、扫描等等!更令人惊讶的事情之一是,图像也是一个函数。更准确地说,图像是一个 n 维函数。我们首先将其视为二维n=2n=2。我们称之为F(X,Y)F(X,Y),其中XXYY是空间坐标。不要被花哨的名字分散注意力。空间坐标只是我们用来描述物理空间中物体位置的系统,最常见的是二维笛卡尔坐标系。F 在一对坐标处的幅度xi,yix_i, y_i是该点图像的强度或灰度级。强度是让您感知明暗的原因。通常,当我们有一对坐标时x1x_1y1y_1,我们将其称为像素(图像元素)。

图像是离散的,而组装它们的过程是连续的。图像生成过程将在下一章讨论。现在,重要的是FF在特定坐标处的值具有物理意义。函数F(X,Y)F(X,Y)由两个成分表征:来自光源的照明量和场景中物体反射的照明量。强度图像的强度也受到限制,因为该函数通常是非负的,并且它们的值是有限的。

这不是创建图像的唯一方法。有时,它们是由计算机在人工智能的帮助下或不帮助下创建的。我们有一章专门介绍那些确实得到了人工智能一点帮助的图像。我们在这里介绍的大部分术语仍然适用。

另一种类型的图像是体积图像或 3D 图像。3D 图像的维度数等于三。因此,我们有一个F(X,Y,Z)F(X,Y,Z)函数。我们的大部分推理仍然适用,唯一的区别是三元组xi,yi,zix_i,y_i,z_i被称为体素(体积元素)。这些图像可以在 3D 中获取;也就是说,图像的获取方式是在 3D 空间中重建。此类图像的示例包括医学扫描、磁共振和某些类型的显微镜。也可以从 2D 图像重建 3D 图像。重建是一项具有挑战性的任务,并且也有专门的章节介绍。

现在我们已经讨论了空间,我们可以谈论颜色。好消息是您可能也听说过图像通道。您可能不明白它们的含义,但请不要害怕!图像通道只是构成图像的不同颜色分量。参考F(X,Y)F(X,Y),我们将有FF对于每个颜色分量。每种颜色都有自己的强度级别。对于拾取红色颜色的通道,高强度意味着颜色非常红,而低强度意味着几乎没有红色。

如果您只看F(x,y)F(x,y)对于一种颜色,它的范围从 0 到 255,其中 0 表示无强度,255 表示最大强度。在不同的颜色系统中,组合这些值可能会有所不同。因此,在解释这些值时,了解您的数据来源非常重要。

有一些特殊类型的图像,其中坐标F(xi,yi)F(x_i,y_i)不描述强度值,而是标记像素。导致这种图像的操作的最简单示例是分离前景和背景。所有前景都接收标签 1,所有背景都接收标签 0。这些图像通常被称为标记图像。当只有两个标签时,例如我们的示例,我们称它们为二值图像或掩码。

您可能听说过 4D 甚至 5D 图像。这种术语主要由生物医学领域的人员和显微镜学家使用。再次,不要害怕!这种命名来自对体积数据随时间、不同通道或不同成像方式(即照片和 X 射线)进行成像的人员。这个想法是,每个新的信息来源都变成了一个额外的维度。因此,5D 图像是在时间 (4D) 和使用不同通道 (5D) 成像的体积图像 (3D)。

但是图像在计算机中是如何表示的呢?最常见的是通过矩阵。很容易将图像想象成一个二维数值数组。这是一个优势,因为计算机可以很好地处理数组。将矩阵视为图像有助于理解卷积神经网络和图像预处理中的某些过程。我们稍后会看到更多细节。

或者,图像可以表示为图,其中每个节点是一个坐标,边是相邻坐标。花点时间思考一下。这也意味着用于图的算法和模型也可以用于图像!反之亦然 - 您可以将图转换为图像并像分析图片一样分析它。

到目前为止,我们提出了一个相当灵活的图像定义。这个定义可以适应获取视觉数据的不同方式,但它们都突出了相同的关键方面:图像是包含大量空间信息的数据点。关键区别在于空间分辨率(2D 或 3D)、它们的颜色系统(RGB 或其他)以及它们是否附加了时间分量。

图像与其他数据类型

图像和视频的区别

如果您一直在关注,您可能已经意识到视频是图像的视觉表示,并附加了时间分量。对于 2D 图像采集,您可以添加时间维度,使得F(X,Y,T)F(X,Y,T)成为您的成像函数。

图像自然可以在时间上有一个隐藏的分量。毕竟,它们是在特定的时间点拍摄的,不同的图像也可能在时间上相关。然而,图像和视频在如何采样这种时间信息方面有所不同。图像是单个时间点的静态表示,而视频是以创建运动幻觉的速率播放的图像序列。这个速率就是我们可以称之为每秒帧数。

这非常重要,因此本课程有一章专门介绍视频。在那里,我们将回顾处理这个新增维度所需的调整。

图像与表格数据

在表格数据中,维度通常由描述一个数据点的特征(列)的数量定义。在视觉数据中,维度通常指的是描述数据的维度数。对于 2D 图像,我们通常指的是数字xix_iyiy_i作为图像大小。

另一个方面是生成描述视觉数据的特征。它们是通过传统的预处理生成的,或者通过深度学习方法学习的。我们将其称为特征提取。它涉及特征提取章节中更详细讨论的不同算法。这与表格数据的特征工程形成对比,在表格数据中,新特征是建立在现有特征之上的。

表格数据通常需要处理缺失值、编码分类变量和重新缩放数值特征。图像数据的类似过程是图像大小调整和强度值归一化。我们将这些过程称为预处理,我们将在“计算机视觉预处理”一章中更详细地讨论它们。

主要区别

下表总结了不同数据类型的关键方面。

特征 图像 视频 音频 表格数据
1 类型 时间上的单个时刻 随时间推移的图像序列 时间上的单个时刻 按行和列组织的结构化数据
2 数据表示 通常是像素的 2D 数组 通常是帧的 3D 数组 通常是音频样本的 1D 数组 通常是特征的 2D 数组作为列,单个数据样本作为行(即电子表格、数据库表
3 文件类型 JPEG,PNG,RAW 等 MP4,AVI, MOV 等 WAV, MP3, FLAC 等 CSV, Excel (.xlsx, .xls), 数据库格式等
4 数据增强 翻转、旋转、裁剪 时间抖动、速度变化、遮挡 背景噪声添加、混响、频谱操作 ROSE, SMOTE, ADASYN
5 特征提取 边缘、纹理、颜色 边缘、纹理、颜色、光流、轨迹 频谱图、梅尔频率倒谱系数 (MFCCs)、色度特征 统计分析、特征工程、数据聚合
6 学习模型 CNNs RNNs, 3D CNNs CNNs, RNNs 线性回归、决策树、随机森林、梯度提升
7 机器学习任务 图像分类、分割、目标检测 视频动作识别、时间建模、跟踪 语音识别、说话人识别、音乐流派分类 回归、分类、聚类
8 计算成本 成本较低 成本较高 中等到高 通常比其他成本低
9 应用 用于安全访问控制的人脸识别 用于实时通信的手语翻译 语音助手、语音转文本、音乐流派分类 预测建模、欺诈检测、天气预报
< > 在 GitHub 上更新