社区计算机视觉课程文档

简介

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

简介

欢迎来到视频和视频处理单元。您可能已经意识到,到目前为止,我们的课程内容主要集中在标准的静态 2D 图像上。当然,计算机视觉的真实世界还有更多内容。由于社交媒体、广播或监控摄像头等应用,视频绝对是我们世界上最常用的媒介之一。

鉴于它们在我们的社会和研究中的重要性,我们也想在我们的课程中讨论它们。在本介绍章节中,您将学习一些关于视频的基本理论,然后再仔细研究视频处理。

什么是视频?

图像是视觉数据的二进制二维 (2D) 表示。视频是一种多媒体格式,它按顺序显示这些帧或图像。

从技术上讲,帧是单独的图片。因此,以传统速度顺序存储和播放这些帧会导致视频的创建,从而产生运动的错觉(就像翻页书一样)。它是一种流行的且广泛使用的媒介,用于交流信息、娱乐和对话。视频和照片是通过图像采集设备(如摄像机、智能手机等)获得的。

视频的各个方面

  • 分辨率: 视频的分辨率是指每帧中的像素数量,或者我们也可以将其称为视频中每帧的大小。它不需要是标准尺寸,但视频有常见的尺寸。常见的视频分辨率包括高清 (HD) (1280x720 像素)、全高清 (Full HD) (1920x1080 像素)、超高清 (Ultra HD) 或 4K (3840x2160 像素) 等。当说视频的分辨率为 1920x1080 像素时,实际上意味着视频的宽度为 1920 像素,高度为 1080 像素。分辨率较高的视频具有更多细节,但也需要更多的存储空间和处理能力。

  • 帧率: 视频由多个单独的帧或图像组成。为了给人以运动的印象,这些帧会一个接一个地快速显示。每秒显示的帧数称为“帧率”。常见的帧率包括每秒 24、30 和 60 帧 (fps) 或赫兹(频率的通用单位)。较高的帧率会产生更平滑的运动。

  • 比特率: 描述音频和视频所需的数据量称为比特率。较高的比特率可以实现更好的质量,但流式传输需要更多的存储空间和带宽。

视频的比特率通常以兆比特每秒 (mbps) 或千比特每秒 (kbps) 表示。

  • 编解码器: 编解码器是“压缩器-解压缩器”的缩写,是软件或硬件组件,用于压缩和解压缩数字媒体,以减小媒体文件的大小,使其更易于存储和传输,同时保持可接受的质量水平。编解码器主要有两种类型:“无损编解码器”和“有损编解码器”。无损编解码器旨在压缩数据而不损失任何质量,而有损编解码器更侧重于通过删除部分数据进行压缩,从而导致质量损失。

总之,视频是一种动态多媒体格式,它结合了一系列单独的帧、音频,以及通常还有额外的元数据。它广泛应用于各种应用,并且可以针对不同的目的进行定制,无论是娱乐、教育、通信还是分析。

什么是视频处理?

在计算机视觉 (CV) 和人工智能 (AI) 研究领域中,视频处理涉及自动分析视频数据,以理解和解释时间和空间特征。视频数据只是随时间变化的图像序列,信息在空间和时间上都被数字化。这使我们能够对视频每一帧中的内容进行详细的分析和操作。

得益于深度学习 (DL) 和人工智能的快速发展,视频处理在当今技术驱动的世界中变得越来越重要。传统上,深度学习研究主要集中在图像、语音和文本上,但视频数据由于其庞大的规模和复杂性,为研究提供了独特且有价值的机会。每天有数百万个视频上传到 YouTube 等平台,视频数据已成为一种丰富的资源,推动了人工智能研究并实现了突破性的应用。

视频处理的应用

  • 监控系统: 视频处理在公共安全、犯罪预防和交通监控中起着至关重要的作用。它能够自动检测可疑活动,帮助识别个人,并提高监控系统的效率。

  • 自动驾驶: 在自动驾驶领域,视频处理对于导航、障碍物检测和决策过程至关重要。它使自动驾驶汽车能够了解周围环境、识别道路标志并对不断变化的环境做出反应,从而确保安全高效的交通运输。

  • 医疗保健: 视频处理在医疗保健领域具有重要的应用,包括医学诊断、外科手术和患者监护。它有助于分析医学图像,在外科手术过程中提供实时反馈,并持续监护患者以检测任何异常或紧急情况。

视频处理中的挑战

  • 计算需求: 实时视频分析需要大量的处理能力,这对开发和部署高效的视频处理系统提出了重大挑战。高性能计算资源对于满足这些需求至关重要。

  • 存储需求: 高分辨率视频会生成大量数据,从而导致存储方面的挑战。高效的数据压缩和管理技术对于处理海量的视频数据是必要的。

  • 隐私和伦理问题: 视频处理,尤其是在监控和医疗保健领域,涉及到处理敏感信息。确保隐私并解决与滥用视频数据相关的伦理问题是必须认真管理的关键考虑因素。

结论

视频处理是人工智能和计算机视觉领域中一个充满活力且至关重要的领域,它提供了众多的应用并带来了独特的挑战。深度学习的进步和视频数据的日益普及推动了其在现代技术中的重要性不断增长。在接下来的章节中,我们将更深入地探讨用于视频处理的深度学习。您将探索最先进的模型,包括 3D CNN 和 Transformers。

此外,我们还将介绍各种任务,例如对象跟踪、动作识别、视频稳定、字幕生成、摘要和背景减除。这些主题将使您全面了解深度学习模型如何应用于不同的视频处理挑战和应用。

开始吧! 🤓

< > 在 GitHub 上更新