社区计算机视觉课程文档

基于多模态的视频模型

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

基于多模态的视频模型

如前几章所述,视频可以简单地定义为一系列图像。然而,与简单的图像不同,视频包含声音、文本和运动等多种模态。从这个角度来看,为了正确理解视频,我们必须同时考虑多种模态。在本章中,我们首先简要解释视频中可能存在的模态。然后,我们介绍通过对齐视频与不同模态进行学习的架构。

视频中存在哪些模态?

视频包含多种模态,而不仅仅是图像序列。理解这些不同的模态对于全面的视频分析和处理至关重要。视频中主要存在的模态包括:

  1. 视觉模态(帧/图像):最常见的模态,由图像序列组成,提供视频的视觉信息。
  2. 音频模态(声音):包括对话、背景音乐和环境声音,可以传达视频的上下文信息。
  3. 文本模态(字幕/副标题):以字幕、标题或屏幕文字的形式出现,提供与视频上下文相关的显式信息。
  4. 运动模态(运动动态):捕捉视频帧之间的时间变化,反映运动和过渡。
  5. 深度模态:表示视频的 3D 空间信息。
  6. 传感器模态:在某些应用中,视频可能包含温度或生物识别数据等模态。
Modality examples. The image is from the original LanuageBind paper

除了上述模态,视频还可以包含更多样化的模态类型。请务必考虑哪些模态对于您的特定工作或项目是必需的。在下一节中,我们将探索能够联合对齐和表示这些模态的视频架构。

视频与文本

VideoBERT

概览

VideoBERT model architecture.

VideoBERT 尝试将 BERT 架构直接应用于视频数据。就像语言模型中的 BERT 一样,其目标是在没有任何监督的情况下学习良好的视觉-语言表示。对于文本模态,VideoBERT 使用 ASR(自动语音识别)将音频转换为文本,然后获取 BERT 标记嵌入。对于视频,它使用 S3D 获取每个帧的标记嵌入。

主要功能

  1. 语言-视觉对齐:分类给定的文本和视频帧是否对齐。
  2. 遮蔽语言建模:预测文本中的遮蔽标记(就像 BERT 中一样)。
  3. 遮蔽帧建模:预测遮蔽的视频帧(就像 MLM 预测文本中的遮蔽标记一样)。

重要性

VideoBERT 是首批通过学习联合表示有效整合视频语言理解的模型之一。与以前的方法不同,VideoBERT 不使用检测模型进行图像-文本标注。相反,它使用聚类算法来实现遮蔽帧建模,从而使模型能够预测遮蔽帧而无需显式标注数据。

MERLOT

概览

MERLOT 旨在通过从大规模视频-文本数据集中学习来改进多模态推理。它专注于使用无标注数据来理解视觉和文本信息之间的交互。通过利用大规模无标注数据集 YT-Temporal-180MMERLOT 在无需大量视觉监督的情况下,在视觉常识推理方面表现出强大的性能。

主要功能

  1. 时间重排序任务(来自 HERO
  2. 帧-字幕匹配任务(来自 CBT, HAMMER
  3. 遮蔽语言建模

重要性

尽管模型架构和训练方法并非全新,但 MERLOT 通过在大型视觉文本数据集 YT-Temporal-180M 上进行训练,实现了性能提升。这个庞大的数据集使模型能够更好地理解时间动态和多模态交互,从而在视频-语言任务中增强推理和预测能力。

注意:如果您想了解 MERLOT 的详细训练过程,请务必参考 MERLOT 论文以及早期工作,如 [HERO](https://aclanthology.org/2020.emnlp-main.161.pdf)、[CBT](https://arxiv.org/pdf/1906.05743) 和 [HAMMER](https://aclanthology.org/2020.emnlp-main.161.pdf)。

视频、音频与文本

VATT (视觉-音频-文本 Transformer)

概览

VATT model architecture.

VATT 是一个旨在从原始视频、音频和文本中进行自监督学习的模型。对每种模态应用了不同的分词和位置编码方法,VATT 使用 Transformer 编码器有效整合了来自原始多模态数据的表示。因此,它在动作识别和文本到视频检索等各种下游任务中取得了强大的性能。

主要功能

  1. 模态特定 & 模态无关:模态特定版本为每种模态使用独立的 Transformer 编码器,而模态无关版本则使用单个 Transformer 编码器整合所有模态。虽然模态特定版本表现出更好的性能,但模态无关版本在参数更少的情况下,仍在下游任务中展现出强大的性能。
  2. Droptoken:由于视频中的冗余(包括音频和文本数据),只采样一部分标记可以实现更高效的训练。
  3. 多模态对比学习:视频-音频对使用噪声对比估计(NCE),而视频-文本对应用多实例学习 NCE(MIL-NCE)。

重要性

以前使用 Transformer 进行视频多模态任务的模型往往严重依赖视觉数据,并且需要大量的训练时间和计算复杂度。相比之下,VATT 利用 Droptoken权重共享,以相对较低的计算复杂度从原始视觉、音频和文本数据中学习强大的多模态表示。

Video-Llama

概览

Video-LLaMA 是一个多模态框架,旨在扩展大型语言模型 (LLM) 以理解视频中的视觉和听觉内容。它整合了视频、音频和文本,使模型能够处理和生成基于视听信息的有意义响应。Video-LLaMA 解决了两个关键挑战:捕捉视觉场景中的时间变化,以及将视听信号整合到统一系统中。

主要功能

Video-LLaMA 有两个分支:

  1. 视觉-语言分支用于处理视频帧
  2. 音频-语言分支用于处理音频信号。

这些分支分别进行训练,经历预训练和微调阶段。在预训练阶段,模型学习整合不同的模态,而在微调阶段,它专注于提高准确执行指令的能力。

在视觉-语言分支中,存在大量的视觉-文本数据。然而,对于音频-语言分支,缺乏足够的音频-文本数据。为了解决这个问题,模型利用 ImageBind,允许音频-语言分支使用视觉-文本数据进行训练。

重要性

以前的模型难以同时处理视觉和听觉内容。Video-LLaMA 通过将这些模态整合到单个框架中来解决这个问题,捕捉视频中的时间变化并对齐视听信号。它通过使用跨模态预训练和指令微调,克服了早期研究的局限性,在视频对话等多模态任务中取得了强大的性能,而无需依赖单独的模型。

视频与多种模态

ImageBind

概览

ImageBind model architecture.

ImageBind 利用图像与其他模态的配对数据,以图像数据为中心整合不同的模态表示。

主要功能

ImageBind 通过利用图像与其他模态的配对来统一多种模态。通过将 *InfoNCE* 作为损失函数,模型对齐了各种输入之间的表示。即使在非图像模态之间没有配对数据的情况下,ImageBind 也能有效地执行跨模态检索和零样本任务。此外,ImageBind 的训练过程相对于其他模型来说相对简单,并且可以通过各种方式实现。

重要性

ImageBind 的主要贡献在于它能够整合各种模态,而无需特定的模态配对数据集。它以图像为参考,将多达六种不同模态——例如音频、文本、深度等——对齐并组合到一个统一的表示空间中。其重要性在于它能够同时实现跨多种模态的对齐,而无需对每种组合进行直接配对,这使其在多模态学习中具有高效性。

总结

我们简要探讨了视频中存在的不同模态,然后探索了将视觉信息与其他各种模态整合的模型。随着时间的推移,越来越多的研究致力于一次性整合各种模态。

我很期待看到未来会出现哪些模型,它们将视频内容中整合更多样化的模态。通过视频推进多模态表示学习的潜力感觉是无限的!

< > 在 GitHub 上更新