基于多模态的视频模型

正如前几章讨论的那样，视频可以简单地定义为图像序列。然而，与简单的图像不同，视频包含多种模态，例如声音、文本和运动。从这个角度来看，要正确理解视频，我们必须同时考虑多种模态。在本章中，我们首先简要解释视频中可能存在的模态。然后，我们将介绍可以通过对齐不同模态的视频进行学习的架构。

视频中存在哪些模态？

视频包含多种模态，不仅仅是图像序列。理解这些不同的模态对于全面的视频分析和处理至关重要。视频中存在的主要模态包括

视觉模态（帧/图像）：最常见的模态，由提供视频视觉信息的图像序列组成。
音频模态（声音）：包括对话、背景音乐和环境声音，这些可以传达关于视频的上下文信息。
文本模态（字幕）：以字幕或屏幕文本的形式出现，提供与视频上下文相关的明确信息。
运动模态（运动动力学）：捕捉视频帧之间的时间变化，反映运动和过渡。
深度模态：表示视频的 3D 空间信息。
传感器模态：在某些应用中，视频可能包含温度或生物特征数据等模态。

Modality examples. The image is from the original LanuageBind paper

除了上面提到的模态之外，视频还可以包含更多样化的模态类型。请务必考虑哪些模态对您的特定工作或项目是必要的。在下一节中，我们将探讨可以共同对齐和表示这些模态的视频架构。

视频和文本

VideoBERT

概述

VideoBERT 尝试将 BERT 架构直接应用于视频数据。就像语言模型中的 BERT 一样，目标是在没有任何监督的情况下学习良好的视觉-语言表示。对于文本模态，VideoBERT 使用 ASR（自动语音识别）将音频转换为文本，然后获得 BERT 令牌嵌入。对于视频，它使用 S3D 获取每帧的令牌嵌入。

主要特点

语言-视觉对齐：判断给定的文本和视频帧是否对齐。
掩码语言建模：预测文本中被掩盖的令牌（就像 BERT 中一样）。
掩码帧建模：预测被掩盖的视频帧（就像 MLM 预测文本中被掩盖的令牌一样）。

重要性

VideoBERT 是首批通过学习联合表示来有效整合视频-语言理解的模型之一。与以前的方法不同，VideoBERT 不使用检测模型进行图像-文本标注。相反，它使用聚类算法来实现掩码帧建模，使模型能够在不需要显式标注数据的情况下预测掩码帧。

MERLOT

概述

MERLOT 旨在通过从大规模视频-文本数据集学习来提高多模态推理能力。它专注于在不使用标注数据的情况下理解视觉和文本信息之间的交互。通过利用大规模未标注数据集 YT-Temporal-180M，MERLOT 在视觉常识推理方面表现出强大的性能，而无需依赖大量的视觉监督。

主要特点

时间重排序任务（来自 HERO）
帧-字幕匹配任务（来自 CBT, HAMMER）
掩码语言建模

重要性

虽然模型架构和训练方法并非完全新颖，但 MERLOT 通过在 YT-Temporal-180M 这个大规模视觉-文本数据集上进行训练，实现了性能提升。这个广泛的数据集使模型能够更好地理解时间动态和多模态交互，从而在视频-语言任务中实现增强的推理和预测能力。

注意：如果您想了解 MERLOT 的详细训练过程，请务必参考 MERLOT 论文以及早期作品，如 [HERO](https://aclanthology.org/2020.emnlp-main.161.pdf), [CBT](https://arxiv.org/pdf/1906.05743) 和 [HAMMER](https://aclanthology.org/2020.emnlp-main.161.pdf)。

视频和音频、文本

VATT(Visual-Audio-Text Transformer)

概述

VATT 是一种旨在从原始视频、音频和文本中进行自监督学习的模型。不同的令牌化和位置编码方法应用于每种模态，VATT 使用 Transformer Encoder 有效地整合来自原始多模态数据的表示。因此，它在各种下游任务（如动作识别和文本到视频检索）中取得了强大的性能。

主要特点

模态特定 & 模态无关：模态特定版本为每种模态使用单独的 Transformer 编码器，而模态无关版本使用单个 Transformer 编码器整合所有模态。虽然模态特定版本表现出更好的性能，但模态无关版本在参数较少的下游任务中仍然表现出强大的性能。
Droptoken：由于视频（包含音频和文本数据）中存在冗余，因此仅对令牌的子集进行采样可以实现更高效的训练。
多模态对比学习：噪声对比估计 (NCE) 用于视频-音频对，而多实例学习 NCE (MIL-NCE) 应用于视频-文本对

重要性

以前使用 transformers 进行视频多模态任务的模型倾向于严重依赖视觉数据，并且需要大量的训练时间和计算复杂性。相比之下，VATT 利用 Droptoken 和权重共享，以相对较低的计算复杂性从原始视觉、音频和文本数据中学习强大的多模态表示。

Video-Llama

概述

Video-LLaMA 是一个多模态框架，旨在扩展大型语言模型 (LLM)，以理解视频中的视觉和听觉内容。它整合了视频、音频和文本，使模型能够处理和生成基于视听信息的有意义的响应。Video-LLaMA 解决了两个关键挑战：捕捉视觉场景中的时间变化以及将视听信号整合到一个统一的系统中。

主要特点

Video-LLaMA 有两个分支

视觉-语言分支用于处理视频帧
音频-语言分支用于处理音频信号。

这些分支分别进行训练，经历预训练和微调阶段。在预训练阶段，模型学习整合不同的模态，而在微调阶段，它专注于提高其准确遵循指令的能力。

在视觉-语言分支的情况下，有大量的视觉-文本数据可用。然而，对于音频-语言分支，缺乏足够的音频-文本数据。为了解决这个问题，该模型利用 ImageBind，允许音频-语言分支使用视觉-文本数据进行训练。

重要性

以前的模型难以同时处理视觉和听觉内容。Video-LLaMA 通过在单个框架中整合这些模态来解决这个问题，捕捉视频中的时间变化并对齐视听信号。它通过使用跨模态预训练和指令微调克服了早期研究的局限性，在视频对话等多模态任务中取得了强大的性能，而无需依赖单独的模型。

视频和多种模态

ImageBind

概述

ImageBind 利用图像和其他模态之间的配对数据来整合多样化的模态表示，以图像数据为中心。

主要特点

ImageBind 通过利用图像和其他模态的配对来统一多种模态。通过利用 InfoNCE 作为损失函数，该模型对齐各种输入之间的表示。即使在非图像模态之间缺少配对数据的情况下，ImageBind 也可以有效地执行跨模态检索和零样本任务。此外，与其他模型相比，ImageBind 的训练过程相对简单，并且可以通过多种方式实现。

重要性

ImageBind 的主要贡献在于其整合各种模态的能力，而无需特定的模态配对数据集。它以图像为参考，将多达六种不同的模态（如音频、文本、深度等）对齐并组合到一个统一的表示空间中。其意义在于它能够同时实现跨多种模态的这种对齐，而无需对每种组合进行直接配对，从而使其在多模态学习中非常高效。

结论

我们简要地研究了视频中存在的不同模态，然后探索了将视觉信息与其他各种模态集成的模型。随着时间的推移，越来越多的研究集中于一次性整合各种模态。

我很高兴看到未来会出现什么样的模型，在视频内容中整合更多样化的模态。通过视频推进多模态表示学习的潜力感觉是无限的！

< > 在 GitHub 上更新

社区计算机视觉课程

基于多模态的视频模型

视频中存在哪些模态？

视频和文本

VideoBERT

MERLOT

视频和音频、文本

VATT(Visual-Audio-Text Transformer)

Video-Llama

视频和多种模态

ImageBind

结论