社区计算机视觉课程文档
多模态世界
并获得增强的文档体验
开始使用
多模态世界
欢迎来到多模态基础知识章节。本章将为单元的后续部分奠定基础。我们将探讨
- 多模态的概念,以及人类用于高效决策的不同感官输入。
- 为什么它对于通过创新应用和服务来互动并简化生活至关重要。
- 深度学习背景下的多模态、数据、任务和模型。
- 多模态情感识别和多模态搜索等相关应用。
那么,让我们开始吧 🤗
什么是多模态?📸📝🎵
模态是指事物存在或完成的方式或媒介。在日常生活中,我们遇到许多需要做出决策和执行任务的场景。为此,我们使用我们的五种感官(眼睛看,耳朵听,鼻子闻,舌头尝,皮肤触摸)。根据所有感官的信息,我们评估环境,执行任务,并为生存做出决策。这五种感官中的每一种都是一种不同的模态,通过它们信息来到我们这里,因此有了多模态或多模态这个词。
请思考一下这个场景:在一个有风的夜晚,你在床上听到一种诡异的声音👻😨。你感到有点害怕,因为你不清楚声音的来源。你试图鼓起勇气检查一下周围环境,但你无法弄清楚😱。你大胆地打开灯,结果发现那只是你的窗户半开着,风从那里吹进来,最初发出了声音😒。
那么这里发生了什么?最初,由于你对环境的了解有限,你对情况的理解受到限制。这种有限的了解是因为你只依赖于你的耳朵(诡异的声音)来理解。但是,当你打开房间的灯并通过眼睛环顾四周(增加了另一种感官)时,你对整个情况有了更好的理解。随着我们不断增加模态,我们对同一场景的理解变得比以前更好、更清晰,这表明在同一情况下添加更多模态会相互辅助并提高信息内容。即使在学习这门课程并继续前进时,你难道不喜欢酷炫的信息图表,以及解释细微概念的视频内容,而不是仅仅是纯文本内容吗?😉 请看
这是一张关于多模态以及为何通过不同模态捕捉数据整体意义很重要的信息图。这张信息图本身也是多模态的(图像+文本)。
很多时候,两个人之间的文本交流会变得非常尴尬,当涉及语音时略有改善,但当您能够可视化肢体语言和面部表情时,交流会大大改善。美国心理学家阿尔伯特·梅拉比安对此进行了详细研究,并将其称为沟通的7-38-55法则,该法则指出:“在沟通中,7%的整体意义通过口头模式(口语)传达,38%通过声音和语调传达,55%通过肢体语言和面部表情传达。”
更一般地说,在人工智能领域,7% 的意义通过文本模态传达,38% 通过音频模态传达,55% 通过视觉模态传达。在深度学习的背景下,我们将每种模态视为数据到达深度学习模型进行处理和预测的方式。深度学习中最常用的模态是:视觉、音频和文本。其他模态也可以根据特定用例进行考虑,例如激光雷达、脑电图数据、眼动追踪数据等。
单模态模型和数据集纯粹基于单一模态,并且已经与许多任务和基准一起研究了很长时间,但它们的能力有限。依赖单一模态可能无法给我们提供完整的图景,结合更多模态将增加信息内容并减少遗漏其中可能存在的线索的可能性。为了使我们周围的机器更智能,更好地与我们沟通,并增强解释和推理能力,围绕本质上是多模态的模型和数据集构建应用程序和服务非常重要。因为多模态可以为我们提供周围世界更清晰、更准确的表示,从而使我们能够开发更接近真实世界场景的应用程序。
常见的模态组合和真实生活示例
- 视觉 + 文本:信息图表、表情包、文章、博客。
- 视觉 + 音频:与朋友的 Skype 通话,两人对话。
- 视觉 + 音频 + 文本:观看带字幕的 YouTube 视频或电影,通常社交媒体内容都是多模态的。
- 音频 + 文本:语音笔记,带歌词的音乐文件。
多模态数据集
由多种模态组成的数据集称为多模态数据集。在常见的模态组合中,让我们看一些例子
- 视觉 + 文本:视觉故事叙述数据集, 视觉问答数据集, LAION-5B 数据集。
- 视觉 + 音频:VGG-Sound 数据集, RAVDESS 数据集, 音视频身份数据库 (AVID)。
- 视觉 + 音频 + 文本:RECOLA 数据库, IEMOCAP 数据集。
现在,让我们看看可以使用多模态数据集执行哪些任务。有很多例子,但我们通常会关注包含视觉和文本元素的任务。多模态数据集需要一个能够处理来自多种模态数据的模型。这样的模型称为多模态模型。
多模态任务和模型
每种模态都有与之相关的不同任务,例如:视觉下游任务包括图像分类、图像分割、目标检测等,我们将使用专门为这些任务设计的模型。因此,任务和模型是相辅相成的。如果一个任务涉及两种或多种模态,则可以将其称为多模态任务。如果我们将任务从输入和输出的角度来看,多模态任务通常可以被认为是具有不同模态输入和输出的单一输入/输出安排。
Hugging Face 支持各种多模态任务。让我们来看看其中一些。
Hugging Face 支持的一些多模态任务及其变体
- 视觉 + 文本
- 视觉问答或 VQA:辅助视障人士,高效图像检索,视频搜索,视频问答,文档 VQA。
- 图像到文本:图像字幕,光学字符识别 (OCR),Pix2Struct。
- 文本到图像:图像生成。
- 文本到视频:文本到视频编辑,文本到视频搜索,视频翻译,文本驱动的视频预测。
- 音频 + 文本
💡多模态任务的一个惊人用例是多模态情感识别(MER)。MER 任务涉及从两种或更多模态中识别情感,例如音频+文本、文本+视觉、音频+视觉或视觉+文本+音频。正如我们在示例中讨论的,MER 比单模态情感识别更有效,并对情感识别任务提供了清晰的洞察。请查看 此存储库以了解更多关于 MER 的信息。
多模态模型是一种可以同时处理来自多种模态的数据来执行多模态任务的模型。这些模型结合了不同模态的独特性和优势,以创建完整的数据表示,从而提高多任务性能。多模态模型经过训练,可以集成和处理来自图像、视频、文本、音频等来源的数据。结合这些模态的过程始于多个单模态模型。这些单模态模型的输出(编码数据)然后通过融合模块使用策略进行融合。融合策略可以是早期融合、后期融合或混合融合。融合模块的总体任务是创建来自单模态模型的编码数据的组合表示。最后,分类网络接收融合的表示以进行预测。
下一章将详细讨论多模态任务和模型,重点关注视觉和文本。
多模态的应用:多模态搜索 🔎📲💻
互联网搜索曾是谷歌的关键优势,但随着 OpenAI 推出 ChatGPT,微软开始为他们的必应搜索引擎提供动力,以便能够碾压竞争对手。最初,它仅限于大型语言模型,查看大量文本数据,但我们周围的世界,主要是社交媒体内容、网络文章和所有可能的在线内容,大多是多模态的。当我们搜索图片时,图片会弹出并附带相应的文本描述。如果能有一个更强大的多模态模型,同时涉及视觉和文本,那岂不是很酷?这可以极大地革新搜索领域,而其核心技术就是多模态学习。我们知道许多公司也有一个庞大多模态且大多是非结构化的数据库。多模态模型可能会帮助公司进行内部搜索、交互式文档(聊天机器人)以及许多此类用例。这是企业 AI 的另一个领域,我们利用 AI 来实现组织智能。
视觉语言模型 (VLM) 是能够理解和处理视觉和文本模态的模型。对两种模态的联合理解使 VLM 能够高效地执行各种任务,例如视觉问答、文本到图像搜索等。因此,VLM 可以作为多模态搜索的最佳候选者之一。总而言之,VLM 应该找到某种方式将文本和图像对映射到联合嵌入空间,其中每个文本-图像对都作为嵌入存在。我们可以使用这些嵌入执行各种下游任务,这些嵌入也可以用于搜索。这种联合空间的思想是,含义相似的图像和文本嵌入将彼此靠近,从而使我们能够基于文本搜索图像(文本到图像搜索),反之亦然。
💡Meta 发布了第一个多模态人工智能模型,它结合了来自 6 种不同模态的信息:图像和视频、音频、文本、深度、热力以及惯性测量单元 (IMU)。在此处了解更多信息:此处。
在学习了多模态的基础知识之后,现在让我们通过酷炫的演示和 Space 来了解 Hugging Face 中可用的不同多模态任务和模型及其应用。
< > 在 GitHub 上更新