社区计算机视觉课程文档

多模态世界

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

多模态世界

欢迎来到关于多模态基础知识的章节。本章为本单元后续部分奠定基础。我们将探索

  • 多模态的概念,以及人类用于高效决策的不同感官输入。
  • 为什么它对于通过我们可以互动并使生活更轻松的创新应用程序和服务至关重要。
  • 深度学习、数据、任务和模型背景下的多模态。
  • 相关应用,如多模态情感识别和多模态搜索。

那么,让我们开始吧 🤗

什么是多模态? 📸📝🎵

模态是指事物存在或完成的方式或媒介。在日常生活中,我们经常遇到需要做出决策和执行任务的情况。为此,我们使用 5 个感官器官(眼睛看、耳朵听、鼻子闻、舌头尝、皮肤触摸)。基于来自所有感官器官的信息,我们评估我们的环境、执行任务并为我们的生存做出决策。这 5 个感官器官中的每一个都是信息传递给我们的不同模态,因此称为多模态或多模型。

想象一下这个场景,在一个刮风的夜晚,当您在床上时,您听到了一种怪异的声音 👻😨。您感到有点害怕,因为您不了解声音的来源。您试图鼓起勇气检查您的环境,但您无法弄清楚 😱。大胆地,您打开灯,发现只是您的窗户半开着,风从那里吹进来,才发出了声音 😒。

那么这里发生了什么?最初,由于您对环境的了解有限,您对情况的理解受到了限制。这种有限的了解是由于您仅仅依靠您的耳朵(怪异的声音)来理解情况。但是,当您打开房间里的灯并通过眼睛环顾四周(增加了一种感官器官)后,您对整个情况有了更好的了解。随着我们不断增加模态,我们对情况的理解变得比以前更好、更清晰,对于同一场景,这表明向同一情况添加更多模态会相互协助并提高信息内容。即使在学习本课程并继续前进时,您难道不想看到酷炫的信息图,并配有视频内容来解释细微的概念,而不是仅仅是纯文本内容吗 😉 给你

Multimodality Notion

关于多模态及其为何对于通过不同模态捕捉数据的整体意义很重要的信息图。该信息图也是多模态的(图像 + 文本)。

很多时候,两个人之间的交流在文本模式下变得非常尴尬,当涉及声音时会略有改善,但当您能够可视化肢体语言和面部表情时,会大大改善。美国心理学家艾伯特·梅拉比安 (Albert Mehrabian) 详细研究了这一点,他将此称为 7-38-55 沟通规则,该规则指出:“在沟通中,总体含义的 7% 是通过口头模式(口语词)传达的,38% 通过声音和语调,55% 通过肢体语言和面部表情。”

更一般地说,在人工智能的背景下,7% 的含义是通过文本模态传达的,38% 通过音频模态,55% 通过视觉模态。在深度学习的背景下,我们将每个模态称为数据到达深度学习模型以进行处理和预测的方式。深度学习中最常用的模态是:视觉、音频和文本。其他模态也可以用于特定的用例,如激光雷达、脑电图数据、眼动追踪数据等。

单模态模型和数据集纯粹基于单一模态,并且已经研究了很长时间,具有许多任务和基准,但在其能力方面受到限制。仅仅依靠单一模态可能无法给我们完整的画面,而结合更多模态将增加信息内容并减少错过其中可能存在的线索的可能性。为了使我们周围的机器更智能,更善于与我们沟通,并具有增强的解释和推理能力,围绕本质上是多模态的模型和数据集构建应用程序和服务非常重要。因为,多模态可以给我们提供更清晰、更准确的世界表征,使我们能够开发更接近现实世界场景的应用程序。

模态的常见组合和现实生活示例

  • 视觉 + 文本:信息图表、表情包、文章、博客。
  • 视觉 + 音频:与朋友的 Skype 通话、双人对话。
  • 视觉 + 音频 + 文本:观看带有字幕的 YouTube 视频或电影,一般的社交媒体内容是多模态的。
  • 音频 + 文本:语音笔记、带有歌词的音乐文件。

多模态数据集

由多个模态组成的数据集是多模态数据集。在常见的模态组合中,让我们看一些例子

现在,让我们看看可以使用多模态数据集执行哪些类型的任务。有很多例子,但我们通常会关注包含视觉和文本元素的任务。多模态数据集需要能够处理来自多个模态的数据的模型。这种模型称为多模态模型。

多模态任务和模型

每个模态都有与之相关的不同任务,例如:视觉下游任务包含图像分类、图像分割、物体检测等。我们将使用专门为这些任务设计的模型。因此,任务和模型是相辅相成的。如果一个任务涉及两个或多个模态,那么它可以称为多模态任务。如果我们从输入和输出的角度考虑任务,那么多模态任务通常可以被认为是具有单个输入/输出安排,分别在输入端和输出端具有两个不同的模态。

Hugging Face 支持各种多模态任务。让我们看看其中的一些。

🤗 支持的一些多模态任务及其变体

  1. 视觉 + 文本
  • 视觉问答或 VQA:辅助视障人士、高效图像检索、视频搜索、视频问答、文档 VQA。
  • 图像到文本:图像描述、光学字符识别 (OCR)、Pix2Struct。
  • 文本到图像:图像生成。
  • 文本到视频:文本到视频编辑、文本到视频搜索、视频翻译、文本驱动的视频预测。
  1. 音频 + 文本

💡多模态任务的一个惊人用例是多模态情感识别 (MER)。MER 任务涉及从两个或多个模态(如音频+文本、文本+视觉、音频+视觉或视觉+文本+音频)识别情感。正如我们在示例中讨论的那样,MER 比单模态情感识别更有效,并且可以清晰地了解情感识别任务。查看更多关于 MER 的信息,请访问此存储库

Multimodal model flow

多模态模型是一种模型,可用于通过同时处理来自多个模态的数据来执行多模态任务。这些模型结合了不同模态的独特性和优势,以完整表示数据,从而提高多项任务的性能。多模态模型经过训练,可以整合和处理来自图像、视频、文本、音频等来源的数据。组合这些模态的过程从多个单模态模型开始。然后,使用融合模块的策略融合这些单模态模型的输出(编码数据)。融合策略可以是早期融合、晚期融合或混合融合。融合模块的总体任务是对来自单模态模型的编码数据进行组合表示。最后,分类网络接收融合表示以进行预测。

关于多模态任务和模型的详细部分(重点关注视觉和文本)将在下一章中讨论。

多模态应用:多模态搜索 🔎📲💻

互联网搜索是谷歌拥有的一个关键优势,但随着 OpenAI 推出 ChatGPT,微软开始增强其 Bing 搜索引擎,以便能够击败竞争对手。最初,它仅限于 LLM,着眼于大量的文本数据,但我们周围的世界,主要是社交媒体内容、网络文章和所有可能的在线内容形式,在很大程度上是多模态的。当我们搜索图像时,图像会弹出并带有相应的文本来描述它。如果有一个更强大的多模态模型,同时包含视觉和文本,那不是超级酷吗?这可以极大地革新搜索领域,而其中涉及的核心技术是多模态学习。我们知道,许多公司也拥有一个大型数据库,该数据库是多模态的,并且大多是非结构化的。多模态模型可能会帮助公司进行内部搜索、交互式文档(聊天机器人)和许多此类用例。这是企业 AI 的另一个领域,我们在此领域利用 AI 来实现组织智能。

视觉语言模型 (VLM) 是可以理解和处理视觉和文本模态的模型。对两种模态的共同理解使 VLM 能够有效地执行各种任务,如视觉问题解答、文本到图像搜索等。因此,VLM 可以充当多模态搜索的最佳候选者之一。因此,总的来说,VLM 应该找到某种方法将文本和图像对映射到联合嵌入空间,其中每个文本-图像对都作为嵌入存在。我们可以使用这些嵌入执行各种下游任务,这些嵌入也可以用于搜索。这种联合空间的想法是,在意义上相似的图像和文本嵌入将彼此靠近,使我们能够基于文本(文本到图像搜索)或反之亦然搜索图像。

💡Meta 发布了第一个多模态 AI 模型,用于绑定来自 6 种不同模态的信息:图像和视频、音频、文本、深度、热感和惯性测量单元 (IMU)。在此处了解更多信息 here

在了解了多模态的基础知识之后,现在让我们来看看 🤗 中可用的不同多模态任务和模型,以及它们通过酷炫演示和 Spaces 的应用。

< > 在 GitHub 上更新