多模态世界
欢迎来到关于多模态基础知识的章节。本章为本单元的后续部分奠定了基础。我们将探讨
- 多模态的概念,以及人类用于高效决策的不同感官输入。
- 为什么它对于创建创新的应用程序和服务至关重要,通过这些应用程序和服务,我们可以进行交互并使生活更轻松。
- 深度学习、数据、任务和模型背景下的多模态。
- 相关的应用,如多模态情感识别和多模态搜索。
所以让我们开始吧 🤗
什么是多模态?📸📝🎵
模态指的是某种事物存在或完成的方式或媒介。在我们的日常生活中,我们会遇到许多需要做出决策和执行任务的场景。为此,我们会使用我们的五种感官器官(眼睛看,耳朵听,鼻子闻,舌头尝,皮肤触)。根据所有感官器官的信息,我们评估我们的环境,执行任务,并做出决策以确保我们的生存。这五个感官器官中的每一个都是不同的模态,通过它们信息传达给我们,因此产生了多模态或多模态这个词。
想一想这个场景:在一个刮风的夜晚,你躺在床上听到一种怪异的声音👻😨。你感到有点害怕,因为你不知道声音的来源。你试图鼓起勇气检查你的周围环境,但你无法弄清楚😱。你大胆地打开灯,发现原来只是你的窗户半开着,风从那里吹进来发出了声音😒。
这里发生了什么?最初,由于你对环境的了解有限,你对局面的理解也很有限。这种有限的了解是由于你仅仅依赖于你的耳朵(怪异的声音)来理解。但当你打开房间的灯并四处查看时(增加了另一种感官器官),你对整个情况有了更好的了解。当我们不断添加模态时,我们对同一场景的理解变得比以前更好、更清晰,这表明在同一场景中添加更多模态可以相互辅助并提高信息内容。即使在学习本课程并继续前进的过程中,你是否不希望看到酷炫的信息图表,并配有视频内容来解释细微的概念,而不是仅仅是简单的文字内容😉?就是这样
关于多模态以及为什么通过不同模态捕获数据的整体意义很重要的信息图表。信息图表本身也是多模态的(图像+文本)。
很多时候,两个人之间的交流在文本模式下会变得很尴尬,当声音参与进来时会稍微好一点,但当你能够看到肢体语言和面部表情时,交流会大大改善。美国心理学家阿尔伯特·梅拉比安对此进行了详细的研究,他将其称为 7-38-55 沟通法则,该法则指出:“在沟通中,7% 的整体意义通过言语模式(口语)传达,38% 通过声音和语调传达,55% 通过肢体语言和面部表情传达。”
更一般地说,在 AI 的背景下,7% 的含义通过文本模态传达,38% 通过音频模态传达,55% 通过视觉模态传达。在深度学习的背景下,我们将每个模态视为数据到达深度学习模型进行处理和预测的方式。深度学习中最常用的模态是:视觉、音频和文本。其他模态也可以针对特定用例进行考虑,例如激光雷达、脑电图数据、眼动追踪数据等。
单模态模型和数据集纯粹基于单一模态,并且已经研究了很长时间,有很多任务和基准,但其能力有限。依赖单一模态可能无法让我们看到全貌,结合更多模态将增加信息内容并减少遗漏其中可能存在的线索的可能性。为了让我们周围的机器更智能、更善于与我们交流,并具有增强的解释和推理能力,重要的是围绕本质上是多模态的模型和数据集构建应用程序和服务。因为,多模态可以让我们更清晰、更准确地展现我们周围的世界,使我们能够开发更接近现实世界场景的应用程序。
模态的常见组合和现实生活中的例子
- 视觉 + 文本:信息图表、表情包、文章、博客。
- 视觉 + 音频:与朋友进行 Skype 通话,二人对话。
- 视觉 + 音频 + 文本:观看带有字幕的 YouTube 视频或电影,社交媒体内容通常是多模态的。
- 音频 + 文本:语音笔记,带歌词的音乐文件
多模态数据集
包含多种模态的数据集称为多模态数据集。在常见的模态组合中,让我们看一些例子
- 视觉 + 文本:视觉故事数据集、视觉问答数据集、LAION-5B 数据集。
- 视觉 + 音频:VGG-Sound 数据集、RAVDESS 数据集、视听身份数据库 (AVID)。
- 视觉 + 音频 + 文本:RECOLA 数据库、IEMOCAP 数据集。
现在让我们看看使用多模态数据集可以执行哪些类型的任务?有很多例子,但我们通常会关注包含视觉和文本的任务。多模态数据集需要能够处理来自多个模态的数据的模型,这种模型就是多模态模型。
多模态任务和模型
每种模态都有与其相关的不同任务,例如:视觉下游任务包含图像分类、图像分割、目标检测等,我们会使用专门为此类任务设计的模型。因此,任务和模型是相辅相成的。如果一项任务涉及两种或多种模态,则可以将其称为多模态任务。如果我们从输入和输出的角度考虑一项任务,则多模态任务通常可以被认为是单一的输入/输出安排,分别在输入端和输出端具有两种不同的模态。
Hugging Face 支持各种各样的多模态任务。让我们了解其中的一些。
一些 🤗 支持的多模态任务及其变体
- 视觉 + 文本
- 视觉问答或 VQA:帮助视障人士,高效图像检索,视频搜索,视频问答,文档 VQA。
- 图像到文本:图像字幕生成,光学字符识别 (OCR),Pix2Struct。
- 文本到图像:图像生成
- 文本到视频:文本到视频编辑,文本到视频搜索,视频翻译,文本驱动的视频预测。
- 音频 + 文本
💡多模态任务的一个很棒的用例是多模态情感识别 (MER)。MER 任务涉及从两种或多种模态(如音频+文本、文本+视觉、音频+视觉或视觉+文本+音频)识别情感。正如我们在示例中所讨论的,MER 比单模态情感识别更有效,并能更清晰地洞察情感识别任务。通过 此仓库 了解更多关于 MER 的信息。
多模态模型是一种可用于执行多模态任务的模型,它可以同时处理来自多个模态的数据。这些模型结合了不同模态的独特性和优势,以构建数据的完整表示,从而提高多种任务的性能。多模态模型经过训练,可以整合和处理来自图像、视频、文本、音频等来源的数据。这些模态的组合过程始于多个单模态模型。然后,融合模块使用某种策略融合这些单模态模型的输出(编码数据)。融合策略可以是早期融合、晚期融合或混合融合。融合模块的总体任务是创建来自单模态模型的编码数据的组合表示。最后,分类网络采用融合后的表示进行预测。
下一章将详细介绍多模态任务和模型,重点关注视觉和文本。
多模态应用:多模态搜索 🔎📲💻
互联网搜索是 Google 曾经拥有的一个关键优势,但随着 OpenAI 推出 ChatGPT,微软开始增强其必应搜索引擎,以便能够战胜竞争对手。最初它仅限于大型语言模型 (LLM),查看大型文本数据语料库,但我们周围的世界,主要是社交媒体内容、网络文章和所有可能的在线内容形式,在很大程度上都是多模态的。当我们搜索一张图片时,图片会弹出一个相应的文本进行描述。同时使用视觉和文本的另一个强大的多模态模型,难道不酷吗?这可能会极大地改变搜索格局,而其中涉及的核心技术就是多模态学习。我们知道,许多公司也拥有一个大型的多模态数据库,其性质大多是非结构化的。多模态模型可能有助于公司进行内部搜索、交互式文档(聊天机器人)以及许多此类用例。这是企业 AI 的另一个领域,我们利用 AI 来提升组织智能。
视觉语言模型 (VLM) 能够理解和处理视觉和文本两种模态的模型。对两种模态的联合理解使 VLM 能够高效地执行各种任务,例如视觉问答、文本到图像搜索等。因此,VLM 可以作为多模态搜索的最佳候选者之一。因此,总的来说,VLM 应该找到某种方法将文本和图像对映射到一个联合嵌入空间,其中每个文本-图像对都作为嵌入存在。我们可以使用这些嵌入执行各种下游任务,这些嵌入也可用于搜索。这种联合空间的理念是,在语义上相似的图像和文本嵌入将彼此靠近,使我们能够根据文本(文本到图像搜索)或反之进行图像搜索。
💡Meta 发布了第一个多模态 AI 模型,用于绑定来自 6 种不同模态的信息:图像和视频、音频、文本、深度、热成像和惯性测量单元 (IMU)。在此处 了解更多信息。
在了解了多模态的基础知识后,现在让我们看看 🤗 中可用的不同多模态任务和模型,以及通过酷炫的演示和 Spaces 进行的应用。
< > 在 GitHub 上 更新