我们准备好进行多图像推理了吗?推出 VHs:视觉干草堆基准!

社区文章 发布于 2024 年 7 月 23 日

什么是视觉问答 (VQA)?

人类擅长处理大量的视觉信息,这项技能对于实现通用人工智能 (AGI) 至关重要。几十年来,人工智能研究人员开发了视觉问答 (VQA) 系统来解释单张图像中的场景并回答相关问题。虽然基础模型在最近的进展中显著缩小了人机视觉处理之间的差距,但传统的 VQA 仅限于一次推理**单张**图像,而不是整个视觉数据集合。

这种限制在更复杂的场景中带来了挑战。例如,在医疗图像集合中识别模式、通过卫星图像监测森林砍伐、使用自主导航数据绘制城市变化图、分析大量艺术收藏中的主题元素,或者从零售监控录像中了解消费者行为。这些场景中的每一个不仅涉及对数百或数千张图像的视觉处理,还需要对这些发现进行跨图像处理。为了解决这些复杂而实际的需求,在这个项目中,我们研究了“多图像问答”(MIQA),这是一项更通用的任务,超出了大多数传统 VQA 系统的能力范围。

如何对 MIQA 上的 VQA 模型进行基准测试?

“大海捞针”(NIAH)挑战最近已成为对大型语言模型(LLM)处理“长上下文”(大量输入数据,如长文档、视频或数百张图像)能力进行基准测试的最流行范式之一。在这项任务中,包含特定问题答案的基本信息(“针”)被嵌入到大量数据(“干草堆”)中。系统必须检索相关信息并正确回答问题。

Google 在 Gemini-v1.5 技术报告中首次引入了视觉推理的 NIAH 基准。在该报告中,他们要求模型检索大型视频中单个帧上叠加的文本。事实证明,现有模型在此任务上表现出色——这主要归因于其强大的 OCR 检索能力。但是,如果我们提出更多视觉问题呢?模型是否仍然表现出色?

visual_haystack_v4

我们开发了 Visual Haystacks (VHs),这是第一个以视觉为中心的基准,对所有现有大型多模态模型 (LMM) 处理长上下文视觉信息构成了重大挑战。

说明:当“针”信息被真实的视觉内容取代时,即使在直接的问题下,现有模型也会遇到显著的困难。

什么是视觉干草堆 (VHs) 基准?

为了评估“以视觉为中心”的长上下文推理能力,我们引入了“视觉干草堆(VHs)”基准。这个新基准旨在评估大型多模态模型(LMM)在大量不相关图像集中的视觉**检索**和**推理**能力。VHs 包含大约 1K 个视觉二元问答对,每组包含 1 到 1 万张图像。与之前侧重于文本检索和推理的基准不同,VHs 问题侧重于利用 COCO 数据集中的图像和注释来识别特定视觉内容(例如对象)的存在。

VHs 基准分为两个主要挑战,每个挑战都旨在测试模型在回答查询之前准确查找和分析相关图像的能力。我们精心设计了数据集,以确保猜测或不看图像而依赖常识推理不会获得任何优势(即在二元问答任务中导致 50% 的准确率)。

  • 单针挑战:图像堆中只存在一幅针图像。问题是:“对于包含锚点对象的图像,是否存在目标对象?”
  • 多针挑战:图像堆中存在 2 到 5 幅针图像。问题形式为:“对于所有包含锚点对象的图像,是否所有图像都包含目标对象?”或“对于所有包含锚点对象的图像,是否存在任何图像包含目标对象?”

VHs 的三个重要发现

视觉干草堆 (VHs) 基准揭示了当前大型多模态模型 (LMM) 在处理大量视觉输入时面临的重大挑战。在单针和多针模式的实验中,我们评估了几种开源和专有方法,包括 LLaVA-v1.5、GPT-4o、Claude-3 Opus 和 Gemini-v1.5。此外,我们还包括一个“字幕”基线,采用两阶段方法:首先使用 LLaVA 对图像进行字幕,然后使用字幕的文本内容回答问题。以下是三个关键见解:

  1. 视觉干扰物带来的困难 在单针设置中,随着图像数量的增加,性能显著下降,尽管保持了高甲骨文准确度——这在以前基于文本的 Gemini 式基准中没有出现。这表明现有模型可能主要在视觉检索方面遇到困难,尤其是在存在具有挑战性的**视觉**干扰物的情况下。此外,值得强调的是,开源 LMM(如 LLaVA)由于 2K 上下文长度限制,只能处理最多三张图像。另一方面,专有模型(如 Gemini-v1.5 和 GPT-4o)尽管声称具有扩展上下文能力,但当图像数量超过 1,000 张时,由于有效载荷大小限制,通常无法处理请求。

    Screenshot 2024-07-19 at 10.19.44 AM (说明:几种模型在 VHs 单针问题上的结果。随着干草堆大小 (N) 的增加,所有模型的性能都显著下降,这表明现有方法对长视觉上下文的复杂视觉-语言处理不具鲁棒性。E:超出上下文长度。)

  2. 跨多幅图像推理的难度

    有趣的是,在单图像问答和所有多针设置中,所有基于 LMM 的方法在处理 5 张以上图像时,其性能均弱于将字幕模型 (LLaVA) 与 LLM 聚合器 (LLama-3) 链式连接的基本方法。这种差异表明,虽然 LLM 能够有效地整合长上下文字幕,但现有基于 LMM 的解决方案不足以处理和整合多图像信息。值得注意的是,在多图像场景中,性能显著下降,Claude-3 Opus 在仅使用甲骨文图像的情况下表现令人失望,而 Gemini-1.5/GPT-4o 在处理 50 张图像的更大集合时,准确率降至 50%。 Screenshot 2024-07-19 at 10.20.00 AM (说明:VHs 在多针问题上的性能。我们可以看到所有视觉感知模型表现不佳,这表明模型难以隐式整合视觉信息。E:超出上下文长度。)

  3. 视觉领域的现象

    最后,我们发现 LMM 的准确性很大程度上受针图像在输入序列中的位置影响。例如,LLaVA 在针图像紧接问题之前放置时表现更好,否则会下降高达 26.5%。相比之下,专有模型通常在图像放置在开头时表现更好,否则会下降高达 28.5%。这种模式与自然语言处理 (NLP) 领域中出现的“失落于中间”现象相呼应,其中位于上下文开头或结尾的关键信息会影响模型性能。这个问题在之前的 Gemini 风格 NIAH 挑战中并不明显,那些挑战只要求文本检索和推理,这突显了 VHs 基准所带来的独特挑战。 fig2

(注意:这些实验是在四月和五月进行的,从那时起我们观察到一些专有模型有所改进。)

MIRAGE:我们基于 RAG 的解决方案,可提高 VHs 性能

根据以上实验结果,很明显,现有 MIQA 解决方案的核心挑战在于能否 (1) 准确地从大量可能不相关的图像中**检索**相关图像,且不带位置偏差,以及 (2) **整合**这些图像中的相关视觉信息以正确回答问题。为了解决这些问题,我们引入了一种开源、简单的单阶段训练范式:“MIRAGE”(多图像检索增强生成),它扩展了 LLaVA 模型以处理 MIQA 任务。下图展示了我们的模型架构。

Screenshot 2024-07-19 at 10.37.37 AM

我们提出的范式由几个组件组成,每个组件都旨在缓解 MIQA 任务中的关键问题

  1. 压缩现有编码:MIRAGE 范式利用查询感知压缩模型将视觉编码器令牌减少到更小的子集(小 10 倍),从而在相同的上下文长度内允许更多图像。
  2. 采用检索器过滤不相关信息:MIRAGE 使用与 LLM 微调内联训练的检索器,预测图像是否相关,并动态丢弃不相关的图像。
  3. 多图像训练数据:MIRAGE 将现有的单图像训练数据与多图像推理数据以及合成多图像推理数据进行扩充。说明:一个包含超过 100 万数据点的开源多图像问答数据集!

结果

我们使用 MIRAGE 重新评估了 VHs 基准。除了能够处理 1K 或 1 万张图像外,MIRAGE 在大多数任务上都取得了最先进的性能,尽管其单图像问答骨干较弱,每张图像只有 32 个标记!

Screenshot 2024-07-19 at 10.19.24 AM

我们还在各种 VQA 任务上对 MIRAGE 和其他基于 LMM 的模型进行了基准测试。在多图像任务上,MIRAGE 展现出强大的召回率和准确率能力,显著优于 GPT-4、Gemini-v1.5 和大型世界模型 (LWM) 等强大竞争对手。此外,它还展现出具有竞争力的单图像问答性能。

Screenshot 2024-07-19 at 10.23.34 AM

最后,我们将 MIRAGE 的协同训练检索器与 CLIP 进行比较。我们的检索器在不损失效率的情况下,性能显著优于 CLIP。这表明,虽然 CLIP 模型在开放词汇图像检索方面表现良好,但在处理类似问题文本时,它们可能表现不佳!

Screenshot 2024-07-19 at 10.25.25 AM

准备好开始了吗?

立即在 Huggingface 上获取 VHs,查看我们的项目页面arxiv 论文,并在我们的 github 仓库中点击星标按钮!

您觉得这项工作有用吗?引用我们!

@article{wu2024visualhaystacks,
  title={Visual Haystacks: Answering Harder Questions About Sets of Images},
  author={Wu, Tsung-Han and Biamby, Giscard and and Quenum, Jerome and Gupta, Ritwik and Gonzalez, Joseph E and Darrell, Trevor and Chan, David M},
  journal={arXiv preprint arXiv:2407.13766},
  year={2024}
}

社区

注册登录以评论