RealWorldQA,有什么新进展?

社区文章 发布于2024年4月25日

这是一篇简短的博客,介绍 RealWorldQA 基准测试。

什么是 RealWorldQA?

RealWorldQA 是由 XAI 贡献的,旨在评估多模态 AI 模型现实世界空间理解能力的基准测试。它评估这些模型对物理环境的理解程度。该基准测试包含 700 多张图像,每张图像都附带一个问题和一个可验证的答案。这些图像取材于现实世界场景,包括从车辆中捕获的图像。其目标是提升 AI 模型对我们物理世界的理解。

统计与信息

名称 类型 #问题 数据质量*(手动验证 10% 样本) 细粒度分类
RealWorldQA 选择题 765 > 97%

总结:**RealWorldQA **是一个要求 VLM 具备以下能力的基准测试:

  1. 识别高分辨率图像(1080p 等)中的细节
  2. 基于识别结果进行推理(可能需要常识知识)。

*数据质量:我们对 10% 的样本进行手动验证,检查每个样本是否正确且无歧义。RealWorldQA 中的大多数样本(>97%)都是良好且清晰的。

我发现有些案例存在歧义,例如:

image/png

  • 问题:狗相对于门的位置在哪里?
  • 选项:A. 狗在门后面;B. 狗在门旁边;C. 狗在门前面。
  • 答案:A
  • 为什么有歧义:狗实际上在两扇门之间。

image/png

  • 问题:最右边的车辆距离相机有多远?
  • 选项:A. 15 米;B. 35 米;C. 55 米。
  • 答案:C
  • 为什么有歧义:最右边的车真的那么远吗?

性能

RealWorldQA 中的问题有 2-4 个备选答案(大部分有 3 个),随机猜测的 Top-1 准确率预计为 37.7%。

我们使用 VLMEvalKit 进行评估,并列出了代表性 VLM(专有或开源)的性能如下:

专有模型 准确率 专有模型 准确率
GPT-4v (0409, 低分辨率) 61.4 GPT-4v (0409, 高分辨率) 68.0
GeminiPro-V (1.0) 60.4 QwenVLMax 61.3
开源模型 准确率 开源模型 准确率
InternLM-XComposer2 63.8 InternVL-Chat-V1.5 65.6
IDEFICS2-8B 60.8 LLaVA-NeXT (Yi-34B) 66.0
LLaVA-v1.5 (7B) 54.8 LLaVA-v1.5 (13B) 55.3

Grok-v1.5 未包含在内,因为它尚未公开。

在评估的 VLM 中,GPT-4v (0409, 高分辨率) 取得了最佳性能,并显著优于其低分辨率版本(请记住,RealWorldQA 需要高分辨率图像中的细粒度识别)。同时,顶级的开源 VLM 也表现出具有竞争力的性能。

疑难案例

我们选择了一个子集的问题,这些问题都无法被排名前三的 VLM(GPT-4v (0409, 高分辨率)、InternVL-Chat-V1.5、LLaVA-NeXT (Yi-34B))正确回答。该子集包含 101 个样本。我们随机展示了其中的几个样本如下。

image/png

  • 问题:离我们最近的汽车是与我们同向行驶还是与我们反向行驶?
  • 选项:A. 同向;B. 反向。
  • 答案:B
  • 要求:1. 定位最近的汽车并确定其方向;2. 定位我们所在的行车道并推断我们的方向。

image/png

  • 问题:此场景中的单行道标志朝向哪个方向?
  • 选项:A. 左;B. 右
  • 答案:B
  • 要求:定位单行道标志并确定其方向

image/png

  • 问题:有停车标志吗?
  • 选项:A. 是;B. 否
  • 答案:A
  • 要求:定位停车标志(非常小)

image/png

  • 问题:有多少个箭头指向右侧?
  • 选项:A. 2;B. 3;C. 4
  • 答案:B
  • 要求:找到路标上的所有箭头并识别其方向

总结

  • RealWorldQA 是一个要求 VLM 具备以下能力的基准测试:1. 识别高分辨率图像(1080p 等)中的细节;2. 基于识别结果进行推理(可能需要常识知识)。
  • 性能数据: 随机猜测 - 37.7%;评估的最佳专有 VLM:GPT-4v (0409, 高分辨率),68%;评估的最佳开源 VLM:LLaVA-NeXT (Yi-34B),66%
  • 您可以使用 VLMEvalKit 在 RealWorldQA 上评估您的 VLM。完整的评估结果可在 Open VLM 排行榜 上查看。

社区

注册登录 发表评论