RealWorldQA，有什么新进展？

社区文章发布于2024年4月25日

这是一篇简短的博客，介绍 RealWorldQA 基准测试。

什么是 RealWorldQA？

RealWorldQA 是由 XAI 贡献的，旨在评估多模态 AI 模型现实世界空间理解能力的基准测试。它评估这些模型对物理环境的理解程度。该基准测试包含 700 多张图像，每张图像都附带一个问题和一个可验证的答案。这些图像取材于现实世界场景，包括从车辆中捕获的图像。其目标是提升 AI 模型对我们物理世界的理解。

统计与信息

名称	类型	#问题	数据质量*（手动验证 10% 样本）	细粒度分类
RealWorldQA	选择题	765	> 97%	否

总结：**RealWorldQA **是一个要求 VLM 具备以下能力的基准测试：

识别高分辨率图像（1080p 等）中的细节。
基于识别结果进行推理（可能需要常识知识）。

*数据质量：我们对 10% 的样本进行手动验证，检查每个样本是否正确且无歧义。RealWorldQA 中的大多数样本（>97%）都是良好且清晰的。

我发现有些案例存在歧义，例如：

问题：狗相对于门的位置在哪里？
选项：A. 狗在门后面；B. 狗在门旁边；C. 狗在门前面。
答案：A
为什么有歧义：狗实际上在两扇门之间。

问题：最右边的车辆距离相机有多远？
选项：A. 15 米；B. 35 米；C. 55 米。
答案：C
为什么有歧义：最右边的车真的那么远吗？

性能

RealWorldQA 中的问题有 2-4 个备选答案（大部分有 3 个），随机猜测的 Top-1 准确率预计为 37.7%。

我们使用 VLMEvalKit 进行评估，并列出了代表性 VLM（专有或开源）的性能如下：

专有模型	准确率	专有模型	准确率
GPT-4v (0409, 低分辨率)	61.4	GPT-4v (0409, 高分辨率)	68.0
GeminiPro-V (1.0)	60.4	QwenVLMax	61.3
开源模型	准确率	开源模型	准确率
InternLM-XComposer2	63.8	InternVL-Chat-V1.5	65.6
IDEFICS2-8B	60.8	LLaVA-NeXT (Yi-34B)	66.0
LLaVA-v1.5 (7B)	54.8	LLaVA-v1.5 (13B)	55.3

Grok-v1.5 未包含在内，因为它尚未公开。

在评估的 VLM 中，GPT-4v (0409, 高分辨率) 取得了最佳性能，并显著优于其低分辨率版本（请记住，RealWorldQA 需要高分辨率图像中的细粒度识别）。同时，顶级的开源 VLM 也表现出具有竞争力的性能。

疑难案例

我们选择了一个子集的问题，这些问题都无法被排名前三的 VLM（GPT-4v (0409, 高分辨率)、InternVL-Chat-V1.5、LLaVA-NeXT (Yi-34B)）正确回答。该子集包含 101 个样本。我们随机展示了其中的几个样本如下。

问题：离我们最近的汽车是与我们同向行驶还是与我们反向行驶？
选项：A. 同向；B. 反向。
答案：B
要求：1. 定位最近的汽车并确定其方向；2. 定位我们所在的行车道并推断我们的方向。

问题：此场景中的单行道标志朝向哪个方向？
选项：A. 左；B. 右
答案：B
要求：定位单行道标志并确定其方向

问题：有停车标志吗？
选项：A. 是；B. 否
答案：A
要求：定位停车标志（非常小）

问题：有多少个箭头指向右侧？
选项：A. 2；B. 3；C. 4
答案：B
要求：找到路标上的所有箭头并识别其方向

总结

RealWorldQA 是一个要求 VLM 具备以下能力的基准测试：1. 识别高分辨率图像（1080p 等）中的细节；2. 基于识别结果进行推理（可能需要常识知识）。
性能数据： 随机猜测 - 37.7%；评估的最佳专有 VLM：GPT-4v (0409, 高分辨率)，68%；评估的最佳开源 VLM：LLaVA-NeXT (Yi-34B)，66%
您可以使用 VLMEvalKit 在 RealWorldQA 上评估您的 VLM。完整的评估结果可在 Open VLM 排行榜 上查看。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论