RealWorldQA,有什么新进展?
社区文章 发布于2024年4月25日
这是一篇简短的博客,介绍 RealWorldQA 基准测试。
什么是 RealWorldQA?
RealWorldQA 是由 XAI 贡献的,旨在评估多模态 AI 模型现实世界空间理解能力的基准测试。它评估这些模型对物理环境的理解程度。该基准测试包含 700 多张图像,每张图像都附带一个问题和一个可验证的答案。这些图像取材于现实世界场景,包括从车辆中捕获的图像。其目标是提升 AI 模型对我们物理世界的理解。
统计与信息
名称 | 类型 | #问题 | 数据质量*(手动验证 10% 样本) | 细粒度分类 |
---|---|---|---|---|
RealWorldQA | 选择题 | 765 | > 97% | 否 |
总结:**RealWorldQA **是一个要求 VLM 具备以下能力的基准测试:
- 识别高分辨率图像(1080p 等)中的细节。
- 基于识别结果进行推理(可能需要常识知识)。
*数据质量:我们对 10% 的样本进行手动验证,检查每个样本是否正确且无歧义。RealWorldQA 中的大多数样本(>97%)都是良好且清晰的。
我发现有些案例存在歧义,例如:
- 问题:狗相对于门的位置在哪里?
- 选项:A. 狗在门后面;B. 狗在门旁边;C. 狗在门前面。
- 答案:A
- 为什么有歧义:狗实际上在两扇门之间。
- 问题:最右边的车辆距离相机有多远?
- 选项:A. 15 米;B. 35 米;C. 55 米。
- 答案:C
- 为什么有歧义:最右边的车真的那么远吗?
性能
RealWorldQA 中的问题有 2-4 个备选答案(大部分有 3 个),随机猜测的 Top-1 准确率预计为 37.7%。
我们使用 VLMEvalKit 进行评估,并列出了代表性 VLM(专有或开源)的性能如下:
专有模型 | 准确率 | 专有模型 | 准确率 |
---|---|---|---|
GPT-4v (0409, 低分辨率) | 61.4 | GPT-4v (0409, 高分辨率) | 68.0 |
GeminiPro-V (1.0) | 60.4 | QwenVLMax | 61.3 |
开源模型 | 准确率 | 开源模型 | 准确率 |
InternLM-XComposer2 | 63.8 | InternVL-Chat-V1.5 | 65.6 |
IDEFICS2-8B | 60.8 | LLaVA-NeXT (Yi-34B) | 66.0 |
LLaVA-v1.5 (7B) | 54.8 | LLaVA-v1.5 (13B) | 55.3 |
Grok-v1.5 未包含在内,因为它尚未公开。
在评估的 VLM 中,GPT-4v (0409, 高分辨率) 取得了最佳性能,并显著优于其低分辨率版本(请记住,RealWorldQA 需要高分辨率图像中的细粒度识别)。同时,顶级的开源 VLM 也表现出具有竞争力的性能。
疑难案例
我们选择了一个子集的问题,这些问题都无法被排名前三的 VLM(GPT-4v (0409, 高分辨率)、InternVL-Chat-V1.5、LLaVA-NeXT (Yi-34B))正确回答。该子集包含 101 个样本。我们随机展示了其中的几个样本如下。
- 问题:离我们最近的汽车是与我们同向行驶还是与我们反向行驶?
- 选项:A. 同向;B. 反向。
- 答案:B
- 要求:1. 定位最近的汽车并确定其方向;2. 定位我们所在的行车道并推断我们的方向。
- 问题:此场景中的单行道标志朝向哪个方向?
- 选项:A. 左;B. 右
- 答案:B
- 要求:定位单行道标志并确定其方向
- 问题:有停车标志吗?
- 选项:A. 是;B. 否
- 答案:A
- 要求:定位停车标志(非常小)
- 问题:有多少个箭头指向右侧?
- 选项:A. 2;B. 3;C. 4
- 答案:B
- 要求:找到路标上的所有箭头并识别其方向
总结
- RealWorldQA 是一个要求 VLM 具备以下能力的基准测试:1. 识别高分辨率图像(1080p 等)中的细节;2. 基于识别结果进行推理(可能需要常识知识)。
- 性能数据: 随机猜测 - 37.7%;评估的最佳专有 VLM:GPT-4v (0409, 高分辨率),68%;评估的最佳开源 VLM:LLaVA-NeXT (Yi-34B),66%
- 您可以使用 VLMEvalKit 在 RealWorldQA 上评估您的 VLM。完整的评估结果可在 Open VLM 排行榜 上查看。