所见非所得:视觉-语言模型中的空间推理鸿沟
动机
视觉-语言模型(VLMs)已经迅速发展,现在在描述图像、回答有关视觉场景的问题甚至根据图片生成故事方面表现出色。
但当谈到**理解事物在空间中的位置**时,一个令人惊讶的弱点就出现了。
询问VLM猫是在床上还是床下,或者哪个物体离相机更近——你可能会得到一个听起来自信但完全错误的答案。这并非偶然。它反映了一个更深层次的问题:这些模型通常能够识别物体,但无法理解它们的空间关系。
这篇博文探讨了多模态人工智能中最持久的挑战之一:**空间推理**。我们将详细阐述空间推理的实际含义、VLM为何难以实现空间推理、研究人员为解决此问题所做的尝试,以及未来方向和空间感知VLM的优势。
目录
定义问题:什么是空间推理?
空间推理是理解、操作和推断空间中物体之间关系的能力。它不是一项单一的技能,而是一组相互关联的能力 [1]
空间关系
空间关系是关于理解物体如何相互定位的。例如,知道某物是在旁边、内部、上方还是更远。
空间关系有不同的类型
- 拓扑:描述连接或位置,例如某物是在内部、旁边还是接触到其他物。
- 投影:描述方向,例如上方/下方、前方/后方或左/右。
- 度量:涉及大小或距离,例如某物有多大或两个物体相距多远。
在数字地图(例如,GPS或GIS系统)等领域,计算机需要理解这些关系才能回答诸如“我附近有什么?”或“这个区域内部有什么?”之类的问题。
心理旋转
心理旋转是想象物体旋转或从不同角度观察时的外观的能力。人类可以自然地做到这一点——例如,我们可以从前面看一把椅子,然后想象它从侧面看是什么样子。
对于视觉-语言模型来说,这要困难得多。即使模型识别了物体,当物体旋转或从新的角度观察时,它也可能难以识别同一物体。
心理旋转要求模型不仅要识别物体,还要在脑海中转换它们在空间中的外观。这项技能对于从不寻常的角度识别物体、回答“物体从后面看是什么样子?”等视觉问题以及匹配图像中旋转的物体等任务非常重要。
空间可视化
空间可视化是想象物体或空间在移动、折叠、旋转或变形时如何变化的能力。它不仅仅是看到事物,而是通过心理操作形状和空间来理解它们在变化后的外观。
例如,想象一张折叠的纸展开后的样子,或者弄清楚机器中各部分如何组合在一起,等等。
对于视觉-语言模型来说,空间可视化意味着处理物体或场景的多步变换。这对于理解场景如何随时间变化、遵循涉及移动或组装的分步指令、模拟虚拟环境中的空间变化等任务至关重要。
空间定向与导航
空间定向帮助我们在复杂环境中找到方向——例如,知道我们在房间的什么位置,如何到达门口,或者我们身后有什么。我们的大脑结合视觉、身体和听觉信息来构建周围环境的心理地图。
主要有两种参考框架来组织这些空间信息
- 自我中心:基于我们自己的身体——例如,“椅子在我的右边。”
- 异中心:基于地标——例如,“椅子在窗户旁边”,无论你站在哪里。
这种灵活性使我们能够穿梭于空间、记住路线并在环境变化时进行调整。
对于视觉-语言模型,理解空间定向意味着识别事物的位置——不仅仅是在图像中,还包括它们之间以及相对于观看者的位置。这对于在现实世界中遵循导航指令、与3D环境或增强现实互动等至关重要。
VLM空间技能的比较评估
在他们的论文《弥补鸿沟:视觉-语言模型中的空间推理基准测试》[1]中,Stogiannidis等人评估了13种视觉-语言模型在六项认知启发任务中的空间推理能力:纸张折叠、心理旋转(简单和困难)、导航、定向和空间关系。
他们的评估揭示了模型之间显著的性能差异,如下表所示。值得注意的是,在某些任务中,性能往往接近随机猜测,这突出表明空间推理是当前VLM的一个持续弱点。
为什么VLM在空间推理方面表现不佳?
现在我们已经明确了空间推理所涉及的内容,是时候看看为什么当今的视觉-语言模型(VLMs)在此方面持续挣扎了。这并不是说它们“看不见”图像,而是它们**没有看向正确的位置**,或者有时,**它们根本就没有真正看向图像**。
Shiqi Chen 等人在他们的论文《为什么空间推理对 VLM 来说很难?从注意力机制视角看焦点区域》[2] 中,调查了视觉-语言模型在空间推理(主要关注空间关系)方面遇到的困难的根本原因。
他们的分析表明,尽管处理了大量的视觉输入,VLM在推理过程中经常未能充分利用图像信息,这主要归因于它们分配注意力的方式。他们识别出三个主要挑战:
- 不平衡的注意力:尽管图像令牌占输入内容的90%以上,但它们只获得了模型约10%的注意力,这表明模型对文本输入存在强烈偏好。
- 视觉焦点错位:这不仅关乎注意力的数量,还关乎其位置——模型有时对正确物体关注过少,或对无关物体关注过多,从而导致空间误差。
- 训练数据偏差和对单模态先验的过度依赖:诸如 Llava 等模型在预测“左”或“右”等常见关系时倾向于表现出更高的置信度,但在处理“下方”或“后方”等不常见关系时则表现不佳。这种偏差导致它们在常见关系上表现良好,但在欠代表的关系上则根据熟悉的语言模式而非实际视觉证据进行猜测,从而导致空间关系中的幻觉。
研究人员如何解决这个问题?
现在我们已经了解了VLM在空间推理方面遇到困难的**一些**原因,下一个问题是:我们能做些什么?
研究人员已经开始探索实际的解决方案——通过重新思考我们如何使用语言[3]以及调整模型关注图像的方式。从**标题先验归一化**和**提示重构**[3]到像ADAPTVIS这样巧妙的解码技术,这些努力旨在帮助模型更好地理解图像中事物的位置,而不仅仅是它们是什么。
What’sUp 基准:
Kamath et al. [3] 引入了 **What’sUp 基准**,这是一个精心策划的数据集,旨在通过改变物体位置(例如,桌子下方 vs. 桌子上方的一只狗)来分离空间推理,同时保持物体身份不变。他们对 18 个模型的评估显示,空间任务的性能显著下降,这突出表明,流行的 VLM 预训练语料库(如 LAION-2B)缺乏足够的空间示例,并且简单的微调或加权策略不足以弥补这一差距。
ADAPTVIS:基于置信度的注意力干预
为了超越仅仅处理文本,Shiqi et al. 提出了 ADAPTVIS,这是一种简单而强大的解码时方法,直接解决了模型如何分配视觉注意力的问题。
其原理如下:
- 当模型对其预测表现出高度置信(基于注意力logits作为评估模型自信的指标)时,其注意力很可能集中在正确的区域——因此我们将其锐化以强化这种焦点。
- 当模型不太自信时,其注意力可能会被误导——因此我们将其平滑,鼓励探索图像中其他区域。
这项技术在推理时根据最后一个生成的令牌的置信度动态调整模型对图像令牌的注意力。通过在所有注意力头和层中应用此技术,无需任何重新训练,ADAPTVIS 显著提高了空间推理性能。
未来方向和空间感知人工智能的承诺
随着视觉-语言模型变得更具空间感知能力,其在现实世界中的潜力将大幅拓展。在医疗保健领域,更好的空间推理可以增强医学图像的解读,从而实现更准确的诊断。在增强现实中,它可以通过精确的场景理解实现更丰富、更沉浸式的体验。对于辅助技术,增强的空间定位可以为视障人士提供更准确、实时的环境描述——从而提高独立性和生活质量。在人工智能和机器人技术中,这些原理已经支撑着SLAM(同步定位与地图构建)等系统,使机器人能够利用视觉和传感器更有效地导航和绘制周围环境。
我的第一篇博文就到此结束啦!🎉 我在学习和分享视觉-语言模型中的空间推理时非常开心,真心希望您觉得有用且有趣。期待更多博文。感谢阅读,下次见!🤗👋
参考文献
[1] Stogiannidis, I., McDonagh, S., & Tsaftaris, S. A. (2025). 注意差距:基准测试视觉-语言模型中的空间推理能力。arXiv 预印本 arXiv:2503.19707。
[2] Chen, S., Zhu, T., Zhou, R., Zhang, J., Gao, S., Niebles, J. C., Geva, M., He, J., Wu, J., & Li, M. (2025). 视觉语言模型为何在空间推理方面遇到困难?从注意力机制视角看焦点区域。arXiv 预印本 arXiv:2503.01773。
[3] Kamath, A., Hessel, J., & Chang, K.-W. (2023). 视觉-语言模型“怎么了”?探究其在空间推理方面的困境。arXiv 预印本 arXiv:2310.19785。
[4] https://sisap-challenges.github.io/2024/datasets/
[5] https://huggingface.co/datasets/juletxara/visual-spatial-reasoning