✴️ ScreenSpot-Pro:专业高分辨率计算机使用的GUI接地
社区文章 发布于2025年1月3日
TL;DR
ScreenSpot-Pro是一个旨在评估专业高分辨率环境下GUI定位模型的新基准。它涵盖了5个专业类别和3个操作系统的23个应用程序,突出了模型在与复杂软件交互时面临的挑战。现有模型准确率较低(最佳为18.9%),这凸显了进一步研究的必要性。
工件 📦
引言 🌟
图形用户界面(GUIs)是现代数字工作流程不可或缺的一部分。尽管多模态大型语言模型(MLLMs)在通用任务(如网页浏览和移动应用程序)中推动了GUI代理(例如Aria-UI和UGround)的进步,但专业环境带来了独特的复杂性。高分辨率屏幕、复杂的界面和更小的目标元素使专业环境中的GUI接地更具挑战性。
我们提出了ScreenSpot-Pro——一个专门用于评估高分辨率专业计算机使用环境中GUI定位模型的基准。
为什么选择ScreenSpot-Pro?
- 高分辨率聚焦——专业软件通常运行在3840x2160等分辨率下,需要精确检测小的UI组件。
- 多样化应用程序覆盖——涵盖5个行业和3个操作系统的23个应用程序,从VSCode和PyCharm等开发工具到Photoshop和Blender等创意套件。
- 专家主导的标注——任务由拥有五年以上专业经验的用户策划和标注,确保准确性和实际相关性。
主要挑战:
- 复杂界面——高分辨率显示器导致UI元素更小、更密集,使检测和交互复杂化。
- 性能差距——现有模型在专业GUI定位中仅达到18.9%的准确率,突显了巨大的改进空间。
- 分辨率权衡——缩小图像尺寸可以提高性能,但即使是最佳裁剪策略也仅能达到40.2%的准确率。
ScreenSpot-Pro旨在推动GUI定位模型的边界,促进专业应用程序可用性和性能的进步。
数据集分解 🤗
ScreenSpot-Pro包含5个行业和3个操作系统的23个应用程序
- 开发工具:VSCode、PyCharm、Android Studio、VMware。
- 创意应用:Photoshop、Premiere、Illustrator、Blender、DaVinci Resolve、FruitLoops。
- CAD/工程:AutoCAD、SolidWorks、Inventor、Vivado、Quartus。
- 科学/分析:MATLAB、Stata、EViews。
- 办公软件:Word、Excel、PowerPoint。
- 操作系统:Windows、macOS、Linux。
任务包括1581条自然语言指令,并配有高分辨率截图。每个任务都要求模型定位并与特定的UI元素交互。
性能 📊
尽管MLLM取得了进步,但当前模型在ScreenSpot-Pro上仍面临挑战
- OS-Atlas-7B以18.9%的准确率领先。
- ReGround方法将准确率提高到40.2%,但仍远未达到完美。
- GPT-4o仅获得0.8%的分数,凸显了对专门专业定位模型的需求。
后续步骤 🤝
ScreenSpot-Pro为GUI代理的未来发展奠定了基础。我们的目标是激发
- 新模型旨在处理高分辨率GUI环境。
- 使用更智能的裁剪和缩放技术改进基线。
- 社区协作,以推动专业GUI定位的边界。
BibTex 📚
@misc{screenspotpro,
author = {Kaixin Li and Ziyang Meng and Hongzhan Lin and Ziyang Luo and Yuchen Tian and Jing Ma and Zhiyong Huang and Tat-Seng Chua},
title = {ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use},
year = {2025},
note = {Preprint},
url = {https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf},
}