✴️ ScreenSpot-Pro:专业高分辨率计算机使用的GUI接地

社区文章 发布于2025年1月3日

Task Distribution

TL;DR

ScreenSpot-Pro是一个旨在评估专业高分辨率环境下GUI定位模型的新基准。它涵盖了5个专业类别和3个操作系统的23个应用程序,突出了模型在与复杂软件交互时面临的挑战。现有模型准确率较低(最佳为18.9%),这凸显了进一步研究的必要性。

工件 📦

  1. Huggingface上的基准数据
  2. 排行榜和项目页面
  3. 论文

引言 🌟

图形用户界面(GUIs)是现代数字工作流程不可或缺的一部分。尽管多模态大型语言模型(MLLMs)在通用任务(如网页浏览和移动应用程序)中推动了GUI代理(例如Aria-UIUGround)的进步,但专业环境带来了独特的复杂性。高分辨率屏幕、复杂的界面和更小的目标元素使专业环境中的GUI接地更具挑战性。

我们提出了ScreenSpot-Pro——一个专门用于评估高分辨率专业计算机使用环境中GUI定位模型的基准。

为什么选择ScreenSpot-Pro?

  • 高分辨率聚焦——专业软件通常运行在3840x2160等分辨率下,需要精确检测小的UI组件。
  • 多样化应用程序覆盖——涵盖5个行业3个操作系统23个应用程序,从VSCode和PyCharm等开发工具到Photoshop和Blender等创意套件。
  • 专家主导的标注——任务由拥有五年以上专业经验的用户策划和标注,确保准确性和实际相关性。

主要挑战:

  • 复杂界面——高分辨率显示器导致UI元素更小、更密集,使检测和交互复杂化。
  • 性能差距——现有模型在专业GUI定位中仅达到18.9%的准确率,突显了巨大的改进空间。
  • 分辨率权衡——缩小图像尺寸可以提高性能,但即使是最佳裁剪策略也仅能达到40.2%的准确率

ScreenSpot-Pro旨在推动GUI定位模型的边界,促进专业应用程序可用性和性能的进步。

Task Distribution

数据集分解 🤗

ScreenSpot-Pro包含5个行业3个操作系统23个应用程序

  1. 开发工具:VSCode、PyCharm、Android Studio、VMware。
  2. 创意应用:Photoshop、Premiere、Illustrator、Blender、DaVinci Resolve、FruitLoops。
  3. CAD/工程:AutoCAD、SolidWorks、Inventor、Vivado、Quartus。
  4. 科学/分析:MATLAB、Stata、EViews。
  5. 办公软件:Word、Excel、PowerPoint。
  6. 操作系统:Windows、macOS、Linux。

任务包括1581条自然语言指令,并配有高分辨率截图。每个任务都要求模型定位并与特定的UI元素交互。

Task Distribution

性能 📊

尽管MLLM取得了进步,但当前模型在ScreenSpot-Pro上仍面临挑战

  • OS-Atlas-7B以18.9%的准确率领先。
  • ReGround方法将准确率提高到40.2%,但仍远未达到完美。
  • GPT-4o仅获得0.8%的分数,凸显了对专门专业定位模型的需求。

Task Distribution ScreenSpot-Pro 排行榜

后续步骤 🤝

ScreenSpot-Pro为GUI代理的未来发展奠定了基础。我们的目标是激发

  • 新模型旨在处理高分辨率GUI环境。
  • 使用更智能的裁剪和缩放技术改进基线
  • 社区协作,以推动专业GUI定位的边界。

BibTex 📚

@misc{screenspotpro,
  author    = {Kaixin Li and Ziyang Meng and Hongzhan Lin and Ziyang Luo and Yuchen Tian and Jing Ma and Zhiyong Huang and Tat-Seng Chua},
  title     = {ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use},
  year      = {2025},
  note      = {Preprint},
  url       = {https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf},
}

社区

注册登录评论