ScreenSuite - 最全面的 GUI 智能体评估套件!
发布 ScreenSuite,最全面的 GUI 智能体评估套件!
摘要
在过去的几周里,我们不懈努力,致力于让 GUI 智能体更加开放、易于访问和集成。在此过程中,我们创建了迄今为止最大的 GUI 智能体性能基准测试套件 👉 让我们向您介绍 ScreenSuite。
我们今天非常激动地与您分享:ScreenSuite 是评估视觉语言模型 (VLM) 各种智能体能力的最全面、最简单的方法!
什么是 GUI 智能体?
运行中的 GUI 智能体 - 图片由 OSWorld 提供
简而言之,AI 智能体是在虚拟世界中行动的机器人。(更详尽的定义请看这里)
特别是,“GUI 智能体”是存在于图形用户界面 (GUI) 中的智能体。可以把它想象成“一个可以在我的桌面或手机上点击和导航的智能体”,类似于 Claude 的电脑使用功能。
这实质上意味着,驱动智能体的 AI 模型将被赋予一个任务,比如“填充这个 Excel 列的其余部分”,同时提供 GUI 的屏幕截图。利用这些信息,它将决定在系统上采取行动:`click(x=130, y=540)` 打开一个网页浏览器,`type("2025 年 XYZ 的值")`,`scroll(down=2)` 来阅读更多内容……要看一个 GUI 智能体实际操作,您可以试试我们由 Qwen2.5-VL-72B 驱动的开放计算机智能体。
一个优秀的 GUI 智能体将能够像我们一样操作电脑,从而解锁所有电脑任务:滚动浏览谷歌地图、编辑文件、在线购物。这涉及到多种难以评估的能力。
ScreenSuite 介绍 🥳
文献,例如 Xu 等人 (2025) 或 Qin 等人 (2025),通常将 GUI 智能体的能力分为几类:
- 感知:正确感知屏幕上显示的信息
- 定位:理解元素的位置——这对于点击正确位置至关重要
- 单步操作:通过一个动作正确解决指令
- 多步智能体:通过在 GUI 环境中的多个动作来解决更高级别的目标。
因此,我们的第一个贡献是 收集并统一一个包含 13 个基准测试的综合套件,涵盖了这些 GUI 智能体能力的全部范围。
如果您看上面列出的最后一类,评估多步智能体能力尤其具有挑战性,因为它需要虚拟机来运行智能体的环境,无论是 Windows、Android 还是 Ubuntu……为了解决这个问题,我们既支持 E2B desktop 远程沙盒,也从头创建了一个新选项,可以轻松地在 Docker 中启动 Ubuntu 或 Android 虚拟机!
类别 | 基准测试 | 环境 | 样本数 |
---|---|---|---|
感知 / 定位 👁️ | ScreenQA-Short | 移动端 | 8.4k |
ScreenQA-Complex | 移动端 | 11.8k | |
ScreenSpot-v2 | 桌面 | 1.3k | |
ScreenSpot-Pro | 桌面 | 1.6k | |
WebSRC | Web | 52k | |
VisualWebBench | Web | 1.5k | |
单步操作 🎯 | Showdown-clicks | Web | 0.6k |
AndroidControl | 移动端 | 3k | |
Multimodal-Mind2web | Web | 6.4k | |
多步智能体 🐾 | AndroidWorld (包括 MobileMiniWob) | 移动端 | 116 个任务,无限 |
OSWorld | 桌面 | 369 | |
BrowseComp | Web | 1.27k | |
GAIA-Web | Web | 132 | |
Mind2Web-Live | Web | 208 |
实现细节
我们精心设计了我们的基准测试套件,考虑到了模块化和一致性,确保任务和环境之间有很强的一致性。在需要时,特别是在线基准测试中,我们利用 smolagents 作为框架层,来简化智能体的执行和编排。
为了支持可复现性和易用性,我们构建了自定义的 Docker 化容器,允许在本地部署完整的 Ubuntu 桌面或 Android 环境。
与许多现有的 GUI 基准测试依赖于可访问性树或其他元数据以及视觉输入不同,我们的堆栈特意是纯视觉的。虽然这可能导致在一些已有的排行榜上的得分有所不同,但我们认为这创造了一个更现实、更具挑战性的设置,更能反映人类如何感知和与图形界面互动。
– 所有智能体框架 (Android World、OSWorld、GAIAWeb、Mind2Web) 都使用 smolagents,并且仅依赖于视觉,不添加任何可访问性树或 DOM(与其他来源报道的评估设置形成对比)。– Mind2Web (多模态) 最初使用基于可访问性树和屏幕截图的基于元素名称的多选,但后来被调整为使用纯视觉的边界框内的点击精度,这大大增加了任务难度。
在 ScreenSuite 上对领先的 VLM 进行排名 📊
我们已经评估了领先的 VLM 在该基准测试上的表现
- Qwen-2.5-VL 系列模型,参数范围从 3B 到 72B。这些模型以其惊人的定位能力而闻名,换句话说,它们知道图像中任何元素的坐标,这使得它们非常适合需要精确点击的 GUI 智能体。
- UI-Tars-1.5-7B,由字节跳动推出的全能型模型。
- Holo1-7B,H 公司最新推出的模型,在其规模下展现出极其出色的定位性能。
- GPT-4o
我们的得分与各方来源报道的得分基本一致!但需要注意的是,我们仅基于视觉进行评估,这导致了一些差异,详见上文的实现细节。

💡 请注意,ScreenSuite 并不旨在完全复现业界发布的基准测试:我们评估的是模型*基于视觉的 GUI 智能体能力*。因此,在像 Mind2Web 这样的基准测试中,其他基准测试为智能体提供了如 DOM 或可访问性树等信息丰富的上下文,而我们的评估设置要困难得多,因此 ScreenSuite 的结果与其他来源不匹配。
30 秒内开始您的自定义评估 ⚡️
前往 代码仓库。
- 克隆包含子模块的仓库:
git clone --recurse-submodules git@github.com:huggingface/screensuite.git
- 安装软件包:
uv sync --extra submodules --python 3.11
- 运行
python run.py
- 或者,运行
python examples/run_benchmarks.py
以进行更精细的控制,例如并行运行多个模型的评估。
- 或者,运行
多步基准测试需要裸机来运行和部署桌面/移动*环境*模拟器(详见 README.md)
后续步骤 🚀
轻松运行一致且有意义的评估,使社区能够快速迭代并在该领域取得进展,正如我们在 Eleuther LM 评估框架、开放 LLM 排行榜和聊天机器人竞技场中所见。
我们希望在未来几个月看到更多功能强大的开放模型,它们能够可靠地运行各种任务,甚至在本地运行!
为了支持这项工作
- ⭐️ 去给 ScreenSuite 仓库 点个星,并在 issues/PRs 中给我们反馈!
- 👉 关注 smolagents 组织以获取最新信息。