ScreenSuite - 最全面的 GUI 智能体评估套件！

发布于 2025 年 6 月 6 日

在 GitHub 上更新

发布 ScreenSuite，最全面的 GUI 智能体评估套件！
什么是 GUI 智能体？

ScreenSuite 介绍 🥳

在 ScreenSuite 上对领先的 VLM 进行排名 📊

30 秒内开始您的自定义评估 ⚡️

后续步骤 🚀

发布 ScreenSuite，最全面的 GUI 智能体评估套件！

摘要

在过去的几周里，我们不懈努力，致力于让 GUI 智能体更加开放、易于访问和集成。在此过程中，我们创建了迄今为止最大的 GUI 智能体性能基准测试套件 👉 让我们向您介绍 ScreenSuite。

我们今天非常激动地与您分享：ScreenSuite 是评估视觉语言模型 (VLM) 各种智能体能力的最全面、最简单的方法！

什么是 GUI 智能体？

运行中的 GUI 智能体 - 图片由 OSWorld 提供

简而言之，AI 智能体是在虚拟世界中行动的机器人。（更详尽的定义请看这里）

特别是，“GUI 智能体”是存在于图形用户界面 (GUI) 中的智能体。可以把它想象成“一个可以在我的桌面或手机上点击和导航的智能体”，类似于 Claude 的电脑使用功能。

这实质上意味着，驱动智能体的 AI 模型将被赋予一个任务，比如“填充这个 Excel 列的其余部分”，同时提供 GUI 的屏幕截图。利用这些信息，它将决定在系统上采取行动：`click(x=130, y=540)` 打开一个网页浏览器，`type("2025 年 XYZ 的值")`，`scroll(down=2)` 来阅读更多内容……要看一个 GUI 智能体实际操作，您可以试试我们由 Qwen2.5-VL-72B 驱动的开放计算机智能体。

一个优秀的 GUI 智能体将能够像我们一样操作电脑，从而解锁所有电脑任务：滚动浏览谷歌地图、编辑文件、在线购物。这涉及到多种难以评估的能力。

ScreenSuite 介绍 🥳

文献，例如 Xu 等人 (2025) 或 Qin 等人 (2025)，通常将 GUI 智能体的能力分为几类：

感知：正确感知屏幕上显示的信息
定位：理解元素的位置——这对于点击正确位置至关重要
单步操作：通过一个动作正确解决指令
多步智能体：通过在 GUI 环境中的多个动作来解决更高级别的目标。

因此，我们的第一个贡献是 收集并统一一个包含 13 个基准测试的综合套件，涵盖了这些 GUI 智能体能力的全部范围。

如果您看上面列出的最后一类，评估多步智能体能力尤其具有挑战性，因为它需要虚拟机来运行智能体的环境，无论是 Windows、Android 还是 Ubuntu……为了解决这个问题，我们既支持 E2B desktop 远程沙盒，也从头创建了一个新选项，可以轻松地在 Docker 中启动 Ubuntu 或 Android 虚拟机！

类别	基准测试	环境	样本数
感知 / 定位 👁️	ScreenQA-Short	移动端	8.4k
	ScreenQA-Complex	移动端	11.8k
	ScreenSpot-v2	桌面	1.3k
	ScreenSpot-Pro	桌面	1.6k
	WebSRC	Web	52k
	VisualWebBench	Web	1.5k
单步操作 🎯	Showdown-clicks	Web	0.6k
	AndroidControl	移动端	3k
	Multimodal-Mind2web	Web	6.4k
多步智能体 🐾	AndroidWorld (包括 MobileMiniWob)	移动端	116 个任务，无限
	OSWorld	桌面	369
	BrowseComp	Web	1.27k
	GAIA-Web	Web	132
	Mind2Web-Live	Web	208

实现细节

我们精心设计了我们的基准测试套件，考虑到了模块化和一致性，确保任务和环境之间有很强的一致性。在需要时，特别是在线基准测试中，我们利用 smolagents 作为框架层，来简化智能体的执行和编排。

为了支持可复现性和易用性，我们构建了自定义的 Docker 化容器，允许在本地部署完整的 Ubuntu 桌面或 Android 环境。

与许多现有的 GUI 基准测试依赖于可访问性树或其他元数据以及视觉输入不同，我们的堆栈特意是纯视觉的。虽然这可能导致在一些已有的排行榜上的得分有所不同，但我们认为这创造了一个更现实、更具挑战性的设置，更能反映人类如何感知和与图形界面互动。

– 所有智能体框架 (Android World、OSWorld、GAIAWeb、Mind2Web) 都使用 smolagents，并且仅依赖于视觉，不添加任何可访问性树或 DOM（与其他来源报道的评估设置形成对比）。– Mind2Web (多模态) 最初使用基于可访问性树和屏幕截图的基于元素名称的多选，但后来被调整为使用纯视觉的边界框内的点击精度，这大大增加了任务难度。

在 ScreenSuite 上对领先的 VLM 进行排名 📊

我们已经评估了领先的 VLM 在该基准测试上的表现

Qwen-2.5-VL 系列模型，参数范围从 3B 到 72B。这些模型以其惊人的定位能力而闻名，换句话说，它们知道图像中任何元素的坐标，这使得它们非常适合需要精确点击的 GUI 智能体。
UI-Tars-1.5-7B，由字节跳动推出的全能型模型。
Holo1-7B，H 公司最新推出的模型，在其规模下展现出极其出色的定位性能。
GPT-4o

我们的得分与各方来源报道的得分基本一致！但需要注意的是，我们仅基于视觉进行评估，这导致了一些差异，详见上文的实现细节。

💡 请注意，ScreenSuite 并不旨在完全复现业界发布的基准测试：我们评估的是模型*基于视觉的 GUI 智能体能力*。因此，在像 Mind2Web 这样的基准测试中，其他基准测试为智能体提供了如 DOM 或可访问性树等信息丰富的上下文，而我们的评估设置要困难得多，因此 ScreenSuite 的结果与其他来源不匹配。

30 秒内开始您的自定义评估 ⚡️

前往代码仓库。

克隆包含子模块的仓库：git clone --recurse-submodules git@github.com:huggingface/screensuite.git
安装软件包：uv sync --extra submodules --python 3.11
运行 python run.py
- 或者，运行 python examples/run_benchmarks.py 以进行更精细的控制，例如并行运行多个模型的评估。

多步基准测试需要裸机来运行和部署桌面/移动*环境*模拟器（详见 README.md）

后续步骤 🚀

轻松运行一致且有意义的评估，使社区能够快速迭代并在该领域取得进展，正如我们在 Eleuther LM 评估框架、开放 LLM 排行榜和聊天机器人竞技场中所见。

我们希望在未来几个月看到更多功能强大的开放模型，它们能够可靠地运行各种任务，甚至在本地运行！

为了支持这项工作

⭐️ 去给 ScreenSuite 仓库点个星，并在 issues/PRs 中给我们反馈！
👉 关注 smolagents 组织以获取最新信息。

更多博客文章

我们现在在 smolagents 中支持 VLM 了！

作者 2025 年 1 月 24 日 • 109

CodeAgents + Structure: 一种更好的执行操作的方式

作者 2025 年 5 月 28 日 • 71

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以发表评论