Holo1:GUI 自动化 VLM 的新系列,为 GUI 代理 Surfer-H 提供动力

社区文章 发布于 2025 年 6 月 3 日

今天,H 公司发布了 Holo1,一个 Action 视觉语言模型(VLM)家族,以及 WebClick,一个新的 Hugging Face Hub 上的多模态本地化基准。

Surfer-H 是一个像人类一样与浏览器交互的网络原生代理,它依赖于 Holo1。

技术报告

Holo1

Holo1 是第一个专门为深度 Web UI 理解和精确本地化而设计的开源 Action VLM 家族。该家族包括 Holo1-3B 和 Holo1-7B 模型,其中后者在常用 UI 本地化基准上实现了 76.2% 的平均准确率,是小型模型中最高的。H 公司已在 Hugging Face 上开源了这些模型,同时发布了包含 1,639 个人类任务的 WebClick 基准。

与 Transformers 一起使用

Holo1 模型基于 Qwen2.5-VL 架构,并与 Transformers 完全兼容。这里我们提供一个简单的使用示例。您可以按如下方式加载模型和处理器。

from transformers import AutoModelForImageTextToText, AutoProcessor
import torch
model = AutoModelForImageTextToText.from_pretrained(
    "Hcompany/Holo1-3B",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
    device_map="auto",
)

processor = AutoProcessor.from_pretrained("Hcompany/Holo1-3B")

加载图像并进行预处理。

image_url = "https://huggingface.co/Hcompany/Holo1-3B/resolve/main/calendar_example.jpg" 


guidelines = "Localize an element on the GUI image according to my instructions and output a click position as Click(x, y) with x num pixels from the left edge and y num pixels from the top edge."
instruction = "Select July 14th as the check-out date"
messages = [
        {
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "url": image_url,
                },
                {"type": "text", "text": f"{guidelines}\n{instruction}"},
            ],
        }
    ]


inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt",
    return_dict=True,
).to(model.device)

我们现在可以进行推理。

generated_ids = model.generate(**inputs, max_new_tokens=128)

decoded = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)

# Click(352, 348)

Surfer-H

Web 自动化是 AI 在商业领域最实用的应用之一,但到目前为止,解决方案常常为了性能而牺牲成本效益。通过在 Hugging Face 中提供 Holo1 Action 模型,用户现在可以实施 Web 自动化解决方案,在真实世界的 Web 任务中实现 92.2% 的准确率,而每项任务的成本仅为 0.13 美元。

Surfer-H 依赖于 Holo1 开源模型家族。它是一个用于完整 Web 任务自动化的模块化架构,可执行阅读、思考、点击、滚动、打字和验证。它被设计为灵活和模块化的,由三个独立的组件组成:一个负责规划和驱动代理行为的策略模型、一个用于精确交互的视觉 UI 本地化模型,以及一个用于确认任务是否成功完成的验证器模型。与其他依赖自定义 API 或脆弱包装器的代理不同,Surfer-H 纯粹通过浏览器操作,就像一个真正的用户。

这些解决方案共同代表了 Web 自动化领域的新前沿,实现了最先进的本地化性能,并在 WebVoyager 基准测试中设定了成本效益 Web 导航的帕累托前沿。

我们期待看到您使用 Holo1 构建出什么!让我们在本博客文章和模型仓库的讨论标签下见面!

引用

@misc{andreux2025surferhmeetsholo1costefficient,
      title={Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights}, 
      author={Mathieu Andreux and Breno Baldas Skuk and Hamza Benchekroun and Emilien Biré and Antoine Bonnet and Riaz Bordie and Matthias Brunel and Pierre-Louis Cedoz and Antoine Chassang and Mickaël Chen and Alexandra D. Constantinou and Antoine d'Andigné and Hubert de La Jonquière and Aurélien Delfosse and Ludovic Denoyer and Alexis Deprez and Augustin Derupti and Michael Eickenberg and Mathïs Federico and Charles Kantor and Xavier Koegler and Yann Labbé and Matthew C. H. Lee and Erwan Le Jumeau de Kergaradec and Amir Mahla and Avshalom Manevich and Adrien Maret and Charles Masson and Rafaël Maurin and Arturo Mena and Philippe Modard and Axel Moyal and Axel Nguyen Kerbel and Julien Revelle and Mats L. Richter and María Santos and Laurent Sifre and Maxime Theillard and Marc Thibault and Louis Thiry and Léo Tronchon and Nicolas Usunier and Tony Wu},
      year={2025},
      eprint={2506.02865},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2506.02865}, 
}

社区

已删除
此评论已被隐藏

生成一个真实世界

结果非常令人印象深刻!这里有一些带有查询的例子(结果显示为小的红色圆圈)

查询 #1

点击哪里上传文件?

image-1.webp

查询 #2

请求结果会以图片形式显示在哪里?

image-2.webp

值得注意的是,这些点位于 UI 组件的逻辑中心(而不是标题或视觉中心)。

我还想在文章中添加关于许可证的信息,花了一些时间才在 HF 找到。对于好奇的人来说,它是 Apache 2.0(非常宽松)。

注册登录 发表评论