如何训练你的LLM网络智能体：一项统计诊断

社区文章发布于2025年7月8日

TL;DR：我们对开源LLM网络智能体的计算-性能权衡进行了首次大规模研究。我们发现，将监督微调（SFT）与强化学习（RL）相结合是唯一能缩小与GPT-4o等闭源智能体差距的策略。我们的工作为训练能够真正通过多步骤任务进行推理的开源网络智能体提供了一个计算高效、有统计学依据的蓝图。

LLM智能体在解决数学和编码等单步任务方面表现出色。但现实世界的工作流程——预订航班、填写表格、查询仪表盘——需要多步操作、长时间推理和脆弱的环境。

这正是大多数智能体出现问题的地方。

为了弥合这一差距，我们评估了两种设置下的智能体：

MiniWoB++：带有稀疏奖励的网络UI任务
WorkArena++：来自真实知识工作的企业级多页面任务

MiniWob++

Liu et al. (2018). 使用工作流引导探索在Web界面上进行强化学习。

WorkArena

Drouin et al. (2024). WorkArena: Web智能体在解决常见知识工作任务方面的能力如何？。

训练LLM智能体不仅具有挑战性，而且成本高昂。训练基于LLM的智能体主要有两种方法：一是通过专家轨迹进行监督微调（SFT），二是使用在策略强化学习（RL）。我们发现这两种方法在一定程度上都有效。但是，一个被严重忽视的问题是：我们应该如何在SFT和RL之间分配计算资源，以达到两全其美的效果？

找到合适的计算分配并不容易——超参数的行为因SFT预热的使用量而异，使得跨设置的调整变得昂贵。为了解决这个问题，我们运行了1,370个SFT+RL配置，并使用了引导技术来确定稳健的超参数选择。

有了这些超参数，我们发现混合方法始终是最佳的——在两个基准测试中都优于原始SFT和纯粹的在策略RL。重要的是，我们发现尽早（但不是立即）转向RL能够实现最佳的性能-计算权衡。在MiniWoB++上，这种策略仅使用55%的计算资源就达到了纯SFT的峰值性能，甚至在某些设置中超越了它。

此外，这种策略在WorkArena和Miniwob++上都取得了最佳性能。

我们的超参数分析揭示了几种一致的模式。解码温度整体影响最大，0.25在各种设置中被证明是最佳点。GRPO的群组相对优势（group-relative advantage）被证明是有益的，但仅在经过SFT预热之后——过早使用实际上会损害性能。类似地，当RL冷启动时，课程学习（curriculum learning）提升了性能，但一旦模型已经预热，它就变得适得其反。此外，虽然信任区域剪裁（trust region clipping）在大量SFT下稳定了训练，但如果不用SFT，它几乎没有好处，有时甚至会减慢学习速度。

总的来说，我们提供了一种有效的训练基于LLM的网络智能体的方法，它在专家轨迹上优于SFT，同时使用的计算资源显著减少。此外，我们对随机搜索进行的自举分析为训练网络智能体提供了关于有效和无效方法的深刻见解。总而言之，我们的发现为在复杂多步骤环境中推进开源LLM网络智能体提供了一个可复现、预算友好的蓝图。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论