← 返回博客列表
论文 arXiv'26

Adaptive Milestone Reward for GUI Agents

日期:2026/02/11 作者:Congmin Zheng, Xiaoyun Mo, Xinbei Ma, et al.

研究问题

移动 GUI agent 的强化学习训练,长期受制于一个老问题:长程任务里的 temporal credit assignment 很难做准。

已有奖励机制通常卡在两难之间:

  • outcome reward 可验证性强,但只有最终成败信号,太稀疏。
  • process reward 更密集,但常依赖黑盒打分,容易带来偏差和 reward hacking

本文要解决的核心矛盾是:能否在保持奖励高保真、可验证的前提下,给 agent 更密集、更有指导性的训练信号。

核心思路

本文提出 ADMIRE,即 Adaptive Milestone Reward。它的关键想法不是直接为每一步动作打分,而是先从成功轨迹中抽取出若干“关键状态转移”,把它们定义为 milestone,再围绕 milestone 做奖励分配。

这套设计强调两点:

  • milestone 必须是可验证的,而不是纯主观生成的过程评价。
  • milestone 不是静态模板,而是会随着策略进步而动态更新。

因此,ADMIRE 试图把“稀疏但真实”的最终结果奖励,转换成“稠密但仍然可信”的中间进度奖励。

方法结构

1. Adaptive Milestone Generation

ADMIRE 会从成功轨迹中抽象出关键 checkpoint,例如完成某个关键页面切换、点中某个核心入口等,把它们作为奖励锚点。

和静态 sub-goal 不同,本文强调 milestone 是 adaptive 的:

  • 初始 milestone 从成功探索轨迹中提炼。
  • 如果后续训练发现了更优的完成路径,milestone 也会跟着更新。

如果 agent 后来学会了更高效的捷径,奖励机制也必须跟着迁移,否则就会持续鼓励已经过时的操作方式。

2. Semantic Matching and Verification

生成 milestone 之后,系统需要判断某一步是否真正命中了 milestone。ADMIRE 在这里采用语义匹配加规则验证的做法,用来确保奖励触发不仅“像”,而且尽量“真”。

这一步的重要性在于,它把 process reward 里最容易失真的环节换成了更接近规则验证的结构化匹配。

3. Asymmetric Credit Assignment

这是 ADMIRE 最关键的设计之一。不对成功和失败轨迹使用同一种奖励分配方式,而是做了 asymmetric 处理:

  • 对成功轨迹,只给真正命中 milestone 的关键步骤正奖励,尽量去掉冗余动作带来的噪声。
  • 对失败轨迹,则通过中间 milestone 提供部分信用,形成探索脚手架,避免“全错就全零”的极端稀疏反馈。

这样可以同时做到:

  • 对成功经验做去噪,逼着模型学关键决策点;
  • 对失败经验保留中间有效信息,降低探索门槛。

主要结果

1. AndroidWorld 上稳定超过 10% 绝对提升

根据论文摘要和正文,ADMIRE 在 AndroidWorld 上对不同 base model 都带来 10% 以上 的 success rate 绝对提升。

正文里一个代表性结果是:

  • ADMIRE (Qwen2.5-VL-7B) 达到 44.0% success rate;
  • 超过了更大的 Qwen2.5-VL-72B,也超过了一些闭源或强基线模型。

这说明它带来的增益主要来自奖励机制,而不是单纯换更大的底模。

2. 不只对移动 GUI,有跨域泛化能力

ADMIRE 没有停留在 AndroidWorld,同时将该方案扩展到:

  • ALFWorld
  • WebShop

实验显示,ADMIRE 在不同 RL 算法下都能带来一致收益。例如:

  • GRPO 下,WebShop 达到 81.9%,ALFWorld 达到 78.1%
  • 在 ALFWorld 上,RLOO-ADMIRE 达到 84.4%
  • DAPO 结合后进一步达到 87.5%

这说明 adaptive milestone 不是只适用于手机 GUI,而是一种更通用的长程 agent 奖励构造思路。

3. 它本质上是一种算法无关的 reward 结构

论文明确强调,ADMIRE 可以与 GRPORLOODAPO 等不同优化算法结合,并且都能获益。这意味着它更像是一个 reward mechanism,而不是绑定某种特定 RL pipeline 的专用技巧。

与相关文档的对照理解

结合知识库中另外 3 篇相近文档,可以更清楚地看出 ADMIRE 的位置:

  • MobileUse 通过层级反思和主动探索提升 GUI 执行鲁棒性;ADMIRE 关注的是训练期奖励信号设计,两者分别作用于推理时策略结构和训练时学习信号。
  • ColorBench 提供复杂长程移动任务的诊断型 benchmark;ADMIRE 则更像是针对这类长程任务训练 agent 的一套奖励机制。
  • Agent-Dice 解决的是持续学习中的参数更新冲突;ADMIRE 解决的是强化学习中的信用分配问题,二者分别对应“学什么别忘”和“每步该怎么奖”。

因此,ADMIRE 更适合作为长程 GUI agent 的训练基础设施,而不是执行时的推理框架。

可复用启发

  • 对长程任务,奖励设计不应只在 outcome reward 和 process reward 间二选一,可以通过可验证 milestone 取得中间路线。
  • 奖励锚点如果不随策略演化更新,很容易反过来束缚模型继续学更优路径。
  • 成功轨迹和失败轨迹不应使用完全对称的 credit assignment 逻辑。
  • 如果奖励机制足够稳健,它应当能跨任务域和跨 RL 算法复用,而不是只在单一 benchmark 生效。

局限与边界

  • 本笔记主要依据 arXiv 摘要页与 HTML 正文整理,未逐项复核附录中的所有超参数和效率数据。
  • ADMIRE 依赖 milestone 抽取与匹配质量,如果 milestone 生成质量下降,奖励可靠性也会受影响。
  • 它解决的是信用分配,而不是高层规划、记忆管理或个性化交互问题。

结论

ADMIRE 的关键贡献,在于把 GUI agent 强化学习中的“密集信号 vs. 高保真信号”冲突,改写成“围绕可验证 milestone 做自适应奖励设计”的问题。通过动态 milestone 和非对称 credit assignment,它既保留了规则型奖励的可信度,又提供了足够密的学习信号,是一种比传统 outcome/process reward 更平衡的长程训练方案。

来源:[[Adaptive Milestone Reward for GUI Agents]]