Adaptive Milestone Reward for GUI Agents
研究问题
移动 GUI agent 的强化学习训练,长期受制于一个老问题:长程任务里的 temporal credit assignment 很难做准。
已有奖励机制通常卡在两难之间:
outcome reward可验证性强,但只有最终成败信号,太稀疏。process reward更密集,但常依赖黑盒打分,容易带来偏差和reward hacking。
本文要解决的核心矛盾是:能否在保持奖励高保真、可验证的前提下,给 agent 更密集、更有指导性的训练信号。
核心思路
本文提出 ADMIRE,即 Adaptive Milestone Reward。它的关键想法不是直接为每一步动作打分,而是先从成功轨迹中抽取出若干“关键状态转移”,把它们定义为 milestone,再围绕 milestone 做奖励分配。
这套设计强调两点:
- milestone 必须是可验证的,而不是纯主观生成的过程评价。
- milestone 不是静态模板,而是会随着策略进步而动态更新。
因此,ADMIRE 试图把“稀疏但真实”的最终结果奖励,转换成“稠密但仍然可信”的中间进度奖励。
方法结构
1. Adaptive Milestone Generation
ADMIRE 会从成功轨迹中抽象出关键 checkpoint,例如完成某个关键页面切换、点中某个核心入口等,把它们作为奖励锚点。
和静态 sub-goal 不同,本文强调 milestone 是 adaptive 的:
- 初始 milestone 从成功探索轨迹中提炼。
- 如果后续训练发现了更优的完成路径,milestone 也会跟着更新。
如果 agent 后来学会了更高效的捷径,奖励机制也必须跟着迁移,否则就会持续鼓励已经过时的操作方式。
2. Semantic Matching and Verification
生成 milestone 之后,系统需要判断某一步是否真正命中了 milestone。ADMIRE 在这里采用语义匹配加规则验证的做法,用来确保奖励触发不仅“像”,而且尽量“真”。
这一步的重要性在于,它把 process reward 里最容易失真的环节换成了更接近规则验证的结构化匹配。
3. Asymmetric Credit Assignment
这是 ADMIRE 最关键的设计之一。不对成功和失败轨迹使用同一种奖励分配方式,而是做了 asymmetric 处理:
- 对成功轨迹,只给真正命中 milestone 的关键步骤正奖励,尽量去掉冗余动作带来的噪声。
- 对失败轨迹,则通过中间 milestone 提供部分信用,形成探索脚手架,避免“全错就全零”的极端稀疏反馈。
这样可以同时做到:
- 对成功经验做去噪,逼着模型学关键决策点;
- 对失败经验保留中间有效信息,降低探索门槛。
主要结果
1. AndroidWorld 上稳定超过 10% 绝对提升
根据论文摘要和正文,ADMIRE 在 AndroidWorld 上对不同 base model 都带来 10% 以上 的 success rate 绝对提升。
正文里一个代表性结果是:
ADMIRE (Qwen2.5-VL-7B)达到44.0%success rate;- 超过了更大的
Qwen2.5-VL-72B,也超过了一些闭源或强基线模型。
这说明它带来的增益主要来自奖励机制,而不是单纯换更大的底模。
2. 不只对移动 GUI,有跨域泛化能力
ADMIRE 没有停留在 AndroidWorld,同时将该方案扩展到:
ALFWorldWebShop
实验显示,ADMIRE 在不同 RL 算法下都能带来一致收益。例如:
- 在
GRPO下,WebShop 达到81.9%,ALFWorld 达到78.1% - 在 ALFWorld 上,
RLOO-ADMIRE达到84.4% - 与
DAPO结合后进一步达到87.5%
这说明 adaptive milestone 不是只适用于手机 GUI,而是一种更通用的长程 agent 奖励构造思路。
3. 它本质上是一种算法无关的 reward 结构
论文明确强调,ADMIRE 可以与 GRPO、RLOO、DAPO 等不同优化算法结合,并且都能获益。这意味着它更像是一个 reward mechanism,而不是绑定某种特定 RL pipeline 的专用技巧。
与相关文档的对照理解
结合知识库中另外 3 篇相近文档,可以更清楚地看出 ADMIRE 的位置:
MobileUse通过层级反思和主动探索提升 GUI 执行鲁棒性;ADMIRE 关注的是训练期奖励信号设计,两者分别作用于推理时策略结构和训练时学习信号。ColorBench提供复杂长程移动任务的诊断型 benchmark;ADMIRE 则更像是针对这类长程任务训练 agent 的一套奖励机制。Agent-Dice解决的是持续学习中的参数更新冲突;ADMIRE 解决的是强化学习中的信用分配问题,二者分别对应“学什么别忘”和“每步该怎么奖”。
因此,ADMIRE 更适合作为长程 GUI agent 的训练基础设施,而不是执行时的推理框架。
可复用启发
- 对长程任务,奖励设计不应只在 outcome reward 和 process reward 间二选一,可以通过可验证 milestone 取得中间路线。
- 奖励锚点如果不随策略演化更新,很容易反过来束缚模型继续学更优路径。
- 成功轨迹和失败轨迹不应使用完全对称的 credit assignment 逻辑。
- 如果奖励机制足够稳健,它应当能跨任务域和跨 RL 算法复用,而不是只在单一 benchmark 生效。
局限与边界
- 本笔记主要依据 arXiv 摘要页与 HTML 正文整理,未逐项复核附录中的所有超参数和效率数据。
- ADMIRE 依赖 milestone 抽取与匹配质量,如果 milestone 生成质量下降,奖励可靠性也会受影响。
- 它解决的是信用分配,而不是高层规划、记忆管理或个性化交互问题。
结论
ADMIRE 的关键贡献,在于把 GUI agent 强化学习中的“密集信号 vs. 高保真信号”冲突,改写成“围绕可验证 milestone 做自适应奖励设计”的问题。通过动态 milestone 和非对称 credit assignment,它既保留了规则型奖励的可信度,又提供了足够密的学习信号,是一种比传统 outcome/process reward 更平衡的长程训练方案。
来源:[[Adaptive Milestone Reward for GUI Agents]]