论文 WWW'26

ColorBench: Benchmarking Mobile Agents with Graph-Structured Framework for Complex Long-Horizon Tasks

日期：2025/10/14 作者：Yuanyi Song, Heyuan Huang, Qiqiang Lin, et al.

论文代码

研究问题

移动 GUI agent 的评测一直卡在两个不理想选项之间：

纯离线静态 benchmark 稳定、便宜，但通常只认可一条预设的 golden path；
在线真实设备评测更接近现实，却容易被广告、弹窗、加载延迟和不可复现的设备状态干扰。

问题在于，真实移动任务往往既长程、又多步骤、还允许多种正确完成方式。只认一条路径会低估能力，而全动态真实设备评测又很难做到稳定和自动化。

ColorBench 想解决的就是这个矛盾：能不能用一种足够稳定、又能保留动态交互特征的评测形式，来评估复杂长程移动任务。

核心思路

作者提出 graph-structured benchmark。它的基本做法是，把真实设备交互中可能出现的页面状态和状态转移组织成有限图结构，用静态图去模拟动态 GUI 行为。

这样做的目标有三个：

保留真实交互里的多路径可能性；
让评测依然可重复、可自动检查；
把结果分析从“任务是否完成”扩展到“子任务和原子能力是否完成”。

因此，ColorBench 不只是一个新数据集，更像是一种新的移动 agent 评测范式。

基准设计

1. 图结构评测为什么重要

论文认为，图结构评测相较现有方案有四个关键优势：

支持单任务存在多条正确解路径；
允许反思、回退等协作行为在评测中发挥作用；
可以通过 milestone 做子任务级和 atomic capability 级分析；
在保持静态稳定性的同时，仍能模拟现实环境中的随机变化。

这意味着它不是“把动态任务离线化得更粗糙”，而是尽量把动态性保留下来，但压缩进可控的有限状态空间里。

2. ColorBench 的任务规模

根据论文正文，ColorBench 具有以下规模：

175 个复杂任务
其中 74 个单 app 任务
101 个跨 app 任务
平均最优路径长度超过 13.13 步
覆盖 21 个 app

每个任务都至少包含 2 条正确路径，并包含若干典型错误路径，因此支持 quasi-dynamic 交互。

3. 它究竟评什么

ColorBench 不只判断任务成功与否，还支持：

多正确路径评估
子任务完成率统计
15 类 atomic capability 分析

论文把这点视为核心贡献之一。因为对长程 agent 来说，很多失败并不是“什么都不会”，而是卡在某个局部能力上，例如信息记忆、子任务拆解、错误恢复或跨 app 跳转。

数据构造方法

1. BFS 收集浅层高频轨迹

对 app 内高频、浅层页面，作者使用 Breadth-First Search (BFS) 收集轨迹。做法是先识别页面上的交互元素，再逐项执行并记录结果，以覆盖 app 内最常见的短距离操作路径。

这一步的目标是尽量补全“局部可达状态图”。

2. DFS 收集复杂长程轨迹

对跨 app、长程、多步骤任务，自动化工具很难直接抓全，因此 ColorBench 用 Depth-First Search (DFS) 风格的轨迹补全流程来处理。

这里有两个关键动作：

人工在真实手机上执行复杂任务，并对每一步截图；
再让 VLM 在相邻截图之间补全缺失动作，重建完整轨迹。

论文称之为基于 “screenshot-based action completion” 和 “branch trajectory supplementation” 的构造方式。它的作用是把真实执行轨迹、图结构表示和可自动评测之间连接起来。

3. 通过部分歧义指令制造多路径正确解

为了让一个任务天然拥有多条正确路径，作者有意识地使用带有部分歧义的任务指令。这样不同 agent 可以用不同顺序、不同 app 跳转方式或不同中间动作完成目标，但仍然被系统视为正确。

这一步很关键，因为它正面修复了很多离线 benchmark 的根本缺陷：它们通常默认“唯一正确操作顺序”。

主要发现

1. 现有模型在复杂长程任务上整体还很弱

ColorBench 的实验表明，当前模型在复杂长程移动任务上的表现远未饱和。即便是更强的闭源和大参数模型，到了长程、跨 app、多路径环境下，成功率和完整完成率依然明显受限。

论文在基线分析中指出：

模型参数更大通常有帮助；
但专门为 GUI 调过的基础模型不一定就比通用强模型更稳；
grounding 依旧是瓶颈，但更上层的认知问题同样严重。

2. 真正的瓶颈不只在操作，还在高层认知

在 RQ3 的分析中，作者手动审查执行日志后总结了三类高频问题：

无法完整拆解复杂长程任务
对关键历史信息记忆模糊
对重复错误缺少有效反思

论文给出的例子很有代表性：有些模型完成前半段“分享给联系人”后就误判任务已结束；另一些模型虽然到了后续网页，却忘了之前找到的论文标题，最终陷入循环。

这说明长程移动任务的核心难点不是单步点击，而是规划、记忆和反思的联动。

3. 图结构评测不是折中削弱，而是更有诊断力

ColorBench 的价值不只是“更稳定”。它能在保留交互性的同时，额外提供原子能力诊断，这让它比很多只给最终 SR 的 benchmark 更适合做错误定位。

从评测设计角度看，ColorBench 证明了一点：静态环境并不等于弱评测，只要状态图构造得足够好，仍然可以模拟真实交互中的多路径与分支行为。

与相关文档的对照理解

结合知识库中另外 3 篇相近文档，可以更清楚地看出 ColorBench 的定位：

MobileUse 是一个移动 agent 方法，强调层级反思和主动探索；ColorBench 更像它这类方法的高压测试场，尤其擅长暴露长程规划、记忆和反思方面的缺陷。
KnowU-Bench 关注个性化和主动式干预决策；ColorBench 更聚焦复杂长程 GUI 执行本身，不涉及偏好询问和同意机制。
HammerBench 关注多轮 function-calling 的细粒度对话评测；ColorBench 关注的是 GUI 交互级的长程执行，两者分别对应“调用层”和“界面执行层”的评测。

因此，ColorBench 最适合作为复杂 GUI 长程任务评测基线，而不是个性化助手或多轮对话系统的通用 benchmark。

可复用启发

如果任务天然存在多条正确完成路径，benchmark 就不应只验证唯一 golden path。
在 GUI agent 评测中，把动态环境压缩成可控图结构，是兼顾稳定性与真实性的有效折中。
复杂长程任务的评测结果，最好拆到子任务和 atomic capability 层面，否则很难定位失败原因。
构建高质量 benchmark 时，人工真实轨迹与自动补全机制可以结合，而不必在全人工和全自动之间二选一。

局限与边界

ColorBench 虽然尽量模拟动态行为，但本质仍是有限状态图，不等于完整真实设备世界。
图结构能覆盖常见随机性，但无法穷尽真实环境中的所有时序异常、外部中断和系统级噪声。
本笔记主要依据 arXiv 摘要页与 HTML 正文整理，未逐一展开附录中所有原子能力明细和模型提示词细节。

结论

ColorBench 的关键贡献，在于提出了“图结构化移动 agent 评测”这一中间路线：既不退回只认单一路径的静态 benchmark，也不完全依赖高成本、低稳定性的真实设备在线评测。它把复杂长程 GUI 任务的多路径、子任务和能力缺口纳入统一框架，为后续移动 agent 的评测和诊断提供了更实用的工具。

来源：[[ColorBench_ Benchmarking Mobile Agents with Graph-Structured Framework for Complex Long-Horizon Tasks]]