VeriOS: Query-Driven Proactive Human-Agent-GUI Interaction for Trustworthy OS Agents
研究问题
随着多模态模型能力增强,OS agent 已经能自动执行越来越多 GUI 任务。但现实环境并不总是“理想执行环境”,很多时候存在:
- 信息缺失
- 多选歧义
- 敏感操作
- 环境异常
如果 agent 在这些场景里仍然机械执行,就会出现 over-execution 风险。本文关注的核心问题是:OS agent 是否应该学会在某些场景下停下来问人,而不是默认继续做下去。
核心思路
VeriOS 提出一种 query-driven human-agent-GUI interaction 框架。它的核心原则很简单:
- 在正常、可信场景里,agent 继续自主执行;
- 在不可信场景里,agent 应先向人提问,利用问答历史再继续执行。
因此,可信 OS agent 的关键不只是“会操作”,还包括“知道什么时候该问人”。
方法结构
1. VeriOS-Bench
为了让这个问题能被系统评测,作者先构造了 VeriOS-Bench。这个 benchmark 不只含普通 GUI 操作样本,还标注了多类 scenario type,包括:
environmental anomaliesinformation missingsensitive actionsmultiple choicesnormal scenarios
并且,对于不可信场景,还额外标出 agent 应该问什么,以及人的预定义回答立场。
这使 VeriOS-Bench 不只是 action benchmark,而是同时评测:
- 场景识别是否正确;
- 询问是否合理;
- 询问后是否能更好完成动作。
2. Meta-knowledge decoupling
VeriOS-Agent 的训练关键,在于把数据实例拆成两类 meta-knowledge:
scenario knowledge:用于识别不可信场景并生成相应提问;action knowledge:用于结合 query-answer history 生成实际 GUI 动作。
作者认为,传统 OS agent 容易把这两种知识混在一起学,结果要么不会判断场景,要么即便得到问答历史也不会正确利用。
3. Three-stage learning paradigm
论文提出一个三阶段学习范式,通过 SFT 和 GRPO 来完成上述知识的解耦与利用。其目标是让 agent 同时学会:
- 识别是否当前场景值得查询;
- 生成合适的问题;
- 把人类回答整合回动作生成过程。
换句话说,VeriOS-Agent 不是简单在 prompt 里插一个“你可以问人”,而是把“何时问、问什么、怎么用回答”当作训练目标。
主要结果
1. 总体 step-wise success rate 提升 19.72%
根据论文摘要和正文,VeriOS-Agent 相对最强基线的平均 step-wise success rate 提升 19.72%。
这个数字的重要性在于,它不是通过牺牲正常场景性能换来的,而是在保持 normal scenario 表现基本不掉的情况下得到的。
2. 不可信场景提升更明显
正文进一步指出,在 untrustworthy scenarios 上,相对最强基线的 step-wise success rate 提升可达到 20.64%。
这说明主动询问机制不是形式上的安全兜底,而是真正改善了困难场景里的任务完成率。
3. 现有 OS agent 即便给了问答历史,也未必会变好
论文在 VeriOS-Bench 上做了一个很重要的 pilot study:把正确标注的 query-answer pair 直接塞给现有 OS agent 后,normal scenario 表现反而下降,而且小模型下降更明显。
这说明问题不只是“缺少问答内容”,而是 agent 本身缺少利用这类 meta-knowledge 的训练机制。VeriOS 的贡献,正是在这里补了一层结构化学习。
与相关文档的对照理解
结合知识库中另外 3 篇相近文档,可以更清楚地看出 VeriOS 的定位:
KnowU-Bench关注主动干预、偏好获取和 consent negotiation 的完整链路;VeriOS 更专注于“不可信场景下是否该询问、如何询问”这一可信执行问题。MobileUse解决的是长程 GUI 执行中的反思和冷启动;VeriOS 解决的是执行前后的人类介入边界,属于更高层的 trustworthiness 问题。HammerBench关注对话式 function-calling 中多轮参数补齐;VeriOS 虽然也有 query-driven interaction,但它的提问目标是风险控制和场景澄清,而不是纯 slot filling。
可复用启发
- 对 GUI/OS agent 而言,“知道什么时候别继续执行”本身就是一项核心能力。
- human-in-the-loop 不应只是部署时补丁,而应在训练阶段就把场景识别、提问生成和答案利用一起学进去。
- 不能假设给模型更多上下文就自然会更安全,是否会正确利用上下文本身也需要训练。
- 可信 agent 的评测,应该把“场景判断”和“动作执行”拆开看,而不是只看最终动作是否正确。
局限与边界
- 本笔记主要依据 arXiv 摘要页与 HTML 正文整理,未逐项展开三阶段训练的所有实现细节。
- VeriOS 聚焦的是 query-driven trustworthiness,不直接覆盖完整权限系统、长期偏好建模或隐私保护机制。
- 它主要验证了 OS/GUI agent 的受控 benchmark 场景,部署到更开放环境仍需要额外工程约束。
结论
VeriOS 的关键贡献,在于把“可信 OS agent”重新定义为:不仅要能做事,还要知道什么时候该暂停执行、转而向人确认。通过将 scenario knowledge 与 action knowledge 解耦,并把 query-driven interaction 纳入训练闭环,它为 GUI agent 的可信执行提供了比单纯“少做一点”更系统的路线。
来源:[[VeriOS_ Query-Driven Proactive Human-Agent-GUI Interaction for Trustworthy OS Agents]]