← 返回博客列表
论文 ACL'26 Findings

Agent-Dice: Disentangling Knowledge Updates via Geometric Consensus for Agent Continual Learning

日期:2026/01/03 作者:Zheng Wu, Xingyu Lou, Xinbei Ma, et al.

研究问题

LLM agent 一旦进入真实环境,就不再只是回答问题,而是需要持续适应新的任务、应用和工具域。问题在于,连续学习新任务时,模型很容易出现经典的 stability-plasticity dilemma

  • 如果过分保守,就学不会新任务。
  • 如果过分激进,就会遗忘旧任务,出现 catastrophic forgetting。

本文把问题进一步具体化到 agent 场景:GUI agent 和 tool-use agent 的新知识更新,并不总是互相兼容。真正的困难不是“如何不断训练”,而是“如何区分跨任务共享的共通知识,以及任务之间互相冲突的干扰知识”。

因此,很多持续学习失败,本质上都来自没有显式拆开这两类更新。

核心思路

Agent-Dice 不是继续走传统的 replay、memory module 或顺序微调路线,而是把每个任务学到的参数更新视为 task vector,然后做一次受约束的参数融合。

它的核心目标是:

  • 把方向上互相冲突的更新先过滤掉,保证稳定性。
  • 再把多个任务都支持的共享更新增强起来,保证可塑性。

换句话说,Agent-Dice 试图把“学新任务”改写成“对多个任务更新做共识提纯”。

方法结构

1. 基本表示:把任务学习结果表示为 task vector

每个新任务训练后,都会得到一个相对基座模型的参数更新向量。Agent-Dice 不直接顺序叠加这些向量,而是逐参数地判断:

  • 哪些更新方向在多个任务之间是一致的;
  • 哪些更新只是局部噪声或跨任务冲突。

因此,它处理的是“参数空间中的更新几何关系”,而不是单纯把多个 checkpoint 做平均。

2. 第一阶段:Geometric Consensus Filtering

第一阶段做几何共识过滤。先在每个参数维度上看不同任务更新的方向符号,利用多数投票识别“主导优化方向”,然后把与主导方向冲突的更新排除掉。

这一步的作用很直接:

  • 先把明显互相打架的更新去掉;
  • 避免少数冲突梯度破坏整体知识保留;
  • 让最终更新尽量留在“真实共享梯度”的方向锥内。

论文把这一步解释为对 outlier update 的剪枝,用来降低 destructive interference。

3. 第二阶段:Curvature-based Importance Weighting

在过滤掉冲突方向后,第二阶段再决定剩余更新谁更重要。把更新幅度看作局部损失曲率或参数敏感度的代理指标,用 masked softmax 为保留下来的任务更新分配权重。

这一步对应的直觉是:

  • 并不是所有共识方向都同等重要;
  • 更新幅度更大、曲率更高的位置,往往意味着该参数对当前任务更敏感;
  • 因此应该在共识集合内部再做一次 saliency-aware 加权。

最终,Agent-Dice 得到的是一个“先去冲突、再按重要性重加权”的融合更新。

理论主张

本文不是纯经验方法,还试图从优化角度解释这个融合策略为什么合理。论文的理论部分主要服务于两点:

  • 说明多数方向过滤可以降低错误融合到冲突更新的概率;
  • 说明基于 saliency 的 softmax 权重可以视为满足约束下的最大熵分配。

这些分析的作用不是给出完整学习理论,而是为其参数融合规则提供一个较清晰的优化解释:Agent-Dice 不是经验拼装,而是试图把“共识方向”和“参数重要性”统一进同一个融合框架。

实验设置

论文在两个 agent 域上验证方法:

  • GUI agent 域:使用 AITZAndroidControlGUI-Odyssey
  • tool-use agent 域:使用 ToolACE 并切成 4 个子集

评测方式模拟持续学习过程:任务逐步加入,比较零样本、各任务单独训练、顺序持续训练以及 Agent-Dice 融合后的表现。

基座模型方面:

  • GUI agent:OS-Atlas-Pro-7BQwen3-VL-8B
  • tool-use agent:Qwen3-8BLlama-3.1-8B

主要发现

1. Agent-Dice 在两个域上都优于传统持续学习流程

论文总结指出,在 GUI agent 和 tool-use agent 两个域中,Agent-Dice 都取得最高的 AvgZ,说明它在增量学习场景下整体优于传统 lifelong-learning 做法。

learn from all 并不总是第二好,这反过来说明:只要顺序引入新知识,旧知识就有可能被破坏,持续训练本身并不能自动解决遗忘问题。

2. GUI agent 域中的 catastrophic forgetting 更明显

在 GUI 域中,不同 benchmark 涉及的 app 分布差异很大,所以跨任务冲突尤其明显。论文明确提到,当模型接触 GUI-Odyssey 这类新知识时,会明显遗忘 AITZAndroidControl 相关能力。

Agent-Dice 的优势在于:

  • 能明显回收旧数据集上的表现;
  • 同时只在最新任务上带来较小代价;
  • 比单纯把三个数据集顺序学完更稳。

这说明它更擅长处理“应用空间差异大、任务行为分布不一致”的 agent 场景。

3. Tool-use 域中,方法对共享机制更敏感

论文指出,在 tool-use agent 域里,不同任务之间的调用机制差异相对更小,因此共通知识更容易被识别出来。也正因为如此,Agent-Dice 在这个域中从“共识强化 + 噪声过滤”里得到的收益更明显。

对两种不同基础情形都有效:

  • 原本就有较强 tool-use 能力的模型,如 Qwen3-8B
  • 原本 tool-use 能力较弱的模型,如 Llama-3.1-8B

4. 两阶段设计都不可缺

消融实验显示:

  • 去掉第一阶段的几何共识过滤,模型无法稳定学到跨任务共享知识;
  • 去掉第二阶段的曲率加权,更新幅度会变得过大且不稳定,性能显著下降。

因此,Agent-Dice 的效果不是来自简单融合,而是来自“过滤冲突”和“放大共享”这两个动作同时成立。

5. 额外开销很低

在附加开销分析里,论文给出一个很实用的结论:平均来看,Agent-Dice 只需要大约 1 分钟 GPU 时间,或者约 10 分钟 CPU 时间,就可以完成融合。

这意味着它更接近一种轻量级后处理式持续学习机制,而不是一套高成本重训练方案。

与相关文档的对照理解

结合知识库里另外 3 篇相近文档,可以更清楚地定位 Agent-Dice:

  • Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions 更关注如何评测 agent 的记忆能力;Agent-Dice 关注的是如何在参数更新层面保留旧知识、吸收新知识。
  • MemoryBench 讨论的是 LLM 系统层面的持续学习与反馈学习评测;Agent-Dice 则是一种可以直接作用在 agent 参数更新上的具体机制。
  • MobileUse 代表了需要跨 app、长流程执行的 GUI agent 场景;Agent-Dice 的价值之一,就是为这类 agent 提供更稳的多任务持续适应路径,而不是每进一个新 app 域就重新顺序微调。

如果把这些工作放在一起看,Agent-Dice 更偏“持续学习基础设施”,而不是单独的记忆模块或评测基准。

可复用启发

  • 对 agent continual learning 来说,关键不只是增加新数据,而是显式识别哪些知识应共享、哪些知识应屏蔽。
  • 直接顺序微调容易把“领域差异”误当成“通用知识”,因此参数融合前的冲突过滤很重要。
  • 如果任务之间确实存在共享结构,轻量级 task vector 融合可能比反复重训练更经济。
  • 持续学习方法不应只在传统 NLP 任务上验证,agent 场景里的跨环境、跨工具干扰更能暴露真实问题。

局限与边界

  • 本笔记主要依据 arXiv 摘要页与 HTML 正文整理,未逐表核对附录中的全部数值。
  • Agent-Dice 解决的是参数更新冲突问题,但并不直接提供外部记忆、在线检索或经验库管理机制。
  • 该方法是否对更大规模、多模态、更强异构任务组合保持同样收益,仍需更多实证支持。

结论

Agent-Dice 的关键价值,在于把 agent 持续学习中的稳定性-可塑性困境重新表述为“共通知识与冲突知识的分离问题”。它通过几何共识过滤先去掉互相打架的更新,再通过曲率加权放大共享且重要的参数方向,从而以较低代价提升多任务持续学习表现。对于需要不断吸收新 app、新工具、新任务的 agent 系统,这是一条比单纯顺序微调更有针对性的路线。

来源:[[Agent-Dice_ Disentangling Knowledge Updates via Geometric Consensus for Agent Continual Learning]]