← 返回博客列表
论文 ACL'26 Industry track (Oral)

ColorBrowserAgent: Complex Long-Horizon Browser Agent with Adaptive Knowledge Evolution

日期:2026/01/07 作者:Jihong Wang, Jiamu Zhou, Weiming Zhang, et al.

一、研究背景与意义:网页智能体走向工业落地的核心挑战

浏览器是数字生活与企业办公的统一入口,从信息查询、购物下单、差旅预订到后台管理、数据填报,大量高频、重复、长流程的工作都依赖网页交互完成。随着视觉-语言模型(VLM)能力快速提升,AI网页智能体逐步具备理解界面、执行点击、输入文本、完成多步任务的能力,有望大幅提升效率、降低人力成本。 但在真实工业部署中,网页智能体仍面临两大难以绕过的瓶颈:

  1. 站点异构性(Site Heterogeneity) 不同网站的布局、控件样式、交互逻辑、业务规则差异极大。通用模型缺乏领域先验,很难适配各类定制化界面;传统方案依赖站点专属微调或交互轨迹学习,成本高、周期长,界面一更新就失效,难以规模化跨站使用。
  2. 长时序不稳定性(Long-Horizon Instability) 复杂任务往往需要十几步甚至几十步连续操作。随着交互步骤增加,模型容易出现决策漂移——逐步偏离原始目标,再加上上下文窗口长度限制,历史信息被稀释,最终导致任务失败。这类问题在流程自动化、跨页操作、后台配置等场景中尤为突出。

面向上述痛点,业界亟需一种不依赖大量微调、能适配异构站点、长流程执行稳定的轻量化工业级方案。ColorBrowserAgent正是在这一背景下提出,旨在让网页智能体从实验室原型走向可靠的产业部署。

figure1

二、核心方法与框架:ColorBrowserAgent 双机制协同设计

ColorBrowserAgent定位为Complex Long-Horizon Browser Agent,是一种免训练、知识可进化的网页智能体框架。它不把领域知识“塞进模型参数”,而是通过外部知识库与记忆管理机制,实现稳定、通用、低成本的网页自动化。整体架构由两大协同机制、三大核心组件构成。

1. 两大核心解决机制

(1) 人在回路知识自适应(Human-in-the-Loop Knowledge Adaptation)

  • 核心思路:不微调模型,只沉淀知识。在任务失败时由专家给出轻量提示,将站点级业务逻辑提炼成可复用规则,存入外部自适应知识库AKB。
  • 知识使用:执行时通过URL模式匹配、关键词检索、视觉语义向量检索三级召回,动态注入约束指导行为。
  • 优势:一次提炼、多处复用;界面更新只需更新规则,无需重训模型。

(2) 知识对齐渐进式摘要(Knowledge-Aligned Progressive Summarization)

  • 核心思路:解决长时序上下文溢出与决策漂移。对交互历史做分层压缩,只保留当前子目标细节,历史步骤压缩为高层语义摘要。
  • 知识对齐:在压缩同时校验执行是否符合专家知识,一旦偏离立即给出修正引导,保持目标一致性。
  • 优势:内存占用稳定在近似常数级,超长步骤不溢出、不跑偏、不幻觉。

2. 三大核心组件

  • Adaptor(适配器):负责离线从专家反馈中构建、更新知识库;在线根据当前页面检索相关知识。
  • Summarizer(摘要器):负责渐进式压缩交互历史,维护结构化信念状态,确保与知识约束对齐。
  • Operator(执行器):基于当前页面观察、压缩记忆与知识约束,输出可执行浏览器动作(点击/输入/滚动等)。

3. 双循环运行流程

  • 离线知识适配链路:执行失败→专家分析→提炼站点逻辑→存入AKB→持续进化。
  • 在线执行链路:页面观察→知识检索→记忆压缩→动作执行→稳定完成长流程任务。

figure2

三、实验与结果:基准测试SOTA,工业场景验证有效

为全面验证ColorBrowserAgent的技术有效性与工程可靠性,研究团队在国际通用的权威评测基准上开展多维度、系统性的定量实验与消融分析,并将方案部署于真实商用系统中,完成工业级场景的实证检验。

1. 公开数据集表现

(1) WebArena 基准

  • 覆盖购物、GitLab、Reddit、后台管理、地图等多领域共812个长时序任务。
  • ColorBrowserAgent整体成功率71.2%,显著超越此前最优基线,相对提升15.38%,在购物、管理后台等复杂长流程场景提升尤为明显。

figure3

(2) WebChoreArena 零样本迁移

  • 更复杂、更繁琐的网页任务集,采用严格零样本设置(仅用WebArena知识,不接触目标任务)。
  • 整体成功率47.4%,超越最优基线52.41%,验证知识可跨域、跨任务泛化。

figure4

(3) 消融实验

  • 移除Summarizer:性能明显下降,证明长时序记忆对齐关键。
  • 移除Adaptor:性能下降更显著,证明外部知识是应对异构站点的核心。
  • 完整架构相对基线提升超10%,设计稳健有效。

figure5

2. 工业级落地验证

该方案已部署于商用智能出行规划系统,作为多智能体架构中的网页执行单元,自动完成跨网站信息查询、价格获取、流程校验等操作。

  • 线上A/B测试:用户满意度相对提升19.3%。
  • 在已沉淀知识的垂直领域,任务成功率超过95%。
  • 可应对网页动态更新与临时弹窗,在真实多变环境中保持高鲁棒性。

四、技术价值与产业启示

ColorBrowserAgent为工业级网页自动化提供了一条轻量化、可规模化的新思路:

  1. 知识与模型解耦:不依赖大量数据与重微调,降低企业落地门槛。
  2. 面向长时序稳定:让智能体真正胜任多步、跨页、高复杂度业务流程。
  3. 人在回路高效迭代:少量专家反馈即可快速适配新站点,维护成本低。

本次论文入选ACL 2026 Industry Track并获Oral报告,是团队在多模态智能体、人机协同、产业级AI系统方向的又一重要成果。未来,团队将继续围绕真实场景痛点,持续推进更可靠、更高效、更普惠的AI智能体技术,让AI真正走进日常使用与产业实践。