← 返回博客列表

论文 ACL'26 Industry track (Oral)

ColorBrowserAgent: Complex Long-Horizon Browser Agent with Adaptive Knowledge Evolution

日期：2026/01/07 作者：Jihong Wang, Jiamu Zhou, Weiming Zhang, et al.

一、研究背景与意义：网页智能体走向工业落地的核心挑战

浏览器是数字生活与企业办公的统一入口，从信息查询、购物下单、差旅预订到后台管理、数据填报，大量高频、重复、长流程的工作都依赖网页交互完成。随着视觉-语言模型（VLM）能力快速提升，AI网页智能体逐步具备理解界面、执行点击、输入文本、完成多步任务的能力，有望大幅提升效率、降低人力成本。但在真实工业部署中，网页智能体仍面临两大难以绕过的瓶颈：

站点异构性（Site Heterogeneity）不同网站的布局、控件样式、交互逻辑、业务规则差异极大。通用模型缺乏领域先验，很难适配各类定制化界面；传统方案依赖站点专属微调或交互轨迹学习，成本高、周期长，界面一更新就失效，难以规模化跨站使用。
长时序不稳定性（Long-Horizon Instability）复杂任务往往需要十几步甚至几十步连续操作。随着交互步骤增加，模型容易出现决策漂移——逐步偏离原始目标，再加上上下文窗口长度限制，历史信息被稀释，最终导致任务失败。这类问题在流程自动化、跨页操作、后台配置等场景中尤为突出。

面向上述痛点，业界亟需一种不依赖大量微调、能适配异构站点、长流程执行稳定的轻量化工业级方案。ColorBrowserAgent正是在这一背景下提出，旨在让网页智能体从实验室原型走向可靠的产业部署。

二、核心方法与框架：ColorBrowserAgent 双机制协同设计

ColorBrowserAgent定位为Complex Long-Horizon Browser Agent，是一种免训练、知识可进化的网页智能体框架。它不把领域知识“塞进模型参数”，而是通过外部知识库与记忆管理机制，实现稳定、通用、低成本的网页自动化。整体架构由两大协同机制、三大核心组件构成。

1. 两大核心解决机制

(1) 人在回路知识自适应（Human-in-the-Loop Knowledge Adaptation）

核心思路：不微调模型，只沉淀知识。在任务失败时由专家给出轻量提示，将站点级业务逻辑提炼成可复用规则，存入外部自适应知识库AKB。
知识使用：执行时通过URL模式匹配、关键词检索、视觉语义向量检索三级召回，动态注入约束指导行为。
优势：一次提炼、多处复用；界面更新只需更新规则，无需重训模型。

(2) 知识对齐渐进式摘要（Knowledge-Aligned Progressive Summarization）

核心思路：解决长时序上下文溢出与决策漂移。对交互历史做分层压缩，只保留当前子目标细节，历史步骤压缩为高层语义摘要。
知识对齐：在压缩同时校验执行是否符合专家知识，一旦偏离立即给出修正引导，保持目标一致性。
优势：内存占用稳定在近似常数级，超长步骤不溢出、不跑偏、不幻觉。

2. 三大核心组件

Adaptor（适配器）：负责离线从专家反馈中构建、更新知识库；在线根据当前页面检索相关知识。
Summarizer（摘要器）：负责渐进式压缩交互历史，维护结构化信念状态，确保与知识约束对齐。
Operator（执行器）：基于当前页面观察、压缩记忆与知识约束，输出可执行浏览器动作（点击/输入/滚动等）。

3. 双循环运行流程

离线知识适配链路：执行失败→专家分析→提炼站点逻辑→存入AKB→持续进化。
在线执行链路：页面观察→知识检索→记忆压缩→动作执行→稳定完成长流程任务。

三、实验与结果：基准测试SOTA，工业场景验证有效

为全面验证ColorBrowserAgent的技术有效性与工程可靠性，研究团队在国际通用的权威评测基准上开展多维度、系统性的定量实验与消融分析，并将方案部署于真实商用系统中，完成工业级场景的实证检验。

1. 公开数据集表现

(1) WebArena 基准

覆盖购物、GitLab、Reddit、后台管理、地图等多领域共812个长时序任务。
ColorBrowserAgent整体成功率71.2%，显著超越此前最优基线，相对提升15.38%，在购物、管理后台等复杂长流程场景提升尤为明显。

(2) WebChoreArena 零样本迁移

更复杂、更繁琐的网页任务集，采用严格零样本设置（仅用WebArena知识，不接触目标任务）。
整体成功率47.4%，超越最优基线52.41%，验证知识可跨域、跨任务泛化。

(3) 消融实验

移除Summarizer：性能明显下降，证明长时序记忆对齐关键。
移除Adaptor：性能下降更显著，证明外部知识是应对异构站点的核心。
完整架构相对基线提升超10%，设计稳健有效。

2. 工业级落地验证

该方案已部署于商用智能出行规划系统，作为多智能体架构中的网页执行单元，自动完成跨网站信息查询、价格获取、流程校验等操作。

线上A/B测试：用户满意度相对提升19.3%。
在已沉淀知识的垂直领域，任务成功率超过95%。
可应对网页动态更新与临时弹窗，在真实多变环境中保持高鲁棒性。

四、技术价值与产业启示

ColorBrowserAgent为工业级网页自动化提供了一条轻量化、可规模化的新思路：

知识与模型解耦：不依赖大量数据与重微调，降低企业落地门槛。
面向长时序稳定：让智能体真正胜任多步、跨页、高复杂度业务流程。
人在回路高效迭代：少量专家反馈即可快速适配新站点，维护成本低。

本次论文入选ACL 2026 Industry Track并获Oral报告，是团队在多模态智能体、人机协同、产业级AI系统方向的又一重要成果。未来，团队将继续围绕真实场景痛点，持续推进更可靠、更高效、更普惠的AI智能体技术，让AI真正走进日常使用与产业实践。