在浏览器自动化开发的漫长道路上,开发者们似乎总在重复“造轮子”。无论是通过复杂的屏幕截图去“看”网页,还是依赖底层协议去“强行驱动”,往往由于网页结构的动态变化而显得力不从心。近日,阿里巴巴开源了一款名为 Page Agent 的 JavaScript 客户端库,为这一行业难题提供了一种全新的破局思路:它不再试图从外部暴力破解网页,而是让大模型直接“读懂”网页内部的 DOM 结构。
Page Agent 的核心技术革新在于“DOM 脱水”。传统方案为了让 AI 识别页面,往往需要将网页截屏并进行多模态分析,这不仅开销巨大,还极易丢失关键交互信息。Page Agent 另辟蹊径,它直接运行在网页内部,将冗杂的 DOM 树压缩成轻量化的“FlatDomTree”纯文本映射。这一过程就像是为 AI 绘制了一份高精度的交互地图,模型无需处理复杂的视觉渲染,仅通过这份精简的结构映射,就能精准完成按钮点击、表单输入等高难度操作。

目前,Page Agent 已正式在 GitHub 以 MIT 协议开源。随着这一工具的发布,开发者们有望彻底告别昂贵的多模态算力消耗,以更务实的工程手段,为应用植入真正具备“网页感知力”的智能体,这也预示着 AI 网页自动化技术正在进入一个轻量化、普及化的新阶段。