告别代码重构焦虑：阿里开源 Page Agent 让大模型读懂网页底层逻辑

作者：袖梨 2026-07-05

在浏览器自动化开发的漫长道路上，开发者们似乎总在重复“造轮子”。无论是通过复杂的屏幕截图去“看”网页，还是依赖底层协议去“强行驱动”，往往由于网页结构的动态变化而显得力不从心。近日，阿里巴巴开源了一款名为 Page Agent 的 JavaScript 客户端库，为这一行业难题提供了一种全新的破局思路:它不再试图从外部暴力破解网页，而是让大模型直接“读懂”网页内部的 DOM 结构。

Page Agent 的核心技术革新在于“DOM 脱水”。传统方案为了让 AI 识别页面，往往需要将网页截屏并进行多模态分析，这不仅开销巨大，还极易丢失关键交互信息。Page Agent 另辟蹊径，它直接运行在网页内部，将冗杂的 DOM 树压缩成轻量化的“FlatDomTree”纯文本映射。这一过程就像是为 AI 绘制了一份高精度的交互地图，模型无需处理复杂的视觉渲染，仅通过这份精简的结构映射，就能精准完成按钮点击、表单输入等高难度操作。