BrowserSkill让AI直接操作你已登录的浏览器,解决登录态共享与自动化干扰的痛点。核心内容:1. 传统AI浏览器自动化方案的三大翻车场景2. BrowserSkill的本地桥接架构与隐私安全特性3. 安装步骤与多框架兼容的实测体验
本文是真上手装了、跑了、读了源码、又跟另外四款方案横评之后写的。优缺点都给硬的,不写软文。
用 Cursor / Claude Code / Codex 写代码,顺手想让 AI 去浏览器里查个内网文档、在后台系统提个单、验收一下刚写的页面——结果常见三种翻车:
我自己最烦的是第 3 点:用 Playwright 每次都要等它冷启一个全新的 Chromium,而且那是另一个浏览器实例,跟我日常浏览器各玩各的——我正测着别的,它一跑可能就把我的环境搅了。
BrowserSkill 想解决的就是这对矛盾:AI 想用浏览器,但它不会登录;它会自动化,但不能跟你共存。
腾讯 2026 年 6 月开源,github.com/Tencent/BrowserSkill[1],MIT 协议,可商用可二开。
一句话:做一个本地桥接层,让 AI Agent 通过 CLI 命令控制你浏览器里的一个专属窗口,共享你的登录态,但不打扰你正常用浏览器。
BrowserSkill 演示:左边终端里 Agent 跑 bsk 命令,右边橙色高亮的 Agent Window 在浏览网页上图是官方仓库的演示(已转 GIF):左边是 Agent 在终端里发 bsk 命令,右边橙色描边的就是 Agent Window——它在动,但不抢你正在用的窗口。
BrowserSkill 架构:AI Agent → bsk CLI → bsk Daemon → 浏览器扩展 → Agent Window,全链路走 127.0.0.1 不外联两个关键事实:
install.sh 和扩展隐私声明,确认只走 127.0.0.1,无 telemetry、无凭证上报。bsk 就是个普通 shell 命令,跟 curl 没区别。所以它天然 agent 中立——实测 bsk install-skill --list 能自动检测出本机的 Claude Code、Codex、OpenClaw、CodeBuddy、WorkBuddy 等多个框架,一键写入各自的 skills 目录。第一步:装 CLI
# macOS / Linux
curl -fsSL https://raw.githubusercontent.com/Tencent/BrowserSkill/main/install.sh | sh
# Windows PowerShell
irm https://raw.githubusercontent.com/Tencent/BrowserSkill/main/install.ps1 | iex
bsk --version # 验证它会把 bsk 装进 ~/.local/bin 并写好 PATH,无 sudo、无 telemetry(脚本我逐行读过)。
第二步:装浏览器扩展
到 Chrome Web Store 搜 BrowserSkill 装上。⚠️ 装进你平时用的、已经登录了目标站点的那个浏览器——这是它复用登录态的前提。
第三步:配置 Agent
bsk install-skill # 空格选框架,回车自动配置实际用起来的命令(我实测跑通的一套):
bsk browsers # 看连了哪些浏览器,拿 instance id
bsk session start --browser # 在指定浏览器开一个会话
bsk navigate --session https://example.com
bsk snapshot --session # 输出带 @e1/@e2 编号的无障碍树
bsk click --session @e12 # 按编号点
bsk fill --session @e8 "hello"
bsk get-html --session # snapshot 不够时看原始 DOM
bsk screenshot --session # 最后才用截图
bsk request-help --session # 遇验证码/登录,暂停交回给你
bsk session stop # 用完必须关,否则留下 Agent Window实测最实用的是 snapshot:它把页面可交互元素整理成带编号的树,AI 直接 click @e12,比把整个 DOM 或截图丢给模型又稳又省 token。
实测一个细节:在一个登录态站点上,普通隔离浏览器(如全新 Playwright 实例)打开会被踢回登录页;而 BrowserSkill 用你已登录的浏览器打开,直接就是登录后的页面。这就是它最大的卖点,确实成立。
| BrowserSkill | Playwright(MCP) | 官方 Claude in Chrome | OpenClaw Relay | BrowserAct | |
|---|---|---|---|---|---|
| 用真实登录态 | ✅ | ❌ 全新实例无登录 | ✅ | ✅ | ✅(chrome 模式) |
| 桥接机制 | daemon+WS+CDP | 直接驱动新实例 | native messaging | CDP relay | CLI+多模式 |
| 读 console/network | ❌ | ✅ | ✅✅(主打调试) | ✅(CDP) | — |
| 截图 / GIF 录制 | 仅单张 PNG,无 GIF | 截图+视频 | 截图+会话录制为 GIF | CDP 可截 | 截图 |
| 是否要你浏览器开着 | 要(用你现有浏览器) | 否(自己冷启) | 要 | 要 | 视模式 |
| 抢不抢你窗口 | 不抢(独立 Agent Window) | 会抢/会冷启 | 开新标签 | 点哪控哪 | 隔离 session |
| 扩展权限洁净度 | 中(debugger+) | 不需扩展 | 高(站点白名单) | 最高(debugger+仅localhost) | 有确认门控 |
| 是否外联上报 | 否(纯本地) | 否 | 会上报 URL 做策略 | 否 | — |
| agent 中立 | ✅ 任意 shell agent | ✅(MCP) | ❌ 仅 Claude | ❌ 仅 OpenClaw | ✅ |
| 鉴权要求 | 任意(authtoken/第三方API 都行) | 任意 | 必须官方账号登录 | 仅 OpenClaw 体系 | 任意 |
| 反爬/隔离模式 | 单一 | 一般 | — | — | ✅✅ 三模式隔离 |
| 开源 | ✅ MIT | ✅ | ❌ | 可读 | — |
一句话定位:调试看官方,权限最克制看 OpenClaw,多账号隔离/反爬看 BrowserAct,要 CI/无人值守看 Playwright,登录态+agent 中立+纯本地看 BrowserSkill。
把视野放大,2026 年这波"给 Agent 装浏览器"的项目其实分成两个阵营,选型先看你要哪个:
两大阵营:阵营 A 复用你已登录的真实浏览器(BrowserSkill/官方 Claude in Chrome/OpenClaw 等),阵营 B 是 Agent 优化的全新浏览器(Playwright MCP/Vercel agent-browser 等);BrowserSkill 占位 agent 中立+纯本地阵营 A:复用你已登录的真实浏览器(适合内网/SaaS 后台、要登录态、人机协作)
chrome 模式、Browserbase 的本地模式阵营 B:Agent 优化的全新浏览器(适合无人值守、批量抓取、CI;但默认无登录态)
agent-browser.dev,上线一周冲到 9K star,npm i -g 自带 Chromium,实测首次成功率 ~95%,号称优于 Playwright MCP / Chrome DevTools MCP)stealth 模式(指纹浏览器+住宅 IP,过 Cloudflare/DataDome/reCAPTCHA)、Browserbase 的云端隐身模式BrowserSkill 是阵营 A 里"agent 中立 + 纯本地"那一格——这是它最清晰的占位。
值得单独点出来:BrowserSkill 的 snapshot @eN、Vercel agent-browser 的 Refs、BrowserAct 的 state 编号树,三家不约而同走到了同一个设计——把页面可交互元素整理成带编号的快照,让 Agent 直接 click @e12,而不是去猜脆弱的 CSS/XPath。这套做法更省 token、步骤更少、确定性更高(agent-browser 实测首次成功率 ~95%,明显高于传统 Playwright MCP)。所以你看 BrowserSkill 把 snapshot 列为第一选择、截图垫底,不是随便排的,是这一代 Agent 浏览器工具的共识。
127.0.0.1,不像官方 Claude in Chrome 会把你访问的 URL 上报服务器做策略校验——内网地址友好,这点对在内网环境干活的人很关键。bsk 就是普通命令,零适配。borrow。相比 Playwright 每次冷启新实例还跟你抢焦点,体验上确实清爽。request-help 暂停/恢复,验证码、二次确认、删除弹窗交回给你处理完再继续,适合"该自动的自动、该人来的叫人"的半自动流程。install.sh / manifest / SKILL.md 我都读过,无 telemetry、无凭证访问,能自己核。bsk tab borrow 直接借用你当前正开着的标签页来看),对"人在电脑前随手让 AI 看个页面"的场景反而是优点:没有冷启动、就是你那个真实会话。真正的短板在于连接不够稳:实测 service worker 闲置后、或浏览器重启后,instance id 会变、连接会掉(这次 Edge 实例 id 变过、Chrome 掉过线,得重跑 bsk browsers 重查)。所以没人盯着的长时间任务 / CI 流水线用它要额外做保活,不如 Playwright 省心;而你人在跟前时,掉了重连一下没什么影响。evaluate 绕。这是相对官方 Claude in Chrome 的硬伤——后者专门主打读 console 调试。screenshot(单张 PNG,可裁剪到某元素),没有 gif/录屏/会话录制。官方 Claude in Chrome 支持"会话录制为 GIF"用来记录或分享操作过程,BrowserSkill 没有,要演示流程得自己外接录屏工具。「读不了 console/network」这条我没忍住,动手给扩展补了一版——用 CDP 的 Log/Network/Runtime 域旁路抓取,能拿到 evaluate 绕法拿不到的引擎级报错和真实状态码。已 fork 一份(含实现)并给上游提了 issue:
实现就是照搬它自己监听对话框事件的范式,多开两个 CDP 域 + 把事件 buffer 起来——基础设施它本来就有,所以这缺口补起来很轻。
debugger + ,技术上能读任意站点的全部内容和 cookie;SKILL.md 里写的"不要提取凭证/cookie"只是提示词级别的约束,没有技术强制。对比之下 OpenClaw 的 manifest 只要 debugger+localhost(CDP 挂上标签本就够用,不必 ),更克制。--browser 指定,体验还略糙。stop,否则堆 Agent Window;写自动化脚本时容易忘。适合:
不适合:
会让你不舒服,可以看 OpenClaw。BrowserSkill 最聪明的不是"能打开网页",而是把 登录态共享 + 与人共存 + 纯本地 + agent 中立 这四件事一起做对了。它和 Playwright 不是替代关系,是互补:
要登录态、要跟人共存、不要冷启 → BrowserSkill; 要 CI、要无人值守、要读 console、要干净隔离 → Playwright。
如果你已经在让 AI 干网页活儿,又被"登录态"和"抢窗口"折磨过,它值得装来试。但别把它当成全自动魔法——它需要你的浏览器开着,它读不了 console,它的权限边界靠自觉。认清这三条,再决定用在哪。
[1] https://github.com/Tencent/BrowserSkill
登录查看剩余 70% 内容