SaaS-Bench实测：Claude等大模型全自动办公通过率不足4%

作者：袖梨 2026-05-30

UniPat AI 发布 SaaS-Bench 评测，Claude 等主流大模型在真实办公任务中完全通过率最高仅 3.8%。这一结果直接撕碎了计算机使用（Computer-Use）的“全自动办公”幻想——原来 AI 全自动办公远未落地，目前只是纸上谈兵。

SaaS-Bench 到底测了什么？它并非像传统基准测试那样只考核模型问答或简单指令，而是专门针对真实 SaaS 办公场景设计了多步骤任务链。模型必须自主操作界面、填写表单、跨平台沟通，全程不能被人类打断。结果令ren大跌眼镜：Claude 的通过率不到 4%，市面上其他大模型的表现也基本在同一水平线。咱们以为 AI 已经能当助理了，其实它还停留在“认得按钮但按不准”的阶段。

你真的相信大模型能替你上班吗？看看这套测试里的典型任务——从 CRM 系统导出客户名单，再到 Slack 上发周报，中间涉及登录验证、字段筛选、复制粘贴。Claude 往往在第一步“找到导出按钮”就卡壳了，它更像一个对着键盘发呆的新手，挺无助的。可以说，现在的“全自动办公”更像是宣传层面的漂亮话。

这组数据其实揭示了行业长期隐藏的问题：模型在封闭的聊天框里很聪明，一旦进入开放的浏览器环境，面对格式不一的网页和动态加载的控件，其规划与执行能力立刻崩盘。3.8% 的通过率意味着什么？这意味着每完成 100 个办公任务，有 96 个半途而废——这怎么行？企业一旦部署这种模型，效率恐怕不升反降。

SaaS-Bench 的价值在于它撕掉了遮羞布。之前各厂商争相推出 Computer-Use 功能时，都强调“模型会自己点击、浏览”，却没人公开失败率。现在 UniPat AI 的评测给出了真实答案：远未成熟。这对行业其实是个好消息——它逼着开发者放弃幻想，回头打磨基础能力，而不是急着宣传“即将实现全自动办公”。

从目前来看，大模型进办公室干活？确实还早。那面对这个不到 4% 的通过率，企业到底该继续投钱还是先观望呢？答案或许很明确：别急着让 AI 替你上班，它连“导出表格”都没学明白呢。