UniPat AI 发布 SaaS-Bench 评测,Claude 等主流大模型在真实办公任务中完全通过率最高仅 3.8%。这一结果直接撕碎了计算机使用(Computer-Use)的“全自动办公”幻想——原来 AI 全自动办公远未落地,目前只是纸上谈兵。
SaaS-Bench 到底测了什么?它并非像传统基准测试那样只考核模型问答或简单指令,而是专门针对真实 SaaS 办公场景设计了多步骤任务链。模型必须自主操作界面、填写表单、跨平台沟通,全程不能被人类打断。结果令ren大跌眼镜:Claude 的通过率不到 4%,市面上其他大模型的表现也基本在同一水平线。咱们以为 AI 已经能当助理了,其实它还停留在“认得按钮但按不准”的阶段。

你真的相信大模型能替你上班吗?看看这套测试里的典型任务——从 CRM 系统导出客户名单,再到 Slack 上发周报,中间涉及登录验证、字段筛选、复制粘贴。Claude 往往在第一步“找到导出按钮”就卡壳了,它更像一个对着键盘发呆的新手,挺无助的。可以说,现在的“全自动办公”更像是宣传层面的漂亮话。
这组数据其实揭示了行业长期隐藏的问题:模型在封闭的聊天框里很聪明,一旦进入开放的浏览器环境,面对格式不一的网页和动态加载的控件,其规划与执行能力立刻崩盘。3.8% 的通过率意味着什么?这意味着每完成 100 个办公任务,有 96 个半途而废——这怎么行?企业一旦部署这种模型,效率恐怕不升反降。

SaaS-Bench 的价值在于它撕掉了遮羞布。之前各厂商争相推出 Computer-Use 功能时,都强调“模型会自己点击、浏览”,却没人公开失败率。现在 UniPat AI 的评测给出了真实答案:远未成熟。这对行业其实是个好消息——它逼着开发者放弃幻想,回头打磨基础能力,而不是急着宣传“即将实现全自动办公”。
从目前来看,大模型进办公室干活?确实还早。那面对这个不到 4% 的通过率,企业到底该继续投钱还是先观望呢?答案或许很明确:别急着让 AI 替你上班,它连“导出表格”都没学明白呢。