SAM Altman 领导的 OpenAI 还没动手,但学术界已经放出一个挺有意思的新框架——EAPO,全称 Efficient Agentic Policy Optimization。这篇挂载在 arXiv 上的论文开篇就点出了一个现实问题:强化学习训练出来的智能体,太爱用工具了。
智能体为何会“手痒”?

说白了,就是模型养成了“遇事不决先调工具”的坏毛病。哪怕用户问一个它靠内部推理就能回答的问题,它也要去调用一下计算器、搜索API或者外部数据库。这种行为在学术界被称为“工具滥用”(tool abuse)。传统做法是什么?搞一刀切:统一给工具调用加惩罚,或者硬性限制调用次数。这样确实能降低工具频率,但也会把那些有价值、能帮助探索的工具使用给扼杀掉。
EAPO 的核心逻辑:学会说不
那 EAPO 凭什么说它更好呢?它的思路其实更聪明。它让智能体自己去判断“该不该用”,而不是由人类拍脑袋定死规则。具体办法是:在每一轮训练中,故意加入一些不使用工具的自由轨迹(tool-free trajectories)。这些轨迹就像样板,告诉智能体“你看,这种问题你本可以自己搞定”。然后,再配合一个叫“难度感知奖励塑造”的机制——调用不必要的工具会被重重扣分,但如果真的需要工具来解题,那用了反而加分。这一退一进,模型自然就学会了取舍。
关键突破在哪里?
这就好比训练一个实习生,不是直接没收他的计算器,而是告诉他:“1+1 就别按计算器了,但算年终奖的时候,按一下没问题。”
这方法其实挺颠覆的
目前绝大多数智能体都是在“用工具”这条路上狂奔,却很少有人教它“什么时候不用”。但现实场景里,资源是有限的,API 调用是要花钱的,无意义的工具调用不仅增加延迟,还给云端带来额外账单。EAPO 最大的贡献,就是把“减少冗余调用”这个目标,直接嵌入了强化学习的奖励函数里,而不是事后靠硬规则去裁剪。
对行业有什么直接意义?
现在各大公司都在推 Agent 类产品,但用户反馈最多的痛点之一就是“明明直接写一句话就能出结果,它非要转两圈去查资料”。这背后就是工具滥用。如果能用 EAPO 这类方法驯服智能体,那未来咱们用的 AI 助手会变得更“干净”——没错,该快的时候快,该省的时候省,甚至用户都意识不到它刚才在脑子里已经做过一次快速推理了。
当然,论文目前还处于 arXiv 预印本阶段,尚未披露在超大规模模型上的实测数据。但思路已经足够清晰:让智能体学会克制,或许比让它学会更多工具更重要。至于这套框架能不能真的落地,别急,咱们拭目以待后续的测试结果便是。