EAPO：让智能体学会何时不使用工具，缓解工具滥用

作者：袖梨 2026-06-03

SAM Altman 领导的 OpenAI 还没动手，但学术界已经放出一个挺有意思的新框架——EAPO，全称 Efficient Agentic Policy Optimization。这篇挂载在 arXiv 上的论文开篇就点出了一个现实问题：强化学习训练出来的智能体，太爱用工具了。

智能体为何会“手痒”？

说白了，就是模型养成了“遇事不决先调工具”的坏毛病。哪怕用户问一个它靠内部推理就能回答的问题，它也要去调用一下计算器、搜索API或者外部数据库。这种行为在学术界被称为“工具滥用”（tool abuse）。传统做法是什么？搞一刀切：统一给工具调用加惩罚，或者硬性限制调用次数。这样确实能降低工具频率，但也会把那些有价值、能帮助探索的工具使用给扼杀掉。

EAPO 的核心逻辑：学会说不

那 EAPO 凭什么说它更好呢？它的思路其实更聪明。它让智能体自己去判断“该不该用”，而不是由人类拍脑袋定死规则。具体办法是：在每一轮训练中，故意加入一些不使用工具的自由轨迹（tool-free trajectories）。这些轨迹就像样板，告诉智能体“你看，这种问题你本可以自己搞定”。然后，再配合一个叫“难度感知奖励塑造”的机制——调用不必要的工具会被重重扣分，但如果真的需要工具来解题，那用了反而加分。这一退一进，模型自然就学会了取舍。

关键突破在哪里？

不再用死板的调用次数上限，而是用得分引导行为。
每轮都提供“零工具”范本，让智能体知道底线在哪。
奖励值随问题难度动态调整，避免了低难度问题被工具“套牢”。

这就好比训练一个实习生，不是直接没收他的计算器，而是告诉他：“1+1 就别按计算器了，但算年终奖的时候，按一下没问题。”

这方法其实挺颠覆的

目前绝大多数智能体都是在“用工具”这条路上狂奔，却很少有人教它“什么时候不用”。但现实场景里，资源是有限的，API 调用是要花钱的，无意义的工具调用不仅增加延迟，还给云端带来额外账单。EAPO 最大的贡献，就是把“减少冗余调用”这个目标，直接嵌入了强化学习的奖励函数里，而不是事后靠硬规则去裁剪。

对行业有什么直接意义？

现在各大公司都在推 Agent 类产品，但用户反馈最多的痛点之一就是“明明直接写一句话就能出结果，它非要转两圈去查资料”。这背后就是工具滥用。如果能用 EAPO 这类方法驯服智能体，那未来咱们用的 AI 助手会变得更“干净”——没错，该快的时候快，该省的时候省，甚至用户都意识不到它刚才在脑子里已经做过一次快速推理了。

当然，论文目前还处于 arXiv 预印本阶段，尚未披露在超大规模模型上的实测数据。但思路已经足够清晰：让智能体学会克制，或许比让它学会更多工具更重要。至于这套框架能不能真的落地，别急，咱们拭目以待后续的测试结果便是。