When2Tool基准揭示LLM代理不必要调用工具

作者:袖梨 2026-05-31

arXiv 日前发布的 When2Tool 基准研究揭示,LLM 代理在无需外部工具时仍会频繁调用工具,每个不必要调用都在浪费 API 费用与延迟。该基准由 arXiv:2605.09252v2 提出,涵盖 18 个环境,包括 15 个单跳与 3 个多跳任务,系统评估工具调用的真正必要性。

基准将工具必要性分为三类:计算规模、知识边界、执行可靠性。计算规模指需要大量数学运算或数据处理的任务;知识边界指模型训练数据外的实时信息;执行可靠性则涉及需要高精度的操作。每个类别设有控制难度,创建清晰的决策边界,区分工具必须与不必须的场景。这就意味着代理其实需要根据实际情况判断,而不是盲目调用。

研究团队指出,现有基准缺乏对工具调用必要性的系统性分析。每个不必要调用不仅浪费 API 费用,还增加系统延迟。当代理能直接回答时,调用工具真的划算吗?18 个环境的设计提供了多维度评估,单跳任务测试简单场景,多跳任务更复杂。基准的难度控制让研究者能看出代理在何时何地过度依赖工具。

这确实挺有意思的!代理已经知道何时该调用工具,只是缺乏一个系统方法来衡量。When2Tool 基准正好填补了这个空白。基准的难度划分让测试结果更有参考价值,代理在简单场景下也会不必要调用工具,这说明问题普遍存在。

对于开发者而言,这个基准提供了实用参考。通过评估代理的工具调用行为,可以优化决策策略,减少不必要的 API 消耗。基准的三种必要性分类也为理解代理行为提供了框架。

说到底,工具调用本该服务于任务需求。When2Tool 基准让咱们看到,代理其实已经具备判断能力,只是需要更精细的引导。未来基于这类基准的优化可能会显著降低运营成本。

相关文章

精彩推荐