When2Tool基准揭示LLM代理不必要调用工具

作者：袖梨 2026-05-31

arXiv 日前发布的 When2Tool 基准研究揭示，LLM 代理在无需外部工具时仍会频繁调用工具，每个不必要调用都在浪费 API 费用与延迟。该基准由 arXiv:2605.09252v2 提出，涵盖 18 个环境，包括 15 个单跳与 3 个多跳任务，系统评估工具调用的真正必要性。

基准将工具必要性分为三类：计算规模、知识边界、执行可靠性。计算规模指需要大量数学运算或数据处理的任务；知识边界指模型训练数据外的实时信息；执行可靠性则涉及需要高精度的操作。每个类别设有控制难度，创建清晰的决策边界，区分工具必须与不必须的场景。这就意味着代理其实需要根据实际情况判断，而不是盲目调用。

研究团队指出，现有基准缺乏对工具调用必要性的系统性分析。每个不必要调用不仅浪费 API 费用，还增加系统延迟。当代理能直接回答时，调用工具真的划算吗？18 个环境的设计提供了多维度评估，单跳任务测试简单场景，多跳任务更复杂。基准的难度控制让研究者能看出代理在何时何地过度依赖工具。

这确实挺有意思的！代理已经知道何时该调用工具，只是缺乏一个系统方法来衡量。When2Tool 基准正好填补了这个空白。基准的难度划分让测试结果更有参考价值，代理在简单场景下也会不必要调用工具，这说明问题普遍存在。

对于开发者而言，这个基准提供了实用参考。通过评估代理的工具调用行为，可以优化决策策略，减少不必要的 API 消耗。基准的三种必要性分类也为理解代理行为提供了框架。

说到底，工具调用本该服务于任务需求。When2Tool 基准让咱们看到，代理其实已经具备判断能力，只是需要更精细的引导。未来基于这类基准的优化可能会显著降低运营成本。

相关文章