LLM Agent过度调用偏差：When2Call基准揭示内在偏移

作者：袖梨 2026-05-31

arXiv 日前公开一项关于 LLM Agent 行为偏差的研究，论文《To Call or Not to Call: Diagnosing Intrinsic Over-Calling Bias in LLM Agents》在 When2Call 基准上发现：从三个家族抽取的六个模型，整体准确率仅落在 55%-70% 之间。研究者指出，这些 Agent 存在一种「过度调用」倾向——即便场景根本不需要工具，模型仍倾向于执行调用动作。

具体来看，模型在需要调用工具时表现相当不错（call accuracy 很高），但在不该调用时却频频失手（no-call accuracy 偏低）。这挺有意思的，对吧？明明是同一套决策逻辑，为何碰上「非调用」场景就失灵？论文将此现象归因于一种「内在偏移假说」（Intrinsic Bias Hypothesis, IBH）：调用/不调用的决策映射中携带着一个与输入激活无关的偏移量，导致即便两边激活水平持平，模型也更偏向「调用」那一边。

为了验证这个假说，研究者祭出了稀疏自编码器（Sparse Autoencoders, SAEs）。通过训练 SAEs 从模型内部表示中恢复出与调用行为相关的特征基，他们发现这些特征确实存在不对称的激活倾向。没错，模型并不是在「理性判断」要不要调用，而是内部本身就自带一个「先调用再说」的偏置。

那这个偏差到底从何而来呢？论文认为可能与训练数据中工具调用样例的分布有关——模型见多了「调用→得到反馈」的正向回路，却没在「不调用→正确决策」这件事上获得足够多的强化。于是，一个本应是平衡的决策天平，硬生生被压向了「调用」一侧。

说真的，这个发现对实际部署 LLM Agent 的应用挺关键。如果 Agent 动不动就主动调用外部工具，不仅浪费计算资源，还可能引发错误响应。研究者建议后续可以在训练阶段引入针对「不调用」场景的对抗样本，或者通过微调策略来抵消这种内在偏移。

When2Call 基准的提出为诊断此类偏差提供了量化工具。六个模型在同一个基准上露出相似的行为模式——这本身就说明问题不是个例，而是 LLM Agent 的一种系统性问题。模型们真的更爱调用工具吗？从 IBH 假说看，答案是肯定的。

LLM Agent过度调用偏差：When2Call基准揭示内在偏移

相关文章

精彩推荐