LLM Agent过度调用偏差:When2Call基准揭示内在偏移

作者:袖梨 2026-05-31

arXiv 日前公开一项关于 LLM Agent 行为偏差的研究,论文《To Call or Not to Call: Diagnosing Intrinsic Over-Calling Bias in LLM Agents》在 When2Call 基准上发现:从三个家族抽取的六个模型,整体准确率仅落在 55%-70% 之间。研究者指出,这些 Agent 存在一种「过度调用」倾向——即便场景根本不需要工具,模型仍倾向于执行调用动作。

具体来看,模型在需要调用工具时表现相当不错(call accuracy 很高),但在不该调用时却频频失手(no-call accuracy 偏低)。这挺有意思的,对吧?明明是同一套决策逻辑,为何碰上「非调用」场景就失灵?论文将此现象归因于一种「内在偏移假说」(Intrinsic Bias Hypothesis, IBH):调用/不调用的决策映射中携带着一个与输入激活无关的偏移量,导致即便两边激活水平持平,模型也更偏向「调用」那一边。

为了验证这个假说,研究者祭出了稀疏自编码器(Sparse Autoencoders, SAEs)。通过训练 SAEs 从模型内部表示中恢复出与调用行为相关的特征基,他们发现这些特征确实存在不对称的激活倾向。没错,模型并不是在「理性判断」要不要调用,而是内部本身就自带一个「先调用再说」的偏置。

那这个偏差到底从何而来呢?论文认为可能与训练数据中工具调用样例的分布有关——模型见多了「调用→得到反馈」的正向回路,却没在「不调用→正确决策」这件事上获得足够多的强化。于是,一个本应是平衡的决策天平,硬生生被压向了「调用」一侧。

说真的,这个发现对实际部署 LLM Agent 的应用挺关键。如果 Agent 动不动就主动调用外部工具,不仅浪费计算资源,还可能引发错误响应。研究者建议后续可以在训练阶段引入针对「不调用」场景的对抗样本,或者通过微调策略来抵消这种内在偏移。

When2Call 基准的提出为诊断此类偏差提供了量化工具。六个模型在同一个基准上露出相似的行为模式——这本身就说明问题不是个例,而是 LLM Agent 的一种系统性问题。模型们真的更爱调用工具吗?从 IBH 假说看,答案是肯定的。

相关文章

精彩推荐