状态跟踪任务扩展推理失效，工具委托成必要

作者：袖梨 2026-06-03

状态跟踪任务扩展推理失效，工具委托成必要

一份来自arXiv的预印本研究（编号2606.00376）明确指出，当AI模型在确定性状态跟踪任务上进行扩展链式思维推理时，性能反而会下降。这可不是因为模型有偏好偏差，而是其内部信息处理机制存在着根本性局限。

核心发现：注意力瓶颈导致推理越长越乱

研究者提出了一个“注意力瓶颈定理”。说白了，当前主流的仅解码器注意力模型在处理状态跟踪时，其能力受限于一个明确的数学上界——O(H · log(L/H) · √d_h)。这就像什么呢？咱们让一个记忆力有限的人去盯着一堆不断变化的开关状态，他盯得越久、想得越复杂，反而越容易搞混。模型在扩展推理过程中，其用于跟踪状态的“内部缓存”被复杂推理给挤占了，导致追踪失效。

错误非线形增长，精度崩塌式下降

更棘手的问题是，论文还建立了一个依赖于上下文长度的误差模型，指出模型在状态追踪上的准确率会呈现“超级指数级的衰减”。这意味着推理链条每多一步，犯错的风险不是线性增加，而是爆炸式地往上翻。你还指望模型靠“想更多”来解决问题吗？结果适得其反。

新指标区分“能力”与“偏好”

为了准确衡量这种失效，研究者引入了“状态空间Jaccard度量”来区分模型到底是真的没能力跟踪，还是仅仅是输出偏好出了问题。这个指标能更精确地诊断模型的真正短板。