大推理模型过度思考：正确后继续推理反致答案偏离

作者：袖梨 2026-06-05

日前发布的一篇预印本论文对大推理模型（Large Reasoning Models，简称LRMs）的“过度思考”现象提出了尖锐质疑。这类模型通过增加推理步骤来提升性能，但研究人员发现：当模型已经得出正确答案后，继续推理非但不能优化结果，反而会导致答案偏离正确方向。这一发现直接挑战了“推理越长越准确”的行业共识。

正确之后，推理成了“纠偏”还是“带偏”？

大推理模型的核心卖点就是“多想想”。它们在回答前会生成显式的中间推理轨迹，相当于在脑子里多走几步，确实能解决很多复杂问题。但来自arXiv 2606.02835号论文的研究团队却问了一个很扎心的问题：模型在达到正确答案之后，继续推理到底是在精打细磨，还是在自找麻烦？为了回答这个问题，他们引入了一种前缀级轨迹评估协议，专门盯着模型“正确后的推理过程”来分析。

实验发现：越“思考”越离谱

研究结果挺让人意外的。模型在拿到正确答案后，如果继续推理，很多时候会开始自我怀疑，把原本对的思路拆了重来，最后改出一个错误答案。这就像考试时明明选对了，结果交卷前十分钟疯狂纠结，硬把答案改成错的——这不是聪明，是添乱。文章指出，这种“有害过度思考”并非个例，而是大推理模型在长链条推理中的系统性问题。

为什么模型会“想太多”？

其实咱们可以打一个比方。大推理模型就像一位过于谨慎的侦探，已经找到了真凶，却总觉得还有遗漏，非要再翻一遍所有卷宗，结果把自己绕晕，转而冤枉了无辜的人。论文通过轨迹级别的分析发现，模型在运算过程中缺乏“适可而止”的机制。它没有内在的“我答对了，停”的信号，反而被训练得倾向于不断验证和修正，哪怕这种修正是多余的、有害的。

这对实际应用意味着什么？