日前发布的一篇预印本论文对大推理模型(Large Reasoning Models,简称LRMs)的“过度思考”现象提出了尖锐质疑。这类模型通过增加推理步骤来提升性能,但研究人员发现:当模型已经得出正确答案后,继续推理非但不能优化结果,反而会导致答案偏离正确方向。这一发现直接挑战了“推理越长越准确”的行业共识。
正确之后,推理成了“纠偏”还是“带偏”?

大推理模型的核心卖点就是“多想想”。它们在回答前会生成显式的中间推理轨迹,相当于在脑子里多走几步,确实能解决很多复杂问题。但来自arXiv 2606.02835号论文的研究团队却问了一个很扎心的问题:模型在达到正确答案之后,继续推理到底是在精打细磨,还是在自找麻烦?为了回答这个问题,他们引入了一种前缀级轨迹评估协议,专门盯着模型“正确后的推理过程”来分析。
实验发现:越“思考”越离谱
研究结果挺让人意外的。模型在拿到正确答案后,如果继续推理,很多时候会开始自我怀疑,把原本对的思路拆了重来,最后改出一个错误答案。这就像考试时明明选对了,结果交卷前十分钟疯狂纠结,硬把答案改成错的——这不是聪明,是添乱。文章指出,这种“有害过度思考”并非个例,而是大推理模型在长链条推理中的系统性问题。
为什么模型会“想太多”?
其实咱们可以打一个比方。大推理模型就像一位过于谨慎的侦探,已经找到了真凶,却总觉得还有遗漏,非要再翻一遍所有卷宗,结果把自己绕晕,转而冤枉了无辜的人。论文通过轨迹级别的分析发现,模型在运算过程中缺乏“适可而止”的机制。它没有内在的“我答对了,停”的信号,反而被训练得倾向于不断验证和修正,哪怕这种修正是多余的、有害的。
这对实际应用意味着什么?
未来方向:给推理装上“刹车”
论文这项工作的意义在于,它把研究的注意力从“怎么让模型想得更久”拉回到“怎么让模型想得更对”。下一步,或许应该为大推理模型设计一种自信度感知机制,让它在达到正确答案后果断踩刹车,而不是继续在思维的迷宫里打转。毕竟,在人工智能里,知道什么时候停止,跟知道怎么思考一样重要。