认知遗憾最小化:大语言模型无标签因果批评替代结果奖励

作者:袖梨 2026-06-01

一篇名为《认知遗憾最小化:大语言模型无标签因果批评替代结果奖励》的论文在arXiv上更新(版本号arXiv:2602.11675v4),直指当前强化学习方法的核心缺陷:奖励机制只盯着模型“答对了什么”,却从不问“为什么答对”。这种对结果奖励的迷信,被研究者命名为Reward Entrenchment,即奖励固化效应。

OpenAI的CEO Sam Altman或许该留意这个方向。大语言模型眼下挺能答因果问题的,但论文揭示了一个尴尬现实:模型可能只是因为数据里的相关性蒙对了答案,推理过程却一塌糊涂。现有的RL方法会疯狂奖励这种“正确”结论,结果呢?模型学会了走捷径,根本不去理解因果结构。这难道不是一种认知上的自欺欺人吗?

什么是认知遗憾最小化?

框架ERM的做法确实够颠覆——它不盯着答案打分,而是去批评模型推理轨迹里的因果结构。具体来说,它会检查推理中是否有未审视的混淆变量,是否把相关性误当作了因果干预,以及后门路径有没有被妥善阻断。可以说,这是一种从“结果导向”转向“过程导向”的评估逻辑。

为何要替代结果奖励?

传统奖励机制说白了就是懒。它只看模型输出的结果对不对,却忽略了推理链条是否扎实。论文指出,这种懒惰会让模型陷入Reward Entrenchment:模型越训练越擅长利用数据里的统计捷径,真正的因果推理能力反而退化。咱们想想,如果AI医生诊断正确但推理全是错的,谁敢用?

ERM框架运用的正是现成的因果推断原则。它不要求额外标签数据,而是通过分析模型内部推理的因果结构来发现问题。这种无标签的批评方式,在训练效率上确实有优势——毕竟标注因果结构可比标注答案费劲多了。

目前这还只是理论框架,但方向挺明确的:要是AI真的想具备可靠的因果推理能力,光靠刷题拿高分肯定不行。凭什么让模型答对就算学会?认知遗憾最小化这个思路,或许真能逼着大语言模型长出点“真本事”来。

相关文章

精彩推荐