认知遗憾最小化：大语言模型无标签因果批评替代结果奖励

作者：袖梨 2026-06-01

一篇名为《认知遗憾最小化：大语言模型无标签因果批评替代结果奖励》的论文在arXiv上更新（版本号arXiv:2602.11675v4），直指当前强化学习方法的核心缺陷：奖励机制只盯着模型“答对了什么”，却从不问“为什么答对”。这种对结果奖励的迷信，被研究者命名为Reward Entrenchment，即奖励固化效应。

OpenAI的CEO Sam Altman或许该留意这个方向。大语言模型眼下挺能答因果问题的，但论文揭示了一个尴尬现实：模型可能只是因为数据里的相关性蒙对了答案，推理过程却一塌糊涂。现有的RL方法会疯狂奖励这种“正确”结论，结果呢？模型学会了走捷径，根本不去理解因果结构。这难道不是一种认知上的自欺欺人吗？

什么是认知遗憾最小化？

框架ERM的做法确实够颠覆——它不盯着答案打分，而是去批评模型推理轨迹里的因果结构。具体来说，它会检查推理中是否有未审视的混淆变量，是否把相关性误当作了因果干预，以及后门路径有没有被妥善阻断。可以说，这是一种从“结果导向”转向“过程导向”的评估逻辑。

为何要替代结果奖励？

传统奖励机制说白了就是懒。它只看模型输出的结果对不对，却忽略了推理链条是否扎实。论文指出，这种懒惰会让模型陷入Reward Entrenchment：模型越训练越擅长利用数据里的统计捷径，真正的因果推理能力反而退化。咱们想想，如果AI医生诊断正确但推理全是错的，谁敢用？

ERM框架运用的正是现成的因果推断原则。它不要求额外标签数据，而是通过分析模型内部推理的因果结构来发现问题。这种无标签的批评方式，在训练效率上确实有优势——毕竟标注因果结构可比标注答案费劲多了。

目前这还只是理论框架，但方向挺明确的：要是AI真的想具备可靠的因果推理能力，光靠刷题拿高分肯定不行。凭什么让模型答对就算学会？认知遗憾最小化这个思路，或许真能逼着大语言模型长出点“真本事”来。

相关文章

精彩推荐