OAR:基于结果的优势重塑实现数学推理细粒度信用分配

作者:袖梨 2026-06-04

OAR机制落地:数学推理终于不再“一刀切”算分

阿克莱夫实验室的研究人员日前提交了一篇新论文,针对当前主流强化学习范式在数学推理中的短板,提出了一个名为OAR的解决方案。OAR的全称是“基于结果的优势重塑”,它为每个推理步骤单独计算贡献值,而不是像传统做法那样给整段回答打一个笼统的分。说白了,OAR就是要解决“模型明明中间算错了,但最后歪打正着答对了,系统却给它高分”这种荒谬情况。

粗粒度算分,到底憋屈在哪?

目前数学推理领域常用一种叫GRPO的方法,它不需要价值网络,靠对比同一问题的多个输出结果来指导模型学习。听起来挺高效的,但它的信用分配机制实在是有点“大锅饭”——无论模型在过程中推理了多少步,每一行代码、每一个推理链,拿到奖励都一样。这合理吗?当然不合理。想象一下,一个解三元二次方程的步骤,前八步完全正确,最后两步写错符号,结果整个链条被判负分,前八步的努力岂不是白白打了水漂?

OAR的优势重塑:如何做到“精准记账”?

OAR的核心机制在于它对“优势”这个词做了重新定义。传统的优势函数只看最终结果,而OAR则会遍历整个推理过程,根据每一个token(可以理解为最小语义单元)对最终结果的真实贡献来重新分配优势值。具体怎么实现的?论文提到,OAR会先计算整个序列的群体奖励,然后利用一种基于输出的差值公式,把宏观的奖赏层层拆解,最终细化到每个token的粒度上。这就好比你不再给整个足球比赛打分,而是逐个分析每个球员的每一次传球、射门和跑位,该加的分加,该扣的分扣。

不够细分的分配,已经拖累了推理质量

其实行业里早就注意到了这个问题。很多基于GRPO训练的模型在长链条推理任务上表现不佳,恰恰就是因为反馈信号太模糊,模型无法区分“我这一步推得好”和“我这一步纯属碰运气”。而OAR的提出,相当于给模型配了一副显微镜,让它清楚看到每一步推理和最终结果之间的因果链条。这种感觉,确实挺像老师当年批改数学大题,不仅要看最后答案,还要看推导过程的每一步给不给分。

未来演化:从“看结果”到“看过程”的范式迁徙

从论文披露的技术路径来看,OAR并不是要推翻GRPO,而是在其基础上做一个极其关键的手术——把粗粒度分配改造成细粒度分配。这不仅仅是算力的优化,更是学习范式的升级。咱们可以预期,一旦OAR被广泛应用到大规模数学推理模型中,那些在复杂推理任务中卡壳的AI,可能会迎来一次质的飞跃。毕竟,凭什么好的过程要为坏的结果买单?凭什么准确的前几步要被最后的失误拖累?

相关文章

精彩推荐