OAR：基于结果的优势重塑实现数学推理细粒度信用分配

作者：袖梨 2026-06-04

OAR机制落地：数学推理终于不再“一刀切”算分

阿克莱夫实验室的研究人员日前提交了一篇新论文，针对当前主流强化学习范式在数学推理中的短板，提出了一个名为OAR的解决方案。OAR的全称是“基于结果的优势重塑”，它为每个推理步骤单独计算贡献值，而不是像传统做法那样给整段回答打一个笼统的分。说白了，OAR就是要解决“模型明明中间算错了，但最后歪打正着答对了，系统却给它高分”这种荒谬情况。

粗粒度算分，到底憋屈在哪？

目前数学推理领域常用一种叫GRPO的方法，它不需要价值网络，靠对比同一问题的多个输出结果来指导模型学习。听起来挺高效的，但它的信用分配机制实在是有点“大锅饭”——无论模型在过程中推理了多少步，每一行代码、每一个推理链，拿到奖励都一样。这合理吗？当然不合理。想象一下，一个解三元二次方程的步骤，前八步完全正确，最后两步写错符号，结果整个链条被判负分，前八步的努力岂不是白白打了水漂？

OAR的优势重塑：如何做到“精准记账”？

OAR的核心机制在于它对“优势”这个词做了重新定义。传统的优势函数只看最终结果，而OAR则会遍历整个推理过程，根据每一个token（可以理解为最小语义单元）对最终结果的真实贡献来重新分配优势值。具体怎么实现的？论文提到，OAR会先计算整个序列的群体奖励，然后利用一种基于输出的差值公式，把宏观的奖赏层层拆解，最终细化到每个token的粒度上。这就好比你不再给整个足球比赛打分，而是逐个分析每个球员的每一次传球、射门和跑位，该加的分加，该扣的分扣。

不够细分的分配，已经拖累了推理质量

其实行业里早就注意到了这个问题。很多基于GRPO训练的模型在长链条推理任务上表现不佳，恰恰就是因为反馈信号太模糊，模型无法区分“我这一步推得好”和“我这一步纯属碰运气”。而OAR的提出，相当于给模型配了一副显微镜，让它清楚看到每一步推理和最终结果之间的因果链条。这种感觉，确实挺像老师当年批改数学大题，不仅要看最后答案，还要看推导过程的每一步给不给分。

未来演化：从“看结果”到“看过程”的范式迁徙

从论文披露的技术路径来看，OAR并不是要推翻GRPO，而是在其基础上做一个极其关键的手术——把粗粒度分配改造成细粒度分配。这不仅仅是算力的优化，更是学习范式的升级。咱们可以预期，一旦OAR被广泛应用到大规模数学推理模型中，那些在复杂推理任务中卡壳的AI，可能会迎来一次质的飞跃。毕竟，凭什么好的过程要为坏的结果买单？凭什么准确的前几步要被最后的失误拖累？

OAR：基于结果的优势重塑实现数学推理细粒度信用分配

相关文章

精彩推荐