基于结果的强化学习让Transformer自发生成推理链，但依赖数据质量

作者：袖梨 2026-06-04

基于结果的强化学习（Outcome-Based RL）让Transformer自发生成推理链（Chain-of-Thought），但这项突破性进展依赖高质量数据。

研究机制与发现

日前，一项来自arXiv的最新研究（论文编号2601.15158v4）揭示了这一现象。研究人员通过一个无法直接解决的合成图遍历任务，证明了稀疏奖励信号如何驱动策略梯度让Transformer自发产生中间推理步骤。说白了，奖励只看结果对不对，不管中间过程怎么来的，但模型居然自己学会了拆解问题、一步步推理。

为什么说这很特别？因为传统的监督学习需要人工标注的“思维链”作为训练数据，把每一步推理都写清楚。但基于结果的强化学习只告诉模型“答案对了”或“答案错了”，让模型自己在试错中找到逻辑路径。这其实是一种能力涌现——模型为了实现最终目标，主动生成了推理步骤。

数据质量是关键瓶颈

不过，研究也明确指出：这种自发推理能力只能在高质量数据环境下实现。在低质量或噪声过多的任务中，模型无法通过稀疏奖励信号学到正确的推理结构。如果你提供的数据本身逻辑混乱、路径冗余，模型反而会学到“蒙答案”而非“想答案”。

这可能让人疑惑：既然强化学习是端到端的，为什么还依赖数据？答案是：奖励信号的稀疏程度和数据分布的覆盖范围共同决定了模型能否探索到有效的推理链。没有高质量数据，模型就真的只是瞎猜而已！

对比传统方法的差异

咱们可以对比一下两种训练范式：