自适应视野GRPO:非对称令牌折扣提升语言模型强化学习效率

作者:袖梨 2026-06-07

自适应视野GRPO:非对称令牌折扣提升语言模型强化学习效率

近日,arXiv 上发布的一项研究(编号 2606.05434v1)提出了自适应视野GRPO方法,通过非对称令牌折扣来解决语言模型在强化学习中对每一个令牌位置和采样轨迹均一化处理的问题。这项技术属于 GRPO(群体相对策略优化)的扩展——该算法本身已在推理任务的语言模型对齐上展现出不错的效果,但其对称性设计容易在模型处于高不确定性状态时导致策略梯度信号被稀释。自适应视野GRPO正是要修正这一缺陷。

核心思路:用熵作为折扣的“体温计”

研究者引入了第一个扩展模块——自适应视野GRPO(AH-GRPO)。其做法是,对每个令牌的策略梯度赋予一个基于累积熵的折扣权重:当模型对某个位置输出的置信度低(即熵高)时,折扣会压缩有效视野,使梯度更新更关注当下而非远处;反之,当模型比较确定时,视野保持开放。

SA-AH-GRPO:折扣只用在有需要的地方

第二个扩展叫做选择性优势自适应视野GRPO(SA-AH-GRPO),它只对“神经”或“高不确定性”的令牌位置施加这种折扣,而对模型已稳定建模的位置保留原始 GRPO 的完整梯度信号。这种选择性设计试图避免因过度折扣而削弱已有学习成果。

一种更精细的梯度调控手段

从技术角度看,非对称令牌折扣相当于在模型推理的每个时间步装了一个“注意力调节阀”。GRPO 原本把所有令牌和采样轨迹同等对待,但在实际训练中,模型在推理链的前几步往往比后几步更困惑——如果前后惩罚力度一样,模型可能会把更新努力浪费在噪声较大的早期步骤上。AH-GRPO 用熵作为实时信噪比指示器,将折扣集中在信息较少的区域。

对语言模型强化学习效率的实际意义

这套框架不改变 GRPO 的主体架构,而是通过两个可插拔的折扣机制提升样本利用率。对于从事大模型对齐的团队来说,这意味着可以在不增加训练数据或模型参数的前提下,让推理能力更强的语言模型更快收敛。目前该论文已在 arXiv 上公开,尚未给出大规模基准测试的详尽对比,但这一理论设计方向已引起学术界讨论。

相关文章

精彩推荐