分组优先离策略优化提升LLM推理RLVR效率

作者：袖梨 2026-06-02

arXiv最新公开研究“分组优先离策略优化提升LLM推理RLVR效率”，提出了一套解决RLVR（基于可验证奖励的强化学习）中无效样本过多导致学习效率低下的方案。这项工作的核心在于重新筛选训练数据，避免LLM（大语言模型）在完全正确或完全错误的样本上浪费算力。

RLVR遇到的麻烦是什么？

咱们都知道，RLVR这个技术挺厉害，能让LLM在推理任务里自己琢磨、自己改进。可问题在于，它采样的很多提示词，生成的响应要么全对、要么全错，整组数据里大家得分一模一样，零方差。零方差意味着没有学习信号，模型根本不知道往哪个方向调。说白了，数据本身不“给力”，模型练了半天等于白练。

老办法为什么不够好？

现在业内怎么解决呢？很多方法靠大量LLM滚动推算（rollouts）来过滤无效样本。这确实能挑出有用的数据，但代价是算力成本飙升。打个比方，你想从一堆沙子里淘金，结果为了找到金子，先把整座山都筛了一遍——效率确实不行。这不就是典型的高投入低产出吗？

新策略怎么优化？

分组优先离策略优化把思路扭过来了：不再漫无目的地穷举，而是优先筛选那些能产生有效训练信号的组别。它的逻辑简单明了：先对采样数据进行分组，然后根据组内奖励的方差高低，判定哪些组值得保留、哪些组应当舍弃。方差大的组，说明模型在不同响应间有分歧，这正是学习必需的机会；方差小的组，全员正确或全员错误，直接丢掉。

具体优化步骤