小模型是GRPO中策略级多样性的天然探索者

作者:袖梨 2026-06-05

arXiv最新研究揭示:小模型才是GRPO策略多样性推进的天然探索者

一项来自arXiv的预印本研究(编号2605.30789)给出了一个反直觉结论:在GRPO训练中,小模型才是策略级多样性的天然探索者。所谓GRPO,即分组相对策略优化,是当前训练大语言模型常用的一种强化学习算法,它依赖大量不同的输出样本(即“多样化的rollout”)来提升模型能力。

研究人员发现,以往扩大多样性的做法,主要是靠提高token级别的随机性——说白了就是让模型在生成每个词时更“乱猜”。但这样做容易在每一步引入噪声,导致整个输出轨迹连贯性差,效果反而打折扣。这就很有意思了:难道就没有更根本的办法了吗?

小模型的“天生优势”,从数据中浮现

该研究在同一模型家族中对比了不同尺寸的模型,结果发现:随着采样数量增加,小模型的pass@k指标(即生成k个样本中至少有一个正确答案的概率)竟然比大模型提升得更快。没错,小模型在策略层面上天然就带有更高的多样性——这不是靠额外噪声硬凑出来的,而是其自身特性决定的。

我们可以这么理解:大模型参数多,容易“记住”更窄的、确定的输出模式;小模型反而因为容量受限,不得不探索更多可能性。这在GRPO里其实挺关键的——因为GRPO的核心就是需要多样化的候选样本来做对比,小模型正好填补了这个缺口。

token级随机 vs. 策略级多样性,为什么小模型更优?

咱们把两种多样性路径做个对比:

  • token级随机:在生成每个词时加入随机性,类似“醉汉走路”,每一步都可能偏,整体路线容易杂乱。
  • 策略级多样性:模型在更高层面(策略层)就呈现出不同的行为倾向,像“不同性格的人走不同路线”,整体更有序且覆盖更广。

研究明确指出,小模型在策略级多样性上的天然优势,避免了token级随机带来的“步进噪声”和不连贯问题。这不就是天然的探索者吗?它不需要外部注入噪声,自己就能产出结构化的、多样化的样本。

这个发现意味着什么?

对于AI行业来说,这条结论可能改写不少团队对模型选型的判断逻辑。以前大家总觉得“大模型更好”,但在GRPO这种依赖多样性的训练场景中,小模型的探索能力反而成了宝贵资产。你可以用更少的计算资源,获得更丰富的策略级样本,再配合大模型做后续处理——路线图可以变成“小模型探索→大模型提炼”。

不过,这项研究目前还停留在理论验证阶段。一个关键的悬念是:这种策略级多样性,是否在不同训练任务(比如数学推理、代码生成)中都能稳定发挥?这就要看后续的工程验证了。但无论如何,小模型在GRPO体系中“天生能探索”这个事实,确实给了行业一个新思路——别光盯着参数规模,有时候“小”反而意味着更大的可能。

相关文章

精彩推荐