日前,一项来自arXiv的新研究提出了块级引导生成(Chunk-Level Guided Generation)技术,让现成的大语言模型充当数学推理过程的评分器。该方法无须额外训练,就能在小模型生成过程中实时筛选最优思路,为解决多步推理的“走偏”问题提供了一条轻量路径。
推理链越长,小模型越容易“跑偏”

当前主流的推理策略之一是用强模型作为评分器,从多个候选结果中挑出最佳答案。但问题在于:如果小模型已经沿着错误方向推理完一整条链,强模型再怎么选,也只是在坏结果里挑一个“稍微好点”的——这不就是“矮子里面拔将军”吗?其实,过程监督类方法(如PRM引导搜索)能避免这个坑,因为它会在生成每一步时对候选继续路径打分,但代价是需要一个带步骤级标注的奖励模型,训练成本很高。
块级引导生成:不训练,直接用LLM当过程裁判
新方案的核心挺直接:在每一步推理中,小模型先生成k个固定长度的候选块(chunk),然后调用一个现成的大模型对这些块进行打分,选出分数最高的那个继续生成下一段。整个过程完全不需要额外训练——现成LLM(比如GPT-4或Claude)直接上场当过程评分器。咱们可以把它想象成一个“边走边问”的过程:小模型每写一小段,就请大模型帮忙看看这段推理靠谱不,靠谱再往下写。
与PRM对比:省了标注,但效果如何?
相比传统的过程奖励模型(PRM)引导搜索,块级引导生成最大的优势就是“省事”。PRM需要人工或者自动生成大量步骤级标注数据来训练一个专门的评分模型,而新方法直接复用已有的强大语言模型,几乎零成本。研究人员在数学推理任务上验证了有效性,虽然没有公布具体分数,但思路本身确实值得关注——未来在代码生成、逻辑推理等长链任务中也同样适用。
它凭什么能成为PRM的替代品?
简单说,靠的是“拆块+即时评分”的组合。传统方法要么等整条路径跑完再打分(错失纠正时机),要么训练一个专用评分器(成本高)。块级引导生成把生成过程切成多个小块,每块都用现成LLM把关,既保留了过程监督的纠错能力,又免去了训练负担。这算是一个挺实用的工程化思路——在算力有限的小团队或产品里,直接用API调用现成LLM就能提升推理质量。
块级引导生成的出现,意味着数学推理过程评分器不再需要专门训练。现成LLM的潜力,咱们或许还远没挖透呢!