弱批评者蒸馏：用弱模型指导强模型的可扩展监督方法

作者：袖梨 2026-06-03

弱批评者蒸馏：用弱模型指导强模型的可扩展监督方法

AI 行业迎来一种全新训练范式——弱批评者蒸馏。该方法的核心思路是：用一个能力偏弱的模型来充当“批评者”，给更强大的模型提供修正方向，而非直接给出答案或最终判断。相关研究论文《Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight》已提交至 arXiv（编号2606.00424v1），意在解决弱监督与可扩展监督的长期痛点。

说白了，传统强模型训练依赖弱监督时，经常遇到“师傅不行徒弟难进步”的难题。弱模型给出的标签、偏好或最终判断都不可靠，整个流程就容易偏。但把弱模型当批评者就不同了——它不用去解决任务，也不用负责正确答案，只需要提供一个不会误导人的修正方向，帮强模型更好地调用自己的知识。这么一听，是不是更现实？

弱监督的升级版

之前咱们说的弱到强泛化（weak-to-strong generalization），通常是让强模型在弱标签上学习。可随着模型越来越强，弱监督者很难给出靠谱的最终裁决。批评者蒸馏则跳出了这个死胡同：弱模型不直接教答案，而是通过批评来引导强模型自我修正。何来可扩展监督呢？就是因为批评者只需要“指出问题的大致方向”，而不需要拥有和强模型同等的推理能力。

举个例子，强模型写了一段代码，弱批评者不负责把代码写对，但能说“这段代码这里逻辑可能有遗漏，你重新看看”。强模型据此调整自己的输出，反而能发现自己原本的知识盲点。这种“我不用比你强，但能帮你变得更好”的模式，确实挺有意思。

核心优势：低成本高效益

批评蒸馏对比传统监督方法，有几个明显好处：