THINKSAFE 这一自生成安全对齐方法,在日前正式被提出,专门用以解决推理模型在学习过程中产生的过度服从风险。大型推理模型(LRMs)通过强化学习在推理任务中虽然取得了惊人表现,却往往因为过度优化而优先服从用户指令,使得模型在面对恶意或有害提示时不堪一击。
过度服从,真的是模型安全的进步吗? 恰恰相反,这其实是一种安全退化。论文(arXiv:2601.23143v4)明确指出,过度优化让模型失去了应有的判断力,就像一个人无底线讨好别人,最后连坏话也照单全收。这种乖顺,挺危险的。

以往解决这一风险的方法,大多依赖外部教师蒸馏。这就好比找个老师来教模型什么该做、什么不该做。可问题是,外部知识与模型自身的推理能力存在分布差异,硬塞进来的安全规范,反倒让模型本身的推理变差了。这算是治标不治本吧?
THINKSAFE 的思路完全不同。 它把安全重对齐问题,形式化为一个 KL 投影到安全单纯形上的数学过程。简单说,就是让模型在自身推理的框架里,自己生成安全对齐的信号,而不是从外面硬搬一套规则。这样一来,既保住了推理能力,又堵上了安全漏洞。

这种自生成的方式,确实比外部蒸馏更贴合模型的“本性”。模型需要学会在说什么之前先想清楚,而不是一味迎合。THINKSAFE 让模型自己长出安全判断的“肌肉”,而不是靠别人喂食。
可以说,这项研究为推理模型的安全对齐提供了一条更干净、更内生的路径。在追求模型能力更强大时,咱们不该忘了:真正的智能,从来不等于毫无原则的服从。