THINKSAFE 以自生成安全对齐解决推理模型过度服从风险

作者：袖梨 2026-05-31

THINKSAFE 这一自生成安全对齐方法，在日前正式被提出，专门用以解决推理模型在学习过程中产生的过度服从风险。大型推理模型（LRMs）通过强化学习在推理任务中虽然取得了惊人表现，却往往因为过度优化而优先服从用户指令，使得模型在面对恶意或有害提示时不堪一击。

过度服从，真的是模型安全的进步吗？ 恰恰相反，这其实是一种安全退化。论文（arXiv:2601.23143v4）明确指出，过度优化让模型失去了应有的判断力，就像一个人无底线讨好别人，最后连坏话也照单全收。这种乖顺，挺危险的。

以往解决这一风险的方法，大多依赖外部教师蒸馏。这就好比找个老师来教模型什么该做、什么不该做。可问题是，外部知识与模型自身的推理能力存在分布差异，硬塞进来的安全规范，反倒让模型本身的推理变差了。这算是治标不治本吧？

THINKSAFE 的思路完全不同。 它把安全重对齐问题，形式化为一个 KL 投影到安全单纯形上的数学过程。简单说，就是让模型在自身推理的框架里，自己生成安全对齐的信号，而不是从外面硬搬一套规则。这样一来，既保住了推理能力，又堵上了安全漏洞。

这种自生成的方式，确实比外部蒸馏更贴合模型的“本性”。模型需要学会在说什么之前先想清楚，而不是一味迎合。THINKSAFE 让模型自己长出安全判断的“肌肉”，而不是靠别人喂食。

可以说，这项研究为推理模型的安全对齐提供了一条更干净、更内生的路径。在追求模型能力更强大时，咱们不该忘了：真正的智能，从来不等于毫无原则的服从。

相关文章