Anthropic提出宪法式同策安全蒸馏新方法

作者:袖梨 2026-06-05

Anthropic提出宪法式同策安全蒸馏新方法,但arXiv上刚挂出的论文(编号2606.03089v1)就给这条路浇了盆冷水。研究发现,同策自蒸馏(OPSD)在安全对齐场景下照样严重崩溃,宪法式条件根本没能稳住局面。这跟之前推理任务中的崩溃问题如出一辙,而且来得更让人意外——安全对齐本来被认为更适合密集蒸馏,结果却一样糟糕。

OPSD到底怎么运作的?

OPSD的运作方式其实挺有意思:教师模型手握着更多信息,给学生模型做逐token的密集指导,就像老师逐题批改作业一样。之前大家发现,在数学推理这类有标准答案的任务里,OPSD会崩溃——学生越学越偏,最后彻底跑偏。但安全对齐不一样啊,它靠的是高层宪法原则,没有标准答案,按理说密集蒸馏应该更灵活才对。结果呢?还是崩了,而且崩得挺彻底。

为什么连宪法式条件都救不了?

为什么连宪法式条件都救不了?说白了,宪法式原则只给方向不给答案,教师模型输出的密集信号反而成了噪声源。学生模型在逐token的监督下,不是学得更准,而是把教师的偏差放大了。这就好比给一个人说“你要讲道德”,但没具体案例,他反而可能把歪理当真理。论文把这叫作安全OPSD的严重崩溃,问题出在宪法式条件与密集蒸馏之间的结构性矛盾上。

这个发现意味着什么?

这个发现确实给AI安全领域提了个醒:高层宪法不是万能药,密集监督在缺乏明确目标时可能适得其反。安全对齐本来就是个难题,现在又多了条新线索——怎么在宪法式框架下设计更合理的蒸馏策略,成了不得不面对的问题。可以说,这篇论文捅破了一层窗户纸,让研究者重新审视安全蒸馏的基本假设。

接下来该怎么走?

接下来研究者可能会尝试更稀疏的监督信号,或者让教师模型在宪法式原则下保留更多不确定性。毕竟,安全对齐的目标不是复制教师的行为,而是让学生理解宪法精神。这条路确实不好走,但方向已经清楚了——安全蒸馏需要跳出密集监督的惯性思维,寻找更贴合宪法式条件的训练方式。

宪法式同策安全蒸馏这个方法本身很有潜力,但论文的发现说明,它还远没到成熟的时候。AI安全这件事,说白了就是在不断踩坑中往前趟,这次算是个重要的警示——再好的方法也得经过实践检验,你怎么知道哪个坑在前面等着呢?

相关文章

精彩推荐