Anthropic提出宪法式同策安全蒸馏新方法

作者：袖梨 2026-06-05

Anthropic提出宪法式同策安全蒸馏新方法，但arXiv上刚挂出的论文（编号2606.03089v1）就给这条路浇了盆冷水。研究发现，同策自蒸馏（OPSD）在安全对齐场景下照样严重崩溃，宪法式条件根本没能稳住局面。这跟之前推理任务中的崩溃问题如出一辙，而且来得更让人意外——安全对齐本来被认为更适合密集蒸馏，结果却一样糟糕。

OPSD到底怎么运作的？

OPSD的运作方式其实挺有意思：教师模型手握着更多信息，给学生模型做逐token的密集指导，就像老师逐题批改作业一样。之前大家发现，在数学推理这类有标准答案的任务里，OPSD会崩溃——学生越学越偏，最后彻底跑偏。但安全对齐不一样啊，它靠的是高层宪法原则，没有标准答案，按理说密集蒸馏应该更灵活才对。结果呢？还是崩了，而且崩得挺彻底。

为什么连宪法式条件都救不了？

为什么连宪法式条件都救不了？说白了，宪法式原则只给方向不给答案，教师模型输出的密集信号反而成了噪声源。学生模型在逐token的监督下，不是学得更准，而是把教师的偏差放大了。这就好比给一个人说“你要讲道德”，但没具体案例，他反而可能把歪理当真理。论文把这叫作安全OPSD的严重崩溃，问题出在宪法式条件与密集蒸馏之间的结构性矛盾上。

这个发现意味着什么？

这个发现确实给AI安全领域提了个醒：高层宪法不是万能药，密集监督在缺乏明确目标时可能适得其反。安全对齐本来就是个难题，现在又多了条新线索——怎么在宪法式框架下设计更合理的蒸馏策略，成了不得不面对的问题。可以说，这篇论文捅破了一层窗户纸，让研究者重新审视安全蒸馏的基本假设。

接下来该怎么走？

接下来研究者可能会尝试更稀疏的监督信号，或者让教师模型在宪法式原则下保留更多不确定性。毕竟，安全对齐的目标不是复制教师的行为，而是让学生理解宪法精神。这条路确实不好走，但方向已经清楚了——安全蒸馏需要跳出密集监督的惯性思维，寻找更贴合宪法式条件的训练方式。

宪法式同策安全蒸馏这个方法本身很有潜力，但论文的发现说明，它还远没到成熟的时候。AI安全这件事，说白了就是在不断踩坑中往前趟，这次算是个重要的警示——再好的方法也得经过实践检验，你怎么知道哪个坑在前面等着呢？