arXiv上最新发布的一项研究(编号2606.04778)揭示,大模型在推理时存在一种比“浅层安全”更隐蔽的漏洞:短标记注入可以在任意生成步骤改变模型的安全对齐行为。这意味着,即使模型在生成内容前几轮通过了安全审查,后续仍可能被恶意操控。
浅层安全与深度漏洞

此前学界认为,大模型的安全对齐主要集中在输出文本的前几个token(字符块),一旦绕过这个“守门员”,后面就容易跑偏。但新研究发现,这其实只是冰山一角。恶意用户只要在模型生成过程中的任意步骤插入一个短标记,就能让后续的内容脱离安全轨道。这就好比一条生产线,原本只在开头设了质检,现在发现中间任何环节都可能被塞进“次品”,影响最终成品。
隐藏状态也无法预测
更让人意外的是,模型隐藏状态下与“拒绝回答”方向的对齐程度,并不能作为安全行为的可靠指标。也就是说,即使模型内部看起来正在“拒绝”,实际输出的内容却可能已经跑偏了。这颠覆了以往靠监测内部状态来判断安全性的思路,确实让人挺头疼的。
这漏洞意味着什么?
后续影响
研究团队认为,真正的安全对齐需要覆盖整个生成过程,而非仅仅“看门”。未来的模型架构或许要加入动态安全校验机制,就像每艘船上都配救生艇,而不是只在港口设安检。但在此之前,部署了这类模型的开发者得留个心眼:别以为模型开头说“不”,后面就真的会一直说“不”。它真的能抵御所有攻击吗?答案恐怕是否定的。