大模型推理时漏洞：短标记注入可改变任意步安全对齐

作者：袖梨 2026-06-04

arXiv上最新发布的一项研究（编号2606.04778）揭示，大模型在推理时存在一种比“浅层安全”更隐蔽的漏洞：短标记注入可以在任意生成步骤改变模型的安全对齐行为。这意味着，即使模型在生成内容前几轮通过了安全审查，后续仍可能被恶意操控。

浅层安全与深度漏洞

此前学界认为，大模型的安全对齐主要集中在输出文本的前几个token（字符块），一旦绕过这个“守门员”，后面就容易跑偏。但新研究发现，这其实只是冰山一角。恶意用户只要在模型生成过程中的任意步骤插入一个短标记，就能让后续的内容脱离安全轨道。这就好比一条生产线，原本只在开头设了质检，现在发现中间任何环节都可能被塞进“次品”，影响最终成品。

隐藏状态也无法预测

更让人意外的是，模型隐藏状态下与“拒绝回答”方向的对齐程度，并不能作为安全行为的可靠指标。也就是说，即使模型内部看起来正在“拒绝”，实际输出的内容却可能已经跑偏了。这颠覆了以往靠监测内部状态来判断安全性的思路，确实让人挺头疼的。

这漏洞意味着什么？