扩散大语言模型新威胁:MaskForge 越狱攻击精准绕过安全防线
一种名为 MaskForge 的结构感知自适应攻击方法,日前被研究者公开。这项攻击专门针对扩散大语言模型(dLLM),能通过巧妙利用模型本身的“填空”(infill)机制,轻松绕过现有安全审查。这挺有意思的,因为它揭示了 AI 安全领域一个之前被忽视的漏洞——模型在补全被遮盖的文本时,反而更容易“泄密”。

MaskForge 攻击的内核是什么?
扩散大语言模型的运作方式,其实就像玩“补全填空”游戏:模型反复对一段被打码的文本进行去噪,依靠置信度而不是位置来确定下一个词。传统越狱手段大多盯着自回归模型生成文本的顺序前缀,或者用低级的多词模板硬冲,效果不怎么样。MaskForge 的不同之处在于,它摸透了扩散模型的原生特性——既然模型天生就擅长“填空”,那直接构造一个恶意填空任务,何必偷摸改前缀呢?
为什么现有防御挡不住?
因为扩散大语言模型的安全防线,本质上还是用来对付自回归大模型的。MaskForge 这种攻击等于在问:你既然允许用户输入带插空的文本,凭什么不允许我用这个空白“填空”生成有害内容?目前大多数安全对齐手段,都没有专门针对这种双向上下文和置信度驱动选择机制进行加固。说白了,模型在看似正常的交互请求中,其实已经给出了危险答案。
这对 AI 行业意味着什么?
这是一个挺严峻的警示。研究者指出,MaskForge 之所以成功,关键在于它利用了扩散大语言模型“原生”的填空能力。这迫使开发者必须重新思考安全策略:不能照搬自回归模型的老套路了,得针对 dLLM 特有的训练和推理流程设计全新防御。说到底,在 AI 安全对抗中,攻击者永远比防御者多一层想象力——如果连模型自己的“天性”都能被用来越狱,那所谓的安全护栏,又凭什么能让人放心呢?