扩散大语言模型遭结构感知自适应攻击MaskForge越狱

作者：袖梨 2026-06-04

扩散大语言模型新威胁：MaskForge 越狱攻击精准绕过安全防线

一种名为 MaskForge 的结构感知自适应攻击方法，日前被研究者公开。这项攻击专门针对扩散大语言模型（dLLM），能通过巧妙利用模型本身的“填空”（infill）机制，轻松绕过现有安全审查。这挺有意思的，因为它揭示了 AI 安全领域一个之前被忽视的漏洞——模型在补全被遮盖的文本时，反而更容易“泄密”。

MaskForge 攻击的内核是什么？

扩散大语言模型的运作方式，其实就像玩“补全填空”游戏：模型反复对一段被打码的文本进行去噪，依靠置信度而不是位置来确定下一个词。传统越狱手段大多盯着自回归模型生成文本的顺序前缀，或者用低级的多词模板硬冲，效果不怎么样。MaskForge 的不同之处在于，它摸透了扩散模型的原生特性——既然模型天生就擅长“填空”，那直接构造一个恶意填空任务，何必偷摸改前缀呢？

结构感知：攻击者会分析模型对输入序列的结构理解，精准定位可被利用的“填空”位置。
自适应调整：针对不同模型和目标内容，攻击算法会自动优化遮掩模式和提示词，提升成功率。
绕过前缀监控：由于攻击内容是通过“填空”而非生成新词来植入，那些只盯着文本开头部分的安全过滤器根本抓不到。

为什么现有防御挡不住？

因为扩散大语言模型的安全防线，本质上还是用来对付自回归大模型的。MaskForge 这种攻击等于在问：你既然允许用户输入带插空的文本，凭什么不允许我用这个空白“填空”生成有害内容？目前大多数安全对齐手段，都没有专门针对这种双向上下文和置信度驱动选择机制进行加固。说白了，模型在看似正常的交互请求中，其实已经给出了危险答案。

这对 AI 行业意味着什么？

这是一个挺严峻的警示。研究者指出，MaskForge 之所以成功，关键在于它利用了扩散大语言模型“原生”的填空能力。这迫使开发者必须重新思考安全策略：不能照搬自回归模型的老套路了，得针对 dLLM 特有的训练和推理流程设计全新防御。说到底，在 AI 安全对抗中，攻击者永远比防御者多一层想象力——如果连模型自己的“天性”都能被用来越狱，那所谓的安全护栏，又凭什么能让人放心呢？

扩散大语言模型遭结构感知自适应攻击MaskForge越狱

相关文章

精彩推荐