异常值注入攻击扩大LLM量化方案的安全鸿沟

作者:袖梨 2026-06-04

论文揭示量化模型安全漏洞,预埋异常值可让LLM“变脸”

一项新研究捅破了LLM量化方案看似安全的外衣。日前发布的预印本论文(编号arXiv:2605.15152)展示了一种名为“异常值注入攻击”的手法,攻击者能够故意发布一个在全精度下表现正常的模型,一旦用户自行量化,这个模型就会暴露出预埋的恶意行为。这不挺让人捏一把汗的吗?量化本来是减少显存占用、让大模型能跑起来的“瘦身”技术,这下反倒成了安全隐患的加速I器。

量化方案为何成了攻击入口?

LLM量化说白了,就是把模型权重从高精度浮点数压缩成低精度整数,牺牲一点准确度来换速度和存储空间。但论文指出,现有的量化方案在设计时主要关注性能损失,对安全性把关不严。攻击者可以在模型的权重里悄悄塞入特殊构造的“异常值”——这些数值在全精度计算时几乎不影响输出,模型看起来就是个干净的好模型。可用户一旦运行量化脚本,这些异常值就会在量化过程中被“放大”,从而改变模型行为。

其实前几年的攻击研究都聚焦在简单量化方法上,攻击者必须先搞清楚哪些权重区域在量化后保持不变,才能动手脚。但这一次,研究者发现了一条更直接的路径:直接利用量化本身对异常值不敏感的弱点来注入后门。这确实是一次质的飞跃。

攻击逻辑:先正常,后“变坏”

攻击流程可以拆解成三步:

  • 第一步,预埋种子。攻击者在全精度模型的特定神经元里注入精心设计的异常值,这些值在浮点计算下几乎不激活,模型通过所有的标准评测。
  • 第二步,等待量化。用户从公共模型库下载这个“干净”模型,为了本地部署而跑一遍量化工具,把权重从FP16压到INT4或INT8。
  • 第三步,触发后门。量化过程中,那些原本“隐身”的异常值因为精度压缩而变得显著,激活了藏在模型里的恶意逻辑。比如一个代码补全模型,量化前输出安全代码,量化后开始输出含漏洞的代码。

现有的攻击手段一直搞不定复杂量化方案(比如重排序和分组量化),因为量化器对权重位置的随机扰动太大,攻击者没法确保预埋的异常值能被保留。而新论文的方法正好绕过了这个瓶颈——它不依赖“保留”,而是依赖“被放大”。

安全鸿沟究竟有多大?

论文没有给出具体成功率百分比,但明确指出:之前所有量化条件下的攻击尝试都“一致失败”,而新方法成功地在多种量化方案(包括对称/非对称量化、分组量化)上实现了后门注入。这意味着一大类主流量化工具都存在被利用的风险。

更糟的是,很多开源社区的用户习惯直接下载别人量化好的模型,或者使用模型发布方提供的量化脚本。如果发布者本身就是攻击者,那么用户从下载模型到部署运行,全程都不会触发任何异常警报——因为恶意逻辑要到用户本地跑完量化之后才激活。这比直接发布恶意模型要隐蔽得多,也危险得多。

这事必须严肃对待

LLM量化是行业降低部署成本的核心手段,英伟达、vLLM项目都在大力推进各类量化方案。安全研究者之前很少把量化作为攻击面来看待,总觉得“瘦身后的模型翻不出什么浪”。现在这个假设被打破了。量化方案本身不是一个中立的工具,它完全可以被反向利用,成为安全防御的“后门”。

对于企业和个人开发者来说,接下来的应对思路其实挺清晰:不能随便信任一个来路不明的模型权重文件;使用量化工具前最好先跑一遍异常值检测;更关键的是,量化过程中的权重变化是可审计的。说白了,保障大模型供应链安全,得从“防恶意模型”延伸到“防恶意量化”。

新论文给行业敲了一记重锤——安全鸿沟从来都不是量化方案的Bug,而是整个部署流程里被人忽视的死角。

相关文章

精彩推荐