异常值注入攻击扩大LLM量化方案的安全鸿沟

作者：袖梨 2026-06-04

论文揭示量化模型安全漏洞，预埋异常值可让LLM“变脸”

一项新研究捅破了LLM量化方案看似安全的外衣。日前发布的预印本论文（编号arXiv:2605.15152）展示了一种名为“异常值注入攻击”的手法，攻击者能够故意发布一个在全精度下表现正常的模型，一旦用户自行量化，这个模型就会暴露出预埋的恶意行为。这不挺让人捏一把汗的吗？量化本来是减少显存占用、让大模型能跑起来的“瘦身”技术，这下反倒成了安全隐患的加速I器。

量化方案为何成了攻击入口？

LLM量化说白了，就是把模型权重从高精度浮点数压缩成低精度整数，牺牲一点准确度来换速度和存储空间。但论文指出，现有的量化方案在设计时主要关注性能损失，对安全性把关不严。攻击者可以在模型的权重里悄悄塞入特殊构造的“异常值”——这些数值在全精度计算时几乎不影响输出，模型看起来就是个干净的好模型。可用户一旦运行量化脚本，这些异常值就会在量化过程中被“放大”，从而改变模型行为。

其实前几年的攻击研究都聚焦在简单量化方法上，攻击者必须先搞清楚哪些权重区域在量化后保持不变，才能动手脚。但这一次，研究者发现了一条更直接的路径：直接利用量化本身对异常值不敏感的弱点来注入后门。这确实是一次质的飞跃。

攻击逻辑：先正常，后“变坏”

攻击流程可以拆解成三步：

第一步，预埋种子。攻击者在全精度模型的特定神经元里注入精心设计的异常值，这些值在浮点计算下几乎不激活，模型通过所有的标准评测。
第二步，等待量化。用户从公共模型库下载这个“干净”模型，为了本地部署而跑一遍量化工具，把权重从FP16压到INT4或INT8。
第三步，触发后门。量化过程中，那些原本“隐身”的异常值因为精度压缩而变得显著，激活了藏在模型里的恶意逻辑。比如一个代码补全模型，量化前输出安全代码，量化后开始输出含漏洞的代码。

现有的攻击手段一直搞不定复杂量化方案（比如重排序和分组量化），因为量化器对权重位置的随机扰动太大，攻击者没法确保预埋的异常值能被保留。而新论文的方法正好绕过了这个瓶颈——它不依赖“保留”，而是依赖“被放大”。

安全鸿沟究竟有多大？

论文没有给出具体成功率百分比，但明确指出：之前所有量化条件下的攻击尝试都“一致失败”，而新方法成功地在多种量化方案（包括对称/非对称量化、分组量化）上实现了后门注入。这意味着一大类主流量化工具都存在被利用的风险。

更糟的是，很多开源社区的用户习惯直接下载别人量化好的模型，或者使用模型发布方提供的量化脚本。如果发布者本身就是攻击者，那么用户从下载模型到部署运行，全程都不会触发任何异常警报——因为恶意逻辑要到用户本地跑完量化之后才激活。这比直接发布恶意模型要隐蔽得多，也危险得多。

这事必须严肃对待

LLM量化是行业降低部署成本的核心手段，英伟达、vLLM项目都在大力推进各类量化方案。安全研究者之前很少把量化作为攻击面来看待，总觉得“瘦身后的模型翻不出什么浪”。现在这个假设被打破了。量化方案本身不是一个中立的工具，它完全可以被反向利用，成为安全防御的“后门”。

对于企业和个人开发者来说，接下来的应对思路其实挺清晰：不能随便信任一个来路不明的模型权重文件；使用量化工具前最好先跑一遍异常值检测；更关键的是，量化过程中的权重变化是可审计的。说白了，保障大模型供应链安全，得从“防恶意模型”延伸到“防恶意量化”。

新论文给行业敲了一记重锤——安全鸿沟从来都不是量化方案的Bug，而是整个部署流程里被人忽视的死角。

异常值注入攻击扩大LLM量化方案的安全鸿沟

相关文章

精彩推荐