虚假相关性破坏VLM安全微调，机器遗忘可消除安全幻象

作者：袖梨 2026-06-03

视觉语言模型安全微调研究揭示“安全幻象”困境，虚假相关性破坏VLM安全微调防护，而机器遗忘技术正成为消除这一隐藏漏洞的关键。来自arXiv的最新论文（编号2503.11832）指出，当前主流安全对齐策略存在根本性缺陷，监督式安全微调反而会强化模型对表面文本模式的依赖，这真的能算作安全吗？

“安全幻象”到底是什么？

简单来说，“安全幻象”就是视觉语言模型在安全训练后出现的一种假性防护现象。表面上看，模型对有害查询会表现出拒绝倾向，但实际上它只是学会了“看标题判断”的偷懒策略——比如只要输入里带“危险”字眼，它就自动拒绝，而不管内容本身是否合规。论文将这种现象定义为“虚假相关性”，说白了，模型并没有真正理解什么该拒绝、什么该回答。

监督式学习的隐秘陷阱

目前的VLM安全微调主要依赖于精心标注的数据集进行监督学习。这种方式要求模型记住“这个提问模式不安全→要拒绝”的对照表。但问题在于：安全数据集中，不安全问题的表述方式往往存在重复模式（例如开头句式、关键词等），模型很容易把这些“表面特征”和“不安全”画上等号。这就好比一个学生不是靠理解题意而是靠背题目编号来答题，一旦题目换个说法，答案立即出错。

机器遗忘如何破除这个陷阱？

研究人员提出，可以通过机器遗忘技术来强制消除这些“虚假关联”。与传统重新训练整个模型不同，机器遗忘能精确抹掉特定错误关联的“记忆痕迹”，同时保留模型原本的知识能力和安全行为。具体操作包括：

识别模型中对表面文本模式的过度依赖点
对这部分错误关联做定向遗忘处理

这种方式避免了完整重新训练的高昂成本，也降低了模型被“过度安全化”（无差别拒绝安全提问）的风险。

这对实际安全部署意味着什么？

如果你正在使用或开发视觉语言模型，这个发现挺值得重视的。当前业界评估模型安全性的方式，大多依赖于固定格式的测试集——而这恰恰正是“安全幻象”发挥作用的完美舞台。模型在实际服务中遇到提问方式变化的恶意攻击时，虚假相关性的保护就会立刻土崩瓦解。机器遗忘提供的路径，至少能帮咱们先“洗干净”模型已经学会的那些错误捷径，这算是给了咱们一个值得思考的新视角。

虚假相关性破坏VLM安全微调，机器遗忘可消除安全幻象

相关文章

精彩推荐