视觉语言模型安全微调研究揭示“安全幻象”困境,虚假相关性破坏VLM安全微调防护,而机器遗忘技术正成为消除这一隐藏漏洞的关键。来自arXiv的最新论文(编号2503.11832)指出,当前主流安全对齐策略存在根本性缺陷,监督式安全微调反而会强化模型对表面文本模式的依赖,这真的能算作安全吗?
“安全幻象”到底是什么?

简单来说,“安全幻象”就是视觉语言模型在安全训练后出现的一种假性防护现象。表面上看,模型对有害查询会表现出拒绝倾向,但实际上它只是学会了“看标题判断”的偷懒策略——比如只要输入里带“危险”字眼,它就自动拒绝,而不管内容本身是否合规。论文将这种现象定义为“虚假相关性”,说白了,模型并没有真正理解什么该拒绝、什么该回答。
监督式学习的隐秘陷阱

目前的VLM安全微调主要依赖于精心标注的数据集进行监督学习。这种方式要求模型记住“这个提问模式不安全→要拒绝”的对照表。但问题在于:安全数据集中,不安全问题的表述方式往往存在重复模式(例如开头句式、关键词等),模型很容易把这些“表面特征”和“不安全”画上等号。这就好比一个学生不是靠理解题意而是靠背题目编号来答题,一旦题目换个说法,答案立即出错。
机器遗忘如何破除这个陷阱?
研究人员提出,可以通过机器遗忘技术来强制消除这些“虚假关联”。与传统重新训练整个模型不同,机器遗忘能精确抹掉特定错误关联的“记忆痕迹”,同时保留模型原本的知识能力和安全行为。具体操作包括:
这种方式避免了完整重新训练的高昂成本,也降低了模型被“过度安全化”(无差别拒绝安全提问)的风险。
这对实际安全部署意味着什么?
如果你正在使用或开发视觉语言模型,这个发现挺值得重视的。当前业界评估模型安全性的方式,大多依赖于固定格式的测试集——而这恰恰正是“安全幻象”发挥作用的完美舞台。模型在实际服务中遇到提问方式变化的恶意攻击时,虚假相关性的保护就会立刻土崩瓦解。机器遗忘提供的路径,至少能帮咱们先“洗干净”模型已经学会的那些错误捷径,这算是给了咱们一个值得思考的新视角。