RogueMerge：模型合并中恶意任务向量实现统一鲁棒攻击

作者：袖梨 2026-06-05

RogueMerge攻击利用模型合并中的恶意任务向量，实现了统一鲁棒攻击效果

近期公布的预印本论文《RogueMerge: Robust and Unified Attacks against LLM Model Merging》（编号arXiv:2606.03344）揭示了大型语言模型供应链中一个致命漏洞。模型合并技术通过聚合来自未经验证公共平台的任务向量，将不同专长组合到一个大模型里——这听起来挺方便，但同时也把后门直接塞进了模型权重。攻击者只需上传一个恶意任务向量，就能在合并后的模型里引发多种下游威胁，真的不是危言耸听。

模型合并的供应链风险究竟在哪？

说白了，模型合并的工作流就像从开源集市里抓取零件拼装一辆车：开发者从Hugging Face这类平台拉取多个任务向量，再通过加权平均等算法把它们融入基础模型。任何恶意行为都能被编码进一个任务向量，而合并过程给了第三方向量直接写入模型权重的权限——这等于把车钥匙直接交给了陌生人。RogueMerge攻击之所以叫“统一鲁棒攻击”，就是因为它能用一个恶意向量同时实现多种攻击目标，而过去的研究只针对分类器做了简单的后门攻击。

为什么说RogueMerge比以往的攻击更棘手？

此前针对模型合并的后门攻击研究，依赖的是静态的算术启发式方法，说白了就是用固定公式计算任务向量的融合系数。但RogueMerge完全跳过了这个限制，它构建的恶意任务向量能自适应地激活或抑制不同下游威胁。举个例子：一个被植入RogueMerge向量的模型，在回答医疗问题时可能输出错误诊断，在代码生成时则隐藏恶意逻辑，甚至可以在特定输入下完全瘫痪。这种“一次投毒、多处生效”的特性，让防御变得极其困难。你可能会问：合并前扫描向量不就完了？抱歉，任务向量是二进制权重差值，传统安全工具根本无法区分“性能优化”和“恶意行为”在数值上的区别。

这种攻击对AI行业意味着什么

模型合并正在成为业界快速部署LLM的主流方式，Sam Altman（OpenAI CEO）领导的团队也多次强调模型组合的重要性。RogueMerge的出现等于给这条捷径铺上了地雷。想想看，企业花几百万美元训练的大模型，在合并一个社区贡献的向量后彻底失控——这损失谁担得起？更麻烦的是，攻击者完全可以在开源社区伪装成热心贡献者，持续上传携带恶意任务向量的“优化版本”，基层用户根本无从辨别。

防御RogueMerge需要跳出传统思维

目前论文并未给出完整解决方案，但有几个方向值得咱们关注：首先，合并流程必须引入动态的权重验证机制，不能盲目相信公开向量；其次，社区平台需要建立任务向量的行为审计标准，就像软件包管理器的漏洞扫描一样。哪个平台敢率先落地这些防御，它就能在AI供应链安全上抢占先机。至于普通开发者，劝你暂时别随便合并来路不明的任务向量——安全比集成新功能重要多了，对吧？

RogueMerge：模型合并中恶意任务向量实现统一鲁棒攻击

相关文章

精彩推荐