LLM后训练遭遇序列数据投毒:多阶段攻击威胁

作者:袖梨 2026-06-04

arXiv 上最新发布的研究论文(编号 2606.04929)直指一个被行业长期忽视的漏洞:LLM(大型语言模型)的后训练阶段可能正遭受多重恶意攻击者的联手“围猎”。该研究正式提出“序列数据投毒”威胁模型,揭露了多阶段攻击如何让模型从“好孩子”一步步变成“问题少年”。

传统认知中的“单打独斗”假设,这回恐怕要被推翻了。 业内一直默认,数据投毒顶多发生在某个特定训练环节,比如在监督微调(SFT,用带标签的数据让模型跟着学)阶段,或者人类反馈强化学习(RLHF,靠人工打分来优化模型偏好)阶段。但现实是,大模型的后训练流程本就是接力赛:先 SFT,后 RLHF 或直接偏好优化(DPO),而且每一阶段的数据来源各不相同,甚至可能来自不可信的第三方。研究者们这回提出的核心问题就是——凭什么假设只有一个攻击者?

多阶段攻击的可怕之处在哪呢? 假设模型在 A 阶段被攻破了一个薄弱点,在 B 阶段又被植入了另一类“毒药”。单一阶段的防御措施或许能识别出异常,但只要攻击者在不同阶段“打配合”,前后投毒就能形成一条隐蔽的攻击链。这确实是个挺棘手的问题。

简单来说,攻击流程可以拆解成以下步骤:

  • 阶段一: 在 SFT 训练数据中混入含有“诱饵”的样本,埋下第一颗地雷。
  • 阶段二: 在 RLHF 或 DPO 的偏好数据中植入相反方向的“毒素”,诱导模型在特定场景下做出错误判断。
  • 阶段 x: 不同攻击者分别“点菜”,各自的恶意样本最终在模型推理时汇聚成致命漏洞。

这种攻击方式之所以难以防范,是因为它利用了后训练流程阶段性、多源头的特点。防御方往往只盯着一个阶段的数据质量,很少有人会设想,后续阶段的数据可能“修理”了前一个阶段的安全防线。这种“序列投毒”的威胁,其实挺像一群蚂蚁悄悄啃穿大坝——单个看都不起眼,合起来就是灾难。

目前这份研究已经在学术圈引发讨论。它提醒整个 AI 行业:当咱们投入大量资源把基础模型做大做强时,后训练环节的安全“水桶”是不是被忽视了?如果数据供应链的每一个环节都能被独立攻破,那最终落地的大模型,其可靠性真要打个问号。谁能保证,你正在用的那个看起来完美的 AI,不是被多阶段投毒一步步“喂”出来的危险品?

相关文章

精彩推荐