LLM后训练遭遇序列数据投毒：多阶段攻击威胁

作者：袖梨 2026-06-04

arXiv 上最新发布的研究论文（编号 2606.04929）直指一个被行业长期忽视的漏洞：LLM（大型语言模型）的后训练阶段可能正遭受多重恶意攻击者的联手“围猎”。该研究正式提出“序列数据投毒”威胁模型，揭露了多阶段攻击如何让模型从“好孩子”一步步变成“问题少年”。

传统认知中的“单打独斗”假设，这回恐怕要被推翻了。 业内一直默认，数据投毒顶多发生在某个特定训练环节，比如在监督微调（SFT，用带标签的数据让模型跟着学）阶段，或者人类反馈强化学习（RLHF，靠人工打分来优化模型偏好）阶段。但现实是，大模型的后训练流程本就是接力赛：先 SFT，后 RLHF 或直接偏好优化（DPO），而且每一阶段的数据来源各不相同，甚至可能来自不可信的第三方。研究者们这回提出的核心问题就是——凭什么假设只有一个攻击者？

多阶段攻击的可怕之处在哪呢？ 假设模型在 A 阶段被攻破了一个薄弱点，在 B 阶段又被植入了另一类“毒药”。单一阶段的防御措施或许能识别出异常，但只要攻击者在不同阶段“打配合”，前后投毒就能形成一条隐蔽的攻击链。这确实是个挺棘手的问题。

简单来说，攻击流程可以拆解成以下步骤：

阶段一： 在 SFT 训练数据中混入含有“诱饵”的样本，埋下第一颗地雷。
阶段二： 在 RLHF 或 DPO 的偏好数据中植入相反方向的“毒素”，诱导模型在特定场景下做出错误判断。
阶段 x： 不同攻击者分别“点菜”，各自的恶意样本最终在模型推理时汇聚成致命漏洞。

这种攻击方式之所以难以防范，是因为它利用了后训练流程阶段性、多源头的特点。防御方往往只盯着一个阶段的数据质量，很少有人会设想，后续阶段的数据可能“修理”了前一个阶段的安全防线。这种“序列投毒”的威胁，其实挺像一群蚂蚁悄悄啃穿大坝——单个看都不起眼，合起来就是灾难。

目前这份研究已经在学术圈引发讨论。它提醒整个 AI 行业：当咱们投入大量资源把基础模型做大做强时，后训练环节的安全“水桶”是不是被忽视了？如果数据供应链的每一个环节都能被独立攻破，那最终落地的大模型，其可靠性真要打个问号。谁能保证，你正在用的那个看起来完美的 AI，不是被多阶段投毒一步步“喂”出来的危险品？

LLM后训练遭遇序列数据投毒：多阶段攻击威胁

相关文章

精彩推荐