研究人员提出一种名为 Phantom Transfer 的新型数据投毒攻击,其最棘手的特性在于:即便防御方清楚知道毒源被放置在数据集的哪个位置,依然无法将其过滤。这一成果来自 arXiv 上的论文(arXiv:2602.04899v2),直接动摇了“已知威胁就可防御”的安全常识。
攻击原理:阈下学习的现实化改造

Phantom Transfer 攻击的核心其实是对“阈下学习”技术的改造,让它能在真实世界里发挥作用。说白了,这种攻击往干净数据里掺入毒药时,毒药会以一种跟正常数据“融为一体”的方式存在——无论这些数据是由哪种模型生成的、拿去训练哪种模型,或者攻击目标是什么,毒药都照样生效。
测试结果:11 种防御手段全部失效
研究团队测试了 11 种数据级防御方法,结果没一个能挡住 Phantom Transfer。这 11 种方法里甚至包括“把每个样本都换一种说法(paraphrasing)”这种近乎翻来覆去洗数据的极端操作——它真的连这样都还能存活。可以说,现有主流的数据清洗、检测、去噪方案,在这类攻击面前基本形同虚设。
这情况挺让人头疼,不是吗?传统上大家觉得“只要我知道毒药在哪,把它挑出来扔掉就行”,现在这招行不通了。凭什么已知的毒源还过滤不掉?因为攻击利用了模型训练过程中的隐性学习机制,毒药的特征被分散、嵌入到了数据的高维结构里,单靠表面过滤根本揪不出来。
实际影响:AI 供应链安全面临新困境
这件事对 AI 行业来说确实是个不小的冲击。现在很多公司会用第三方数据集、开源数据来训练模型,如果有人在里面埋了这种“去不掉”的毒药,那模型从根上就带着隐患。更麻烦的是,你用了什么数据、数据来源是谁,这些环节都很容易出问题。防御方就算拿到了完整的数据集,也没办法保证里面没有隐藏的“不坏金身”。
下一步怎么办?
既然数据级防御靠不住,那行业就得重新想想防御思路。是不是得在训练过程中加入更强的检测机制?或者在模型架构层面做对抗性加固?还是说,未来需要建立一套从数据采集到模型发布的全链路溯源体系?这些问题的答案目前还不清晰,但 Phantom Transfer 已经用实验证明——光靠“过滤毒源”这条路,走不通了。