Claude Code与Codex自动发现SOTA大模型对抗攻击算法
一篇发表在arXiv上的新论文(编号2603.24511v2)披露了一项有趣的研究成果:AI智能体居然能自己发现针对大模型的新型对抗攻击算法,并且把白盒越狱和提示注入(也就是想办法让模型输出不该输出的内容)这两个攻击方向上的技术直接推到了SOTA(状态最优)水平。说白了,Claude Code和Codex这两个顶级AI智能体,在一个高度自动化的研究流程里,自己搞出了新玩意儿。

自动研究循环怎么玩?
这个系统之所以强大,是因为它没那么复杂。研究团队把Claude Code和Codex放进了一个“自动研究循环”里,给它们配备了三个核心组件:一份包含30多种已有攻击方法的资料库、一个能评估攻击效果的评测脚本,以及一笔固定的计算预算。然后,就让这两个智能体自己去读论文、写代码、跑实验,不断迭代改进攻击方案。听起来是不是挺神奇的?这就像让一个数学家自己熟读了过去几百年所有经典数学题,然后让它去琢磨新的破题思路。

具体流程其实可以拆成几步看:
整个过程几乎不需要人类插手,智能体自己就能决定下一步该探索什么方向。
实验结果让人意外?
在具体的测试中,这个自动研究流水线的表现确实让人眼前一亮。它能成功越狱OpenAI的GPT-OSS-Safeguard-20B,这是一个专门用来抵御攻击的防护模型;同时还能对Meta-SecAlign-70B进行有效的提示注入攻击,而后者本身可是经过对抗训练的,比一般模型“抗揍”得多。两个靶子都不是软柿子,但Claude Code和Codex愣是给拿下了。凭什么说这是SOTA?因为没有别的自动方法能在同样的算力限制下完成这样的挑战。
这意味着什么?
这个发现背后的逻辑,其实比结果本身更值得琢磨。咱们过去总觉得“高级攻击方法得靠顶级黑客慢慢磨”,可如今连算法本身都开始具备自动发现攻击路径的能力了。这不,以后搞大模型安全的团队,怕是得面对一种新常态:防守方不仅要防住人类想出来的攻击,还得防住AI自己折腾出来的攻击。这到底是好事还是坏事?从短期看,安全研究人员倒是有了一个免费又强悍的红队(模拟攻击方)小伙伴。
整体来说,这项研究算是给AI安全领域提了个醒——AI越聪明,攻击它的手段可能就越聪明,这场安全攻防战恐怕才刚刚开始。