Claude Code与Codex自动发现SOTA大模型对抗攻击算法

作者：袖梨 2026-06-03

Claude Code与Codex自动发现SOTA大模型对抗攻击算法

一篇发表在arXiv上的新论文（编号2603.24511v2）披露了一项有趣的研究成果：AI智能体居然能自己发现针对大模型的新型对抗攻击算法，并且把白盒越狱和提示注入（也就是想办法让模型输出不该输出的内容）这两个攻击方向上的技术直接推到了SOTA（状态最优）水平。说白了，Claude Code和Codex这两个顶级AI智能体，在一个高度自动化的研究流程里，自己搞出了新玩意儿。

自动研究循环怎么玩？

这个系统之所以强大，是因为它没那么复杂。研究团队把Claude Code和Codex放进了一个“自动研究循环”里，给它们配备了三个核心组件：一份包含30多种已有攻击方法的资料库、一个能评估攻击效果的评测脚本，以及一笔固定的计算预算。然后，就让这两个智能体自己去读论文、写代码、跑实验，不断迭代改进攻击方案。听起来是不是挺神奇的？这就像让一个数学家自己熟读了过去几百年所有经典数学题，然后让它去琢磨新的破题思路。

具体流程其实可以拆成几步看：

首先，系统拿现有的攻击方法做基准测试，知道目前最高水平在哪里。
接着，Claude Code或Codex开始阅读研究资料，分析现有方法的弱点。
然后，它们尝试设计新的攻击思路，写代码实现出来。
最后，用评测脚本跑一遍看效果，如果比老方法厉害，就记录下来。

整个过程几乎不需要人类插手，智能体自己就能决定下一步该探索什么方向。

实验结果让人意外？

在具体的测试中，这个自动研究流水线的表现确实让人眼前一亮。它能成功越狱OpenAI的GPT-OSS-Safeguard-20B，这是一个专门用来抵御攻击的防护模型；同时还能对Meta-SecAlign-70B进行有效的提示注入攻击，而后者本身可是经过对抗训练的，比一般模型“抗揍”得多。两个靶子都不是软柿子，但Claude Code和Codex愣是给拿下了。凭什么说这是SOTA？因为没有别的自动方法能在同样的算力限制下完成这样的挑战。

这意味着什么？

这个发现背后的逻辑，其实比结果本身更值得琢磨。咱们过去总觉得“高级攻击方法得靠顶级黑客慢慢磨”，可如今连算法本身都开始具备自动发现攻击路径的能力了。这不，以后搞大模型安全的团队，怕是得面对一种新常态：防守方不仅要防住人类想出来的攻击，还得防住AI自己折腾出来的攻击。这到底是好事还是坏事？从短期看，安全研究人员倒是有了一个免费又强悍的红队（模拟攻击方）小伙伴。

整体来说，这项研究算是给AI安全领域提了个醒——AI越聪明，攻击它的手段可能就越聪明，这场安全攻防战恐怕才刚刚开始。