PsychoPass：对话几何建模检测多轮LLM越狱攻击

作者：袖梨 2026-06-05

arXiv日前发表一项研究，提出PsychoPass框架——通过对话几何建模来检测多轮LLM越狱攻击。该方法将对话视为表示空间中的轨迹路径，在有害内容出现前就预测潜在攻击，这算是AI安全领域一个有意思的转向。

传统防护为何失效？

现有的LLM安全护栏其实只盯着单轮对话，但攻击者早就用多轮策略来绕过了。这就好比守门员只看眼前一个球，对手却从各个方向连续射门，能防得住吗？研究指出，多轮越狱攻击揭示了一个关键错配：防护在单轮层面运作，攻击却是跨对话轨迹展开的。说白了，静态拦截根本跟不上动态攻击的节奏。

PsychoPass的核心：从内容转向动态

PsychoPass的思路挺直接——把对话的几何结构作为检测依据。它把整个对话过程映射到嵌入空间（也就是将文字转化为数学向量的高维空间）中，提取轨迹的几何特征来做预测。有意思的是，它问了一个根本问题：攻击意图是否早在对话早期就编码在几何结构中了？这确实是个聪明的切入点。

几何特征如何提前预警？

具体来说，PsychoPass在嵌入空间中追踪每一轮对话的位置变化，勾勒出整条对话路径的几何轮廓。这些特征包括路径方向、曲率、密度分布等——它们共同构成一个“几何指纹”。研究假设，攻击性对话的路径模式与正常对话存在差异，而且这种差异在早期就显现出来了。那么，是不是意味着不用等到有害内容出现，就能提前拦截？至少目前的理论推导支持这个方向。

这为什么重要？

说实话，当前的大语言模型越狱攻击已经成了安全团队头疼的问题。多轮攻击尤其棘手，因为单轮检测手段根本防不住精心设计的对话链条。PsychoPass提供的是一种动态视角——不再只看说了什么，而是看怎么说的、对话怎么演变的。这种从内容分析到行为分析的转变，确实给AI安全带来一个新方向。它证明对话的几何结构本身就是一个未被充分利用的信号。

当然，这项研究还处于学术论证阶段，距离工程落地还有距离。但它至少打开了一个新思路：用对话轨迹的几何特征来预测攻击意图，也许比等有害内容出现再拦截更有效。未来能不能成为AI安全的标准配置？咱们可以持续关注。