查询电路:直接追踪信息流解释语言模型如何回答用户提示

作者:袖梨 2026-06-03

语言模型给出一个答案时,它到底在“想”些什么?长期以来,研究者能解释模型记住了哪些“能力电路”(比如识别间接宾语),却说不清它为什么对某个具体提问给出特定回答。日前,一篇来自 arXiv 的预印本论文(编号 2509.24808)正式提出了“查询电路”方法,直接追踪从输入到输出的信息流,把黑箱打开了一道口子。

从“全局能力”到“单次提问”

现有的解释工具,像稀疏自编码器这类替代模型,能找出神经元激活模式,但说白了那是“统计猜”出来的。查询电路不一样——它直接在模型本身的参数和激活值中定位路径,你问了一个问题,它就顺着信号的流动画出地图:哪一层、哪个注意力头、哪个向量把信息一步步搬到了最终答案上。这不比用代理模型去拟合更靠谱?确实,论文指出这种方法产生的解释“更忠实”,因为它不需要假借外部工具,就在模型内部做追踪。

查询电路怎么工作?

咱们可以把语言模型想象成一个巨大的传送带系统。传统方法只告诉你传送带上有哪些零件(全局电路),但查询电路会盯着你放进去的那个货物(用户提示),看它经过哪些节点、被谁拼接、最后如何变成输出。具体步骤其实挺直白:

  • 锁定输入与输出:拿一个具体提示和对应回答,比如“巴黎是法国首都吗?”和“是”。
  • 追踪信息流:在模型每一层记录关键向量的变化,找到影响输出的决定性路径。
  • 剔除噪声:去掉那些不论输入什么都会激活的通用通路,只剩下针对这个问题的专用电路。

这样一来,你不仅能解释“模型答对了”,还能看出它是不是用了正确逻辑——比如它到底调用了“城市-国家”知识,还是仅仅因为“巴黎”和“法国”在训练数据中频繁共现就瞎蒙了一个。

比现有方法好在哪?

这方法最酷的地方在于,它揭示了模型“为自己工作”的痕迹,而不仅仅是研究者造的代理模型给出的解释。举个例子,用稀疏自编码器看到某个神经元对“首都”敏感,那可能是真的,也可能是干扰;查询电路直接告诉你,从这个神经元流出去的信号到底有没有参与生成答案。这就好比你想弄明白一个人为什么说“口渴”,猜测他嗓子干(代理模型)跟他真的跑去喝水(追踪信息流)不是一回事,对吧?

局限与未来

当然,查询电路也不是万能的。目前的实验规模还偏小,主要在小模型上验证。追踪全序列的信息流计算量很大,想用到 GPT-4 这种级别还得继续优化。但这确实给“可解释性”研究开了一条新路——不再满足于回答“模型会什么”,而是追问“模型为什么这样回答”。

相关文章

精彩推荐