查询电路：直接追踪信息流解释语言模型如何回答用户提示

作者：袖梨 2026-06-03

语言模型给出一个答案时，它到底在“想”些什么？长期以来，研究者能解释模型记住了哪些“能力电路”（比如识别间接宾语），却说不清它为什么对某个具体提问给出特定回答。日前，一篇来自 arXiv 的预印本论文（编号 2509.24808）正式提出了“查询电路”方法，直接追踪从输入到输出的信息流，把黑箱打开了一道口子。

从“全局能力”到“单次提问”

现有的解释工具，像稀疏自编码器这类替代模型，能找出神经元激活模式，但说白了那是“统计猜”出来的。查询电路不一样——它直接在模型本身的参数和激活值中定位路径，你问了一个问题，它就顺着信号的流动画出地图：哪一层、哪个注意力头、哪个向量把信息一步步搬到了最终答案上。这不比用代理模型去拟合更靠谱？确实，论文指出这种方法产生的解释“更忠实”，因为它不需要假借外部工具，就在模型内部做追踪。

查询电路怎么工作？

咱们可以把语言模型想象成一个巨大的传送带系统。传统方法只告诉你传送带上有哪些零件（全局电路），但查询电路会盯着你放进去的那个货物（用户提示），看它经过哪些节点、被谁拼接、最后如何变成输出。具体步骤其实挺直白：

锁定输入与输出：拿一个具体提示和对应回答，比如“巴黎是法国首都吗？”和“是”。
追踪信息流：在模型每一层记录关键向量的变化，找到影响输出的决定性路径。
剔除噪声：去掉那些不论输入什么都会激活的通用通路，只剩下针对这个问题的专用电路。

这样一来，你不仅能解释“模型答对了”，还能看出它是不是用了正确逻辑——比如它到底调用了“城市-国家”知识，还是仅仅因为“巴黎”和“法国”在训练数据中频繁共现就瞎蒙了一个。

比现有方法好在哪？

这方法最酷的地方在于，它揭示了模型“为自己工作”的痕迹，而不仅仅是研究者造的代理模型给出的解释。举个例子，用稀疏自编码器看到某个神经元对“首都”敏感，那可能是真的，也可能是干扰；查询电路直接告诉你，从这个神经元流出去的信号到底有没有参与生成答案。这就好比你想弄明白一个人为什么说“口渴”，猜测他嗓子干（代理模型）跟他真的跑去喝水（追踪信息流）不是一回事，对吧？

局限与未来

当然，查询电路也不是万能的。目前的实验规模还偏小，主要在小模型上验证。追踪全序列的信息流计算量很大，想用到 GPT-4 这种级别还得继续优化。但这确实给“可解释性”研究开了一条新路——不再满足于回答“模型会什么”，而是追问“模型为什么这样回答”。