Mamba-2状态汇：单桶探针仅捕获少量执行层，遗漏大半检测层

作者：袖梨 2026-06-03

Mamba-2状态汇：单桶探针仅捕获少量执行层，遗漏大半检测层

一项关于Mamba-2模型机制的新研究近日在arXiv上公开，直接挑战了可解释性领域的一个核心假设。这篇论文指出，传统的单桶探针在识别模型“状态汇”时，只抓住了执行层的一小部分，却漏掉了面积大得多的检测层——表面看探针有效，实际上判断力根本不达标。说白了，咱们过去可能一直高估了这种探测手段的真实效力。

状态汇到底是什么？

Mamba-2里有个挺有意思的现象叫“状态汇”（State Sink），和注意力模型里的“注意力汇”是类似的：边界token会触发不成比例的Delta门控激活。研究人员原本以为，既然探针能抓到这个表征，那肯定也能定位到背后执行计算的电路——结果呢？彻底打脸了。单桶探针只恢复了一个小小的执行层，而检测层占比超过一半，却完全没被识别出来。

执行层 vs 检测层：规模悬殊，功能不同

单桶探针之所以会“漏检”，关键在于执行权和检测权被分在了不同的层。执行层只管下达简单的“执行命令”，而检测层复杂得多，承担着判断“该不该执行”的前置分析任务。没错，两者的表征签名确实一模一样，但探针只认签名，没能力区分层级归属。这就好比警察根据鞋印找到了一个人，但这个人可能只负责传话，背后还有个更大的指挥中心没被找到——可探针偏偏只抓到了传话那个人。

这个发现意味着什么？

对于Mamba-2这种状态空间模型，结构本就比Transformer更抽象、更难解释，现在又发现探针存在系统性盲区。如果你在做可解释性分析时只靠单桶探针这个工具，大概率会漏掉大半关键电路。难道说，整个机械可解释性的方法论基石也该重新审视一下了？

研究坦诚：方法本身需要迭代

论文没有藏着掖着，而是直接点明：可解释性分析常常默认“找到表征就等于找到了执行电路”，这一假设在Mamba-2上确实不可靠。你别急着下结论说哪种模型更好，至少目前的数据说明——单桶探针确实不靠谱，以后分析得更讲究点。

往前看，多桶探针才是硬道理

既然单桶探针只抓到执行层漏掉检测层，那改用多桶探针或者更细粒度的探测方法，也许才能把隐藏在状态汇里的完整计算链路拉出来。这次发现的本质是说：咱们对模型内部认知的完整性，可能比想象中要粗糙得多。怎么打通执行层和检测层之间的断桥？这就是下一步工作要啃的硬骨头了。