Mamba-2状态汇:单桶探针仅捕获少量执行层,遗漏大半检测层
一项关于Mamba-2模型机制的新研究近日在arXiv上公开,直接挑战了可解释性领域的一个核心假设。这篇论文指出,传统的单桶探针在识别模型“状态汇”时,只抓住了执行层的一小部分,却漏掉了面积大得多的检测层——表面看探针有效,实际上判断力根本不达标。说白了,咱们过去可能一直高估了这种探测手段的真实效力。
状态汇到底是什么?
Mamba-2里有个挺有意思的现象叫“状态汇”(State Sink),和注意力模型里的“注意力汇”是类似的:边界token会触发不成比例的Delta门控激活。研究人员原本以为,既然探针能抓到这个表征,那肯定也能定位到背后执行计算的电路——结果呢?彻底打脸了。单桶探针只恢复了一个小小的执行层,而检测层占比超过一半,却完全没被识别出来。
执行层 vs 检测层:规模悬殊,功能不同
单桶探针之所以会“漏检”,关键在于执行权和检测权被分在了不同的层。执行层只管下达简单的“执行命令”,而检测层复杂得多,承担着判断“该不该执行”的前置分析任务。没错,两者的表征签名确实一模一样,但探针只认签名,没能力区分层级归属。这就好比警察根据鞋印找到了一个人,但这个人可能只负责传话,背后还有个更大的指挥中心没被找到——可探针偏偏只抓到了传话那个人。
这个发现意味着什么?
对于Mamba-2这种状态空间模型,结构本就比Transformer更抽象、更难解释,现在又发现探针存在系统性盲区。如果你在做可解释性分析时只靠单桶探针这个工具,大概率会漏掉大半关键电路。难道说,整个机械可解释性的方法论基石也该重新审视一下了?
研究坦诚:方法本身需要迭代
论文没有藏着掖着,而是直接点明:可解释性分析常常默认“找到表征就等于找到了执行电路”,这一假设在Mamba-2上确实不可靠。你别急着下结论说哪种模型更好,至少目前的数据说明——单桶探针确实不靠谱,以后分析得更讲究点。
往前看,多桶探针才是硬道理
既然单桶探针只抓到执行层漏掉检测层,那改用多桶探针或者更细粒度的探测方法,也许才能把隐藏在状态汇里的完整计算链路拉出来。这次发现的本质是说:咱们对模型内部认知的完整性,可能比想象中要粗糙得多。怎么打通执行层和检测层之间的断桥?这就是下一步工作要啃的硬骨头了。