神经元可识别性解释线性模式连通性:超越结构对称性

作者:袖梨 2026-06-04

线性模式连通性是深度学习领域里一个很有意思的现象——为什么两个独立训练的模型,其参数路径上的插值点也能保持相近的功能?这个问题困扰了学界许久。近日,一篇发表于arXiv的新研究(编号2606.04754)给出了一个超出以往认知的答案:关键在于神经元可识别性,而非简单的结构对称性。

旧框架的局限:为什么对称性不够?

此前,大多数解释都聚焦于参数空间的对称性,比如对神经网络进行权重重排列后,其计算出的函数不变。但这套理论有个漏洞:它只说明了“哪些参数组合是等价的”,却无法解释线性模式连通性背后那些复杂的数据与表征互动。说白了,光靠对称性,咱们根本说不清楚训练过程中那些“看似不同、实则相通”的模型到底是怎么连起来的。

新理论的突破:有效函数类与神经元的“身份”

该研究构建了一套全新的理论框架,核心概念叫有效函数类——也就是单个神经元在其输入数据上能够实现的所有函数集合,以及实现这些函数所需的范数代价。说白了,每个神经元其实有自己的“能力边界”,它不能随便做什么函数,得看输入数据支持和参数成本。通过这套框架,研究者发现,两个模型的连通性其实取决于神经元在功能上的可识别性:如果两个神经元的有效函数类接近,它们就能在插值路径上保持一致。反之,如果神经元功能相差太远,对称性再强也连不上。

这等于推翻旧认知了吗?

这确实是个挺大的观念转变。以前大家以为“结构对称性”是连通性的唯一原因,现在才发现,超越结构对称性的东西才是关键——那就是神经元自身的功能性身份。请问,一个神经元即便在拓扑上能通过重排列对应到另一个网络的神经元,但如果它俩在实际数据上能实现的函数完全不同,那对称性还有什么意义呢?新研究等于直接指出了:数据和表征的互动才是根本。

实践上的启示

这一发现对训练和压缩模型有直接价值。比如,当我们想做模型融合或者知识蒸馏时,不用再纠结于对齐网络的结构,而是去关注神经元可识别性是否匹配。具体来说可以这样操作:

  • 先分析每层神经元的有效函数类,找出功能相似的单元;
  • 再按功能相似度进行配对,而非按层名或参数位置;
  • 最后做插值或剪枝,效果会比纯结构对齐好很多。

这套流程相当于给模型的“灵魂”做了匹配,而不是只看“骨架”。

总结:一个更深的解释层面

说到底,线性模式连通性的本质,不是参数空间里的那些对称群,而是表征空间里神经元的可识别性。这份研究把原来模糊的“为什么能连上”变成了“谁的神经元在功能上足够像”。对于深度学习理论来说,这算是一次挺扎实的推进——它把对称性那层“花架子”拆掉了,露出了底下更本质的数据驱动关系。后续的研究者或许可以沿着这个思路,去解释更多训练动力学中的“巧合”现象。

相关文章

精彩推荐