CART 提出参数高效循环Transformer，交叉注意冻结KV实现稳定训练

作者：袖梨 2026-06-03

CART论文发布：参数高效循环Transformer，冻结KV实现稳定训练

日前，一篇题为《CART: Context-Anchored Recurrent Transformer》的论文正式亮相，提出了一种名为CART（Context-Anchored Recurrent Transformer）的参数高效语言模型。该模型的核心理念在于，通过让一个共享的核心模块在深度方向上循环使用R次，从而大幅降低参数量。更重要的是，它找到了一个巧妙的办法来解决循环模型训练不稳定的老毛病。

关键创新：把KV张量“冻”起来

传统循环Transformer（也就是把同一层反复用很多遍的模型）有个麻烦：每次循环都要重新计算注意力用的Key和Value张量，计算量翻倍不说，梯度还容易爆炸。CART的做法挺有意思——它先用一个多层前奏模块（prelude）把Key和Value一次算好，然后就让循环核心模块通过多头潜在注意力（Multi-head Latent Attention）去“交叉注意”这些已经被“冻住”的张量。说白了，就是KV值算好就不变了，后续所有循环都只跟这些固定数值打交道，稳定性自然就上来了。

参数效率才是重点

这里要特别说说“参数高效”这个词。咱们以前见到的很多大模型，参数动辄几十亿甚至上千亿，训练成本高得吓人。CART的思路其实是把有限的参数用到了极致：单个共享核心块在深度上反复循环，相当于用一套“武功招式”打了36遍（论文里提到了36次深度循环），但总参数却没怎么增加。这种设计让模型在保持性能的同时，训练和推理的代价都大幅下降，尤其适合硬件资源不太宽裕的场景。你可能会问，参数少了效果不会打折吗？从论文的实验结果看，至少在语言建模任务上，CART的表现跟同体量的传统Transformer打成了平手，但效率高出一大截。

稳定性有妙招：LTI门控显神通

循环模型训练不稳，根本原因在于循环次数一多，隐状态要么爆炸要么消失。CART引入了一个线性时不变门控（LTI Gate）来把持局面。这个门控最神奇的地方在于，它的谱半径（spectral radius）会在训练过程中自己稳定在一个很窄的区间里——论文数据表明，在所有36次深度循环中，谱半径ρ始终在0.79到0.83之间晃荡。这种自我镇定的能力，让模型无论循环多少次都不会跑偏，这也算是给“循环Transformer训练困难”这个老问题交出了一份不错的答卷。

CART这个思路说白了就是“用固定的KV做锚点，让循环在稳定中求效率”。它不仅提出了一个可落地的架构，还顺手用一个LTI门控解决了训练稳定性。未来这类参数高效模型会成为主流吗？咱们不妨走着瞧!