CART论文发布:参数高效循环Transformer,冻结KV实现稳定训练
日前,一篇题为《CART: Context-Anchored Recurrent Transformer》的论文正式亮相,提出了一种名为CART(Context-Anchored Recurrent Transformer)的参数高效语言模型。该模型的核心理念在于,通过让一个共享的核心模块在深度方向上循环使用R次,从而大幅降低参数量。更重要的是,它找到了一个巧妙的办法来解决循环模型训练不稳定的老毛病。

关键创新:把KV张量“冻”起来
传统循环Transformer(也就是把同一层反复用很多遍的模型)有个麻烦:每次循环都要重新计算注意力用的Key和Value张量,计算量翻倍不说,梯度还容易爆炸。CART的做法挺有意思——它先用一个多层前奏模块(prelude)把Key和Value一次算好,然后就让循环核心模块通过多头潜在注意力(Multi-head Latent Attention)去“交叉注意”这些已经被“冻住”的张量。说白了,就是KV值算好就不变了,后续所有循环都只跟这些固定数值打交道,稳定性自然就上来了。
参数效率才是重点
这里要特别说说“参数高效”这个词。咱们以前见到的很多大模型,参数动辄几十亿甚至上千亿,训练成本高得吓人。CART的思路其实是把有限的参数用到了极致:单个共享核心块在深度上反复循环,相当于用一套“武功招式”打了36遍(论文里提到了36次深度循环),但总参数却没怎么增加。这种设计让模型在保持性能的同时,训练和推理的代价都大幅下降,尤其适合硬件资源不太宽裕的场景。你可能会问,参数少了效果不会打折吗?从论文的实验结果看,至少在语言建模任务上,CART的表现跟同体量的传统Transformer打成了平手,但效率高出一大截。
稳定性有妙招:LTI门控显神通
循环模型训练不稳,根本原因在于循环次数一多,隐状态要么爆炸要么消失。CART引入了一个线性时不变门控(LTI Gate)来把持局面。这个门控最神奇的地方在于,它的谱半径(spectral radius)会在训练过程中自己稳定在一个很窄的区间里——论文数据表明,在所有36次深度循环中,谱半径ρ始终在0.79到0.83之间晃荡。这种自我镇定的能力,让模型无论循环多少次都不会跑偏,这也算是给“循环Transformer训练困难”这个老问题交出了一份不错的答卷。
CART这个思路说白了就是“用固定的KV做锚点,让循环在稳定中求效率”。它不仅提出了一个可落地的架构,还顺手用一个LTI门控解决了训练稳定性。未来这类参数高效模型会成为主流吗?咱们不妨走着瞧!