微调不损上下文学习：线性注意力模型理论分析

作者：袖梨 2026-06-03

arXiv日前发布一项理论分析（论文号2602.23197v2），首次证明线性注意力模型可以在微调后仍保留上下文学习能力。这一发现直接回应了业界长期困惑：凭什么大语言模型微调后，在没见过的任务上表现就会下滑？

Transformer模型有个奇特现象：它在少样本提示下能通过上下文学习适应新任务，但一旦做微调提升零样本性能，这种能力就会减弱。模型学了新技能却丢了老本事——这确实让人头疼。传统观点认为微调和上下文学习不可兼得，但线性注意力模型给出了不同答案。其实，这个问题在业界讨论已久，很多团队都遇到过模型微调后在新任务上“变笨”的情况。

这项模型理论分析发现，关键在于注意力机制的结构差异。传统注意力在微调后会把参数往新任务偏移，而线性注意力（一种用线性计算替代softmax的机制）因为计算方式不同，能在更新参数的同时保留对上下文的理解。说白了，就是模型学会了新任务，但没丢掉“看例子做题”的底层能力。论文提供了严格的数学证明，不是靠实验猜的。研究人员用线性公式重新设计了注意力计算，让参数更新和上下文学习互不干扰。这跟传统Transformer的softmax注意力有本质区别——线性注意力把计算复杂度从平方级降到线性级，同时保持了模型对示范样本的敏感度。

这个理论框架解释了为什么微调不损上下文学习：线性注意力的特性让模型能兼顾两者。论文给出的数学证明算是给后续研究打了个地基——以后设计模型时，可以更有针对性地选择注意力机制。这岂不是说，微调和上下文学习的矛盾有可能从根本上解决？