Exact Linear Attention 通过核函数精确分解实现线性复杂度无近似注意力

作者：袖梨 2026-05-31

Exact Linear Attention（ELA）机制日前由一篇 arXiv 论文正式公开，其核心在于通过核函数的精确分解实现线性计算复杂度，并且做到无近似注意力——也就是说，彻底绕开了传统近似方法带来的误差。这算是一个挺实在的突破，因为之前的线性注意力要么损失精度，要么根本算不了长序列。

为什么这么说？因为梯度爆炸和 token 注意力稀释这两大顽疾，长期困扰着线性注意力领域。凭什么不能根治？ELA 给出了答案：它通过强制核函数满足非负性、可区分性和几何可解释性，从根源上压制了这些问题。这确实是一套很干净的设计。

其实，更让人意外的是 ELA 不依赖任何近似技巧。它利用了核函数精确分解的特性，把注意力计算从二次复杂度降到了线性，同时保留全精度。这就像是在不拆桥的情况下把路修直了，效率和准确性都没落下。

论文还展示了几个具体的核函数：Hadamard Exp 核、Summation Squared E 等。这些函数并不是随意拼凑的，而是为了满足刚才提到的三个约束——非负、可区分、几何可解释。可以说，每个选择都有其数学上的考量。

对比现有的线性注意力方法，ELA 的改进点很明确。过去的方案往往要靠近似核函数或采样来压低复杂度，结果精度打折，模型训练也不稳定。ELA 直接利用精确分解，梯度传播自然就更顺畅了。这真的是一步到位的做法！

当然，ELA 目前还停留在论文阶段，但它的思路给 Transformer 的高效部署提供了新方向。毕竟，线性复杂度加上无近似误差，这种组合在长序列任务中潜力巨大。后续能不能落地，咱们可以持续关注。

相关文章