DyLLM：显著性令牌选择与部分注意力实现高效扩散LLM推理

作者：袖梨 2026-06-03

DyLLM 发布：用“显著性令牌”与“部分注意力”给扩散 LLM 推理减负

日前，一项名为 DyLLM 的新方法在 AI 社区引发讨论。它专门针对掩码扩散语言模型——这类模型能并行解码令牌，算是给传统自回归生成提供了一种挺有希望的替代方案。但问题在于，扩散模型的迭代去噪过程太“吃”计算了，每一步都得把整个序列从头到尾处理一遍，这谁能受得了？DyLLM 的核心思路很简单：别再傻傻地全量处理了，挑出那些真正关键的令牌来干活。

发现“时间稀疏性”：大部分令牌其实在“摸鱼”

研究团队观察到一个有趣现象：在扩散模型的多个去噪步骤里，大部分令牌的表示其实非常稳定，几乎没怎么变。真正对下一次更新有贡献的，其实只是一小撮“显著性令牌”。这一发现直接催生了 DyLLM——通过识别这些显著令牌，并用部分注意力机制来替代全局注意力，从而大幅降低计算量。说白了，就是让模型学会“抓重点”，别在无关细节上浪费算力。

具体怎么做的？三步走，逻辑很清晰

第一步：筛选显著令牌。模型在每一步都会评估每个令牌的“重要性”，找出那些对后续预测影响最大的令牌。
第二步：只对这些令牌做注意力计算。与传统的全序列长注意力不同，DyLLM 只对筛选出的显著令牌子集运行注意力头。这不就等于把力气用在了刀刃上吗？
第三步：整合结果，继续迭代。利用部分注意力的输出来更新序列，然后重复这个过程，直到生成结束。

效率提升，但精度不能丢这一设计的直接好处就是推理速度变快了。因为每次迭代要处理的数据量大大减少，无论是显存占用还是计算延迟，都能得到明显缓解。这对于需要实时交互或资源受限的场景来说，真的很重要。没错，DyLLM 并没有牺牲模型最终的质量来换取速度——它只是不干“重复处理稳定令牌”这种傻活了。

对行业意味着什么？在大型语言模型参数动辄上千亿的今天，推理效率差一点点就是真金白银的差距。DyLLM 为高效扩散 LLM 推理提供了一个新思路，也证明了“稀疏化”在生成任务上的潜力。未来，咱们或许能看到更多基于这种“抓重点”思维优化的模型出现，真正让 AI 在设备端或云端跑得更轻快。