DyLLM 发布:用“显著性令牌”与“部分注意力”给扩散 LLM 推理减负
日前,一项名为 DyLLM 的新方法在 AI 社区引发讨论。它专门针对掩码扩散语言模型——这类模型能并行解码令牌,算是给传统自回归生成提供了一种挺有希望的替代方案。但问题在于,扩散模型的迭代去噪过程太“吃”计算了,每一步都得把整个序列从头到尾处理一遍,这谁能受得了?DyLLM 的核心思路很简单:别再傻傻地全量处理了,挑出那些真正关键的令牌来干活。

发现“时间稀疏性”:大部分令牌其实在“摸鱼”
研究团队观察到一个有趣现象:在扩散模型的多个去噪步骤里,大部分令牌的表示其实非常稳定,几乎没怎么变。真正对下一次更新有贡献的,其实只是一小撮“显著性令牌”。这一发现直接催生了 DyLLM——通过识别这些显著令牌,并用部分注意力机制来替代全局注意力,从而大幅降低计算量。说白了,就是让模型学会“抓重点”,别在无关细节上浪费算力。

具体怎么做的?三步走,逻辑很清晰
效率提升,但精度不能丢这一设计的直接好处就是推理速度变快了。因为每次迭代要处理的数据量大大减少,无论是显存占用还是计算延迟,都能得到明显缓解。这对于需要实时交互或资源受限的场景来说,真的很重要。没错,DyLLM 并没有牺牲模型最终的质量来换取速度——它只是不干“重复处理稳定令牌”这种傻活了。
对行业意味着什么?在大型语言模型参数动辄上千亿的今天,推理效率差一点点就是真金白银的差距。DyLLM 为高效扩散 LLM 推理提供了一个新思路,也证明了“稀疏化”在生成任务上的潜力。未来,咱们或许能看到更多基于这种“抓重点”思维优化的模型出现,真正让 AI 在设备端或云端跑得更轻快。