R²-dLLM：时空冗余削减加速扩散大语言模型推理

作者：袖梨 2026-06-05

R²-dLLM 的发布：直击扩散大语言模型推理的延迟痛点

日前，一种名为 R²-dLLM 的新方法在 arXiv 上发布，它专门针对扩散大语言模型（dLLMs）推理速度慢的瓶颈。说白了，这类模型虽然能并行生成 token（文本的最小单元），但实际解码时还是慢吞吞的，这就很影响落地应用。R²-dLLM 要干的，就是给这个解码过程“减负”，提速。

推理慢的根源：藏在解码过程中的“时空冗余”

那么，问题到底出在哪儿？研究团队观察到一个关键现象：解码过程中的大部分效率损失，来自反复出现的“冗余”。这冗余还分两种：空间冗余和时间冗余。空间上，模型在预测下一个字时，有时会因为“信心簇”（明确知道该选哪个词）和“位置模糊”（不确定词该放哪儿）而浪费计算力；时间上，模型会反复去“修正”那些其实已经确定下来的预测结果，这不就是做无用功吗？

R²-dLLM 如何“动手术”：有策略地削减冗余

R²-dLLM 的做法挺巧妙，它像一位精明的工兵，专门负责拆除这些“重复劳动”。其核心思路就是识别并削减这些时空冗余。具体来看，它主要做了这几件事：

识别“死胡同”：通过分析当前所有可能 token 的置信度，精准找出那些已经板上钉钉的预测，以及那些死活排不出正确位置的模糊区域。
避免“翻旧账”：在时间维度上，阻止模型对那些已经“敲定”的 token 进行重复的遮盖和重新预测操作，节省下大量不必要的迭代步骤。
加速整体流程：经过这两把“手术刀”的修剪，整个解码过程的效率自然就上去了，推理延迟也就降了下来。

一个关键的对比：跳出“自回归”的旧框架

说到这，你可能会问，干嘛不直接用传统的自回归模型（一个词一个词地生成）？其实扩散大语言模型（dLLM）的诞生，本就是为了突破这种“串行”模式的限制，实现并行预测。R²-dLLM 的工作，正是在这个新方向上，解决了它成长过程中的“成长的烦恼”。它的价值不在于创造新模型，而在于给现存的并行生成方法找到了一个“减负增效”的捷径。

对 AI 推理的启示：精细化加速才是未来

R²-dLLM 的思路给整个行业提了个醒：跑得快固然重要，但更重要的是知道哪里该发力、哪里该收力。对于大模型落地来说，每一次推理延迟的降低，都意味着更低的计算成本和更流畅的用户体验。现在，研究团队把目光聚焦在了“冗余”这个具体问题上，找到了一个清晰可行的着力点。这对于成本敏感的应用场景——比如移动端推理和实时交互——来说，确实是个不错的消息。可以预见，针对推理过程的精细化优化，正成为大模型竞赛中一个绕不开的主战场。

R²-dLLM：时空冗余削减加速扩散大语言模型推理

相关文章

精彩推荐