D^2SD双扩散草稿模型加速推测解码令牌生成

作者：袖梨 2026-06-04

D²SD双扩散草稿模型加速推测解码令牌生成，大模型推理迎来新突破

arXiv上最新发布的论文（论文编号2606.04446v1）带来了一种叫D²SD的方法，全称是“双重扩散草稿模型加速推测解码”。它专门解决大语言模型（LLM，像ChatGPT那样的对话AI）生成文字时的速度瓶颈问题。说白了，就是让AI“想得更快、写得更多”。

过去常用的推测解码技术，虽然能一次生成多个token（令牌，即AI输出的最小文字单位），再用目标模型一次性验证，但有个老大难——一旦第一个token验证失败，后面所有草稿都得扔掉重来。这就像写文章第一句写偏了，整张稿纸都得撕掉，其实挺浪费的。

D²SD的巧妙之处

D²SD并没有简单地多批几份候选序列，因为研究发现单纯增加候选数量只能带来微小的收益——冗余分支太多，反而拖慢速度。D²SD的团队用的是双重扩散草稿模型：一个负责生成多样化的候选序列，另一个负责评估每个分支的“靠谱程度”。这样一来，即使第一个token出错，后面还有备选路径，不必全盘推倒重来。

这不就相当于给AI的“草稿纸”加了个智能分拣系统吗？你可能会问：凭什么它能做得更好？关键在于，D²SD在验证阶段不是一条道走到黑，而是把多候选序列组织成动态树结构，让推理路径随时可以切换。实验数据显示，这种方式的token接受率（即顺利通过验证的比例）大幅提升，加速效果显著。

对比传统方法

我们拿现有方案做个对比就更清楚了：