TreeFlash并行AR近似方法加速推测解码

作者:袖梨 2026-06-05

TreeFlash并行AR近似方法加速推测解码:一脚踢碎传统草稿生成的速度瓶颈

日前,一项名为TreeFlash的研究在arXiv上公开,它提出了一种名为“并行AR近似”的新方法,专门用来给推测解码(speculative decoding,一种让大模型生成文字更快的技术)提速。说白了,传统方法生成草稿token(预测候选词)时是一步步来的,像挤牙膏;TreeFlash却能做到一个前向传播(一次计算)就把整个草稿全吐出来,这吞吐量提升确实够狠。

但事情没那么简单。 TreeFlash这种“一次性草稿生成器”虽然快,却有个绕不开的硬伤:它预测每个草稿token时,只依赖初始的上下文前缀,压根不看自己前面刚刚生成的、同一个树枝上的其他草稿token。这种“非自回归”的生成方式,说白了就是各看各的、互不依赖。随着草稿长度增长,它算出来的概率分布,跟真正检验器(verifier,负责把关的模型)该有的、自回归生成的概率分布,偏差会越滚越大。这问题有多严重?当草稿变得很长时,偏差大到几乎没法用,吞吐量提升再多也白搭。

更重要的是,树形结构下的加权分歧会更棘手。 在树形草稿(tree-based drafting)的场景里,不同分支本来应该有不同的上下文依赖,但TreeFlash这个“并行AR近似”方法却强迫所有分支在同一个非自回归条件下生成。这不就等于让左转和右转的车走同一条路吗?结果就是,不同分支的分布跟真实情况的偏离程度还不一样,有的方向偏离小,有的方向偏离大,乱成一锅粥。这种“分布分歧”在直觉上不难理解:你让模型预测下一个词,它没看到前一个自己塞进去的词,猜错的可能性当然会越来越大。

那TreeFlash到底有没有实用价值呢? 从研究思路看,它确实抓住了“加速”的本质:把顺序生成变成并行生成,这跟GPU(图形处理器,专门做并行计算的核心硬件)的工作特性是绝配。但代价也很明显——准确性随着长度下降。这就像你开车用一条近路,速度快了但容易走错;传统方法虽然慢一些,但每一步都核对路牌。咱们可以做个简单对比:传统一次性生成器在短草稿(比如2-3个token)时,几乎没什么偏差,加速效果明显;一旦草稿长度拉长到5个token以上,偏差积累就会让验证器拒绝大部分草稿,白费功夫。TreeFlash应该也逃不开这个规律。

对于需要实时推理的应用场景来说,这确实是个大问题! 想象一下,你让AI帮你写一段代码,它生成一个50个token的草稿,结果有一半都不符合规则,需要重新生成,那还不如按老办法一步步来呢。因此,TreeFlash真正要解决的核心矛盾,其实就是怎么在保持并行优势的同时,尽量把分支间的分布偏差压下去。研究团队接下来可能会尝试引入一些额外的依赖信号,比如在并行架构里强行插入位置编码或全局上下文向量,让不同分支能“感受到”彼此的差异。这条路真能走通吗?咱们不妨等等看后续有没有更完善的技术方案。

相关文章

精彩推荐