BudgetDraft提出接受感知多视图训练,实现稀疏KV投机解码
BudgetDraft提出一种名为接受感知多视图训练的方法,专为稀疏KV投机解码而设计。这项研究瞄准的是资源受限环境下大模型推理的加速问题——说白了,就是让AI在显存有限的设备上也能跑得快。简单来说,它让起草者在训练时就学会应对稀疏KV缓存,从而在推理时获得更高接受率。

先聊聊背景:投机解码(Speculative Decoding)是一种加速技术,用一个轻量级的起草者模型快速生成多个候选词,再交给验证者模型并行验证。为了省显存,起草者通常使用稀疏KV缓存(只保留部分重要信息),而验证者用完整KV缓存。这样一来,峰值GPU内存和端到端延迟都能控制在固定预算内。不过,当上下文变长时,问题就暴露了。
随着上下文长度增长到4K甚至16K,朴素方法的毛病就露出来了:稀疏KV缓存和完整缓存之间的不匹配越来越严重,接受率直线下降。你可能会问,这算什么大问题?实际上,接受率低了,加速效果就没了,等于白忙活。
BudgetDraft的接受感知多视图训练正是为了给这个痛点开药方。它通过多视图训练让起草者学会感知验证者的接受行为——也就是说,训练过程中让起草者看到来自多个视角的反馈,从而在稀疏KV条件下也能输出验证者喜欢的token序列。这确实挺巧妙的。相比之下,传统方法没有这种感知能力,接受率自然上不去。
具体做法包括两个核心步骤:
目前该工作以预印本形式公布在arXiv上(编号2606.00144)。对于在手机、边缘设备等资源受限硬部署AI的场景,这无疑是一个值得关注的方向。毕竟,谁不想让大模型在自家小设备上也能流畅运行呢?