BudgetDraft提出接受感知多视图训练，实现稀疏KV投机解码

作者：袖梨 2026-06-03

BudgetDraft提出接受感知多视图训练，实现稀疏KV投机解码

BudgetDraft提出一种名为接受感知多视图训练的方法，专为稀疏KV投机解码而设计。这项研究瞄准的是资源受限环境下大模型推理的加速问题——说白了，就是让AI在显存有限的设备上也能跑得快。简单来说，它让起草者在训练时就学会应对稀疏KV缓存，从而在推理时获得更高接受率。

先聊聊背景：投机解码（Speculative Decoding）是一种加速技术，用一个轻量级的起草者模型快速生成多个候选词，再交给验证者模型并行验证。为了省显存，起草者通常使用稀疏KV缓存（只保留部分重要信息），而验证者用完整KV缓存。这样一来，峰值GPU内存和端到端延迟都能控制在固定预算内。不过，当上下文变长时，问题就暴露了。

随着上下文长度增长到4K甚至16K，朴素方法的毛病就露出来了：稀疏KV缓存和完整缓存之间的不匹配越来越严重，接受率直线下降。你可能会问，这算什么大问题？实际上，接受率低了，加速效果就没了，等于白忙活。

BudgetDraft的接受感知多视图训练正是为了给这个痛点开药方。它通过多视图训练让起草者学会感知验证者的接受行为——也就是说，训练过程中让起草者看到来自多个视角的反馈，从而在稀疏KV条件下也能输出验证者喜欢的token序列。这确实挺巧妙的。相比之下，传统方法没有这种感知能力，接受率自然上不去。

具体做法包括两个核心步骤：