Cartridges:模块化KV缓存实现大规模文档零预填充推理

作者:袖梨 2026-06-04

“零预填充”不再只是口号:Cartridges模块化KV缓存来了

日前,一项来自arXiv的新研究正式提出了一种名为Cartridges的技术方案,旨在大幅削减大语言模型在长文档场景下的计算浪费。说白了,这就是把文档集合“蒸馏”成可重复使用的键值缓存块,让模型在查询时直接跳过耗时的预填充阶段。没错,这项研究的核心目标就是实现真正意义上的零预填充推理,同时不牺牲精度。

传统预填充的痛点:百万级token的浪费

大家都知道,大模型在处理超长上下文时,每次输入新问题都免不了要把整段文档从头到尾“读”一遍——这就是预填充。问题在于,很多文档内容在多次查询之间根本不变,反复处理其实挺浪费的。统计表明,这类固定文本占用了大量算力,而模型真正需要关注的只是那几段关键信息。这时候你可能会问:难道不能让模型提前把“记忆”存起来,随取随用吗?Cartridges正是为了回答这个问题而来。

模块化设计:解决“一锅端”的瓶颈

不过,早期的Cartridges方案有个致命短板——它把一个文档集合压缩成一个巨大的KV缓存块,既不能拆分也没法灵活组合。这就好比把整栋楼的水泥和钢筋浇在一起,想单独挪动某一层根本不可能。更糟的是,如果强行把多个独立训练的KV缓存混在一起,模型的表现会立刻崩盘。研究团队发现,这种非组合性的单块结构根本无法向更大规模扩展。

为此,他们提出了模块化的KV缓存训练方案。核心思路其实很简单:让每个缓存块只专注编码一小部分文档,同时保留缓存间的独立性。这样一来,搭建超大文档库的推理系统时,办法就变成了——

  • 先把海量文档按逻辑或主题拆成小块;
  • 为每块独立训练一个模块化KV缓存;
  • 实际查询时按需加载对应缓存,跳过预填充。

这就像图书馆把书分类上架,读者拿书时不用把整栋楼的藏书先全搬到桌上一样。整个过程既保留了精度,又把效率提上去了。

赋能大规模文档推理:从理论到落地还有多远?

当然,模块化KV缓存这条路才刚刚走通。目前研究团队已经验证了在小规模集合上的可行性,但真正部署到动辄百万级文档的工业场景,还需解决缓存加载的通信开销、缓存规模与模型容量的匹配等问题。但无论如何,Cartridges的思路给大规模文档零预填充推理指了个明确方向——咱们不再需要让模型每次都“从头读一遍”,而是教会它怎么“先存好、再取巧”。

接下来就看工程和产品层面的配合了。如果顺利,这项技术其实有望大幅降低长问答系统的推理成本,让那些需要反复查阅企业知识库、法律卷宗或科研文献的应用,真正做到既快又省。答案查完就走,何乐而不为?

相关文章

精彩推荐