Cartridges：模块化KV缓存实现大规模文档零预填充推理

作者：袖梨 2026-06-04

“零预填充”不再只是口号：Cartridges模块化KV缓存来了

日前，一项来自arXiv的新研究正式提出了一种名为Cartridges的技术方案，旨在大幅削减大语言模型在长文档场景下的计算浪费。说白了，这就是把文档集合“蒸馏”成可重复使用的键值缓存块，让模型在查询时直接跳过耗时的预填充阶段。没错，这项研究的核心目标就是实现真正意义上的零预填充推理，同时不牺牲精度。

传统预填充的痛点：百万级token的浪费

大家都知道，大模型在处理超长上下文时，每次输入新问题都免不了要把整段文档从头到尾“读”一遍——这就是预填充。问题在于，很多文档内容在多次查询之间根本不变，反复处理其实挺浪费的。统计表明，这类固定文本占用了大量算力，而模型真正需要关注的只是那几段关键信息。这时候你可能会问：难道不能让模型提前把“记忆”存起来，随取随用吗？Cartridges正是为了回答这个问题而来。

模块化设计：解决“一锅端”的瓶颈

不过，早期的Cartridges方案有个致命短板——它把一个文档集合压缩成一个巨大的KV缓存块，既不能拆分也没法灵活组合。这就好比把整栋楼的水泥和钢筋浇在一起，想单独挪动某一层根本不可能。更糟的是，如果强行把多个独立训练的KV缓存混在一起，模型的表现会立刻崩盘。研究团队发现，这种非组合性的单块结构根本无法向更大规模扩展。

为此，他们提出了模块化的KV缓存训练方案。核心思路其实很简单：让每个缓存块只专注编码一小部分文档，同时保留缓存间的独立性。这样一来，搭建超大文档库的推理系统时，办法就变成了——

先把海量文档按逻辑或主题拆成小块；
为每块独立训练一个模块化KV缓存；
实际查询时按需加载对应缓存，跳过预填充。

这就像图书馆把书分类上架，读者拿书时不用把整栋楼的藏书先全搬到桌上一样。整个过程既保留了精度，又把效率提上去了。

赋能大规模文档推理：从理论到落地还有多远？

当然，模块化KV缓存这条路才刚刚走通。目前研究团队已经验证了在小规模集合上的可行性，但真正部署到动辄百万级文档的工业场景，还需解决缓存加载的通信开销、缓存规模与模型容量的匹配等问题。但无论如何，Cartridges的思路给大规模文档零预填充推理指了个明确方向——咱们不再需要让模型每次都“从头读一遍”，而是教会它怎么“先存好、再取巧”。

接下来就看工程和产品层面的配合了。如果顺利，这项技术其实有望大幅降低长问答系统的推理成本，让那些需要反复查阅企业知识库、法律卷宗或科研文献的应用，真正做到既快又省。答案查完就走，何乐而不为？