最小化优化器设计实现LLM预训练内存高效压缩

作者：袖梨 2026-06-02

在优化大模型预训练的内存消耗这条路上，研究者们终于给出了一个极致的答案：只需对标准随机梯度下降做两处极其简单的修改，就能在性能不降的前提下，把内存占用压缩到接近SGD的水平。这篇题为《Memory-Efficient LLM Pretraining via Minimalist Optimizer Design》的论文在预印本平台arXiv上发布，系统性地回答了“想要匹配现代自注意力模型的预训练效果，到底最少要对SGD做多少改动”这个关键问题。

凭什么认为只有Adam这类自适应优化器才是唯一答案呢？过去几年，Adam及其变体几乎成了大模型训练的标配，但代价是它需要额外存储一阶和二阶动量，这使得内存开销比SGD高出好几倍。虽然GaLore、Fira以及APOLLO等项目已经提出了状态压缩的省内存方案，但一个根本的疑问始终没被解答——如果就从最基础的SGD出发，往上加功能，加到什么程度才能追上当前顶尖的预训练效果？论文正是通过自底向上的方式，一点点探索这个边界。

这项成果其实有一个挺有意思的出发点：它不再设计复杂的自适应机制，而是反过来问，哪些改动是真正必要的？研究团队通过大量实验确认，只需要对SGD做两项极简修改，就可以在内存效率和训练效果之间取得很好的平衡。你可以说这算是给那些拼命给优化器做“加法”的研究泼了一盆冷水——原来真正的瓶颈不在算法多花哨，而在于那些被忽视的冗余更新。

这就带来了一个很直接的好处：既然改动那么少，内存自然就省下来了。相比Adam，这种极简优化器几乎不需要额外的动量存储，这对于动辄几百亿参数的LLM来说，确实是一个挺大的吸引力。毕竟，在算力和显存都捉襟见肘的今天，能省一点内存就意味着能塞下更大的模型或者更长的上下文。当然，论文目前只公布了框架和思路，具体的实验数据还需要等更多研究者去复现。

这样看来，未来大模型训练的内存方案可能会因此多一个靠谱的选择——不再只有在“省内存但效果打折”和“效果好但耗内存”之间二选一。为什么不在追求极致性能的同时把内存也做到极致呢？这篇工作至少证明，两者是可以兼得的，而实现手段简朴得让人有点意外。