最小化优化器设计实现LLM预训练内存高效压缩

作者:袖梨 2026-06-02

在优化大模型预训练的内存消耗这条路上,研究者们终于给出了一个极致的答案:只需对标准随机梯度下降做两处极其简单的修改,就能在性能不降的前提下,把内存占用压缩到接近SGD的水平。这篇题为《Memory-Efficient LLM Pretraining via Minimalist Optimizer Design》的论文在预印本平台arXiv上发布,系统性地回答了“想要匹配现代自注意力模型的预训练效果,到底最少要对SGD做多少改动”这个关键问题。

凭什么认为只有Adam这类自适应优化器才是唯一答案呢?过去几年,Adam及其变体几乎成了大模型训练的标配,但代价是它需要额外存储一阶和二阶动量,这使得内存开销比SGD高出好几倍。虽然GaLore、Fira以及APOLLO等项目已经提出了状态压缩的省内存方案,但一个根本的疑问始终没被解答——如果就从最基础的SGD出发,往上加功能,加到什么程度才能追上当前顶尖的预训练效果?论文正是通过自底向上的方式,一点点探索这个边界。

这项成果其实有一个挺有意思的出发点:它不再设计复杂的自适应机制,而是反过来问,哪些改动是真正必要的?研究团队通过大量实验确认,只需要对SGD做两项极简修改,就可以在内存效率和训练效果之间取得很好的平衡。你可以说这算是给那些拼命给优化器做“加法”的研究泼了一盆冷水——原来真正的瓶颈不在算法多花哨,而在于那些被忽视的冗余更新。

这就带来了一个很直接的好处:既然改动那么少,内存自然就省下来了。相比Adam,这种极简优化器几乎不需要额外的动量存储,这对于动辄几百亿参数的LLM来说,确实是一个挺大的吸引力。毕竟,在算力和显存都捉襟见肘的今天,能省一点内存就意味着能塞下更大的模型或者更长的上下文。当然,论文目前只公布了框架和思路,具体的实验数据还需要等更多研究者去复现。

这样看来,未来大模型训练的内存方案可能会因此多一个靠谱的选择——不再只有在“省内存但效果打折”和“效果好但耗内存”之间二选一。为什么不在追求极致性能的同时把内存也做到极致呢?这篇工作至少证明,两者是可以兼得的,而实现手段简朴得让人有点意外。

相关文章

精彩推荐