PC层多项式权重预条件助力LLM预训练

作者:袖梨 2026-06-07

PC层方法正式提出:多项式权重预条件改善LLM预训练

一篇来自arXiv预印本(编号2606.06470)的论文提出了PC层(多项式权重预条件层),旨在通过权重参数化方式稳定大型语言模型(LLM)预训练过程中的权重条件数。该PC模块采用低次多项式预条件技术重塑权重矩阵的奇异值谱,从而在训练全程保持权重的良性条件。实验在Llama-1B模型上验证了PC层相较于标准Transformer的优势,并能与AdamW和Muon两种优化器搭配使用。

技术核心:低次多项式预条件如何工作

传统LLM训练中,权重矩阵的奇异值分布会随着迭代快速退化,导致梯度更新效率降低。PC层的做法是在前向传播前对权重矩阵施加一个低次多项式变换,相当于一个可学习的预条件器。这个预条件器会压缩奇异值范围,让矩阵更接近正交——梯度信号在反向传播中衰减更平缓。论文给出的多项式次数较低(未明确具体次数,但强调“低次”),避免了额外计算开销。

训练与推理的无缝衔接

PC层的一个重要设计是:训练结束后,预条件后的权重可以合并回原始网络结构。这意味着部署时不需要保留PC模块,推理阶段的参数量和计算量完全不变。不产生任何推理开销——这对实际生产环境很关键。

与主流优化器的兼容性

论文在Llama-1B规模的预训练任务中,分别使用AdamW和Muon优化器对比了PC层与标准Transformer的效果。结果显示,无论哪种优化器,PC层都能改善训练稳定性和最终模型性能。AdamW是目前最常用的LLM优化器,而Muon是近期被证明在超大规模训练中有效的新方案,PC层同时适用于两者。

实验效果与行业意义

论文未给出具体loss下降数值或百分点,但描述了“优势”和“改善”。从原理看,PC层相当于在训练时自动做矩阵条件数调整,替代了手动学习率调度或梯度裁剪的部分作用。对于大模型训练团队,这种方法减少了超参数调优工作量,同时可能加速收敛。

LLM预训练的成本居高不下,任何能稳定训练过程、减少试错的技术都有实际价值。PC层提供了一种轻量级参数化方案,并且不影响最终模型结构,值得关注其后续在更大规模模型上的扩展表现。

相关文章

精彩推荐