PC层多项式权重预条件助力LLM预训练

作者：袖梨 2026-06-07

PC层方法正式提出：多项式权重预条件改善LLM预训练

一篇来自arXiv预印本（编号2606.06470）的论文提出了PC层（多项式权重预条件层），旨在通过权重参数化方式稳定大型语言模型（LLM）预训练过程中的权重条件数。该PC模块采用低次多项式预条件技术重塑权重矩阵的奇异值谱，从而在训练全程保持权重的良性条件。实验在Llama-1B模型上验证了PC层相较于标准Transformer的优势，并能与AdamW和Muon两种优化器搭配使用。

技术核心：低次多项式预条件如何工作

传统LLM训练中，权重矩阵的奇异值分布会随着迭代快速退化，导致梯度更新效率降低。PC层的做法是在前向传播前对权重矩阵施加一个低次多项式变换，相当于一个可学习的预条件器。这个预条件器会压缩奇异值范围，让矩阵更接近正交——梯度信号在反向传播中衰减更平缓。论文给出的多项式次数较低（未明确具体次数，但强调“低次”），避免了额外计算开销。

训练与推理的无缝衔接

PC层的一个重要设计是：训练结束后，预条件后的权重可以合并回原始网络结构。这意味着部署时不需要保留PC模块，推理阶段的参数量和计算量完全不变。不产生任何推理开销——这对实际生产环境很关键。

与主流优化器的兼容性

论文在Llama-1B规模的预训练任务中，分别使用AdamW和Muon优化器对比了PC层与标准Transformer的效果。结果显示，无论哪种优化器，PC层都能改善训练稳定性和最终模型性能。AdamW是目前最常用的LLM优化器，而Muon是近期被证明在超大规模训练中有效的新方案，PC层同时适用于两者。

实验效果与行业意义

论文未给出具体loss下降数值或百分点，但描述了“优势”和“改善”。从原理看，PC层相当于在训练时自动做矩阵条件数调整，替代了手动学习率调度或梯度裁剪的部分作用。对于大模型训练团队，这种方法减少了超参数调优工作量，同时可能加速收敛。

LLM预训练的成本居高不下，任何能稳定训练过程、减少试错的技术都有实际价值。PC层提供了一种轻量级参数化方案，并且不影响最终模型结构，值得关注其后续在更大规模模型上的扩展表现。