MXFP4量化引发Llama 3.1-8B全流水线FP4训练发散

作者：袖梨 2026-05-31

arXiv最新上传论文（编号2605.09825）揭示了Llama 3.1-8B在原生FP4硬件上进行全流水线训练时发散的核心原因。研究发现，即使前向传播和激活梯度在量化后保持稳定，全流水线FP4训练仍然会失败。这究竟是怎么回事？其实关键问题出在权重梯度（Wgrad）的量化上。

MXFP4量化逐步暴露训练陷阱

研究团队对MXFP4量化进行了精细控制，在C4数据集上预训练Llama 3.1-8B模型时，逐步启用前向传播、激活梯度和权重梯度的FP4量化。他们发现，将前向传播和激活梯度单独量化时，模型尚能维持训练稳定性。可一旦轮到权重梯度也加入FP4量化，情况就完全不一样了——训练直接走向发散。

权重梯度量化才是真正的“罪魁祸首”

为什么偏偏是权重梯度？论文指出，量化的Wgrad是导致收敛退化最主要的因素。之前的直觉可能认为前向激活不稳定才是麻烦，但这项控制实验给出了挺意外的答案：前向和梯度都稳定时，全流水线FP4照样发散。可以说，权重梯度量化这个环节才是全流水线训练中真正的短板。

这项发现对AI训练的实际影响

Llama 3.1-8B在C4数据集上的全FP4预训练经历，为AI硬件设计者提供了一个明确方向：若想实现更高效的底层硬件加速，必须优先解决权重梯度的FP4量化稳定性问题。仅仅关注前向传播和激活梯度的量化优化，恐怕很难突破全流水线训练的瓶颈。

后续研究能否带来转机？

这项arXiv上的研究为业界指明了下一步的攻关重点。权重梯度的量化方案能否调整，或者FP4硬件能否为梯度计算提供更高精度支持，都成了值得探索的问题。咱们也可以持续关注，看看后续能不能找到稳定实现全流水线FP4训练的方法。

相关文章