MXFP4量化引发Llama 3.1-8B全流水线FP4训练发散

作者:袖梨 2026-05-31

arXiv最新上传论文(编号2605.09825)揭示了Llama 3.1-8B在原生FP4硬件上进行全流水线训练时发散的核心原因。研究发现,即使前向传播和激活梯度在量化后保持稳定,全流水线FP4训练仍然会失败。这究竟是怎么回事?其实关键问题出在权重梯度(Wgrad)的量化上。

MXFP4量化逐步暴露训练陷阱

研究团队对MXFP4量化进行了精细控制,在C4数据集上预训练Llama 3.1-8B模型时,逐步启用前向传播、激活梯度和权重梯度的FP4量化。他们发现,将前向传播和激活梯度单独量化时,模型尚能维持训练稳定性。可一旦轮到权重梯度也加入FP4量化,情况就完全不一样了——训练直接走向发散。

权重梯度量化才是真正的“罪魁祸首”

为什么偏偏是权重梯度?论文指出,量化的Wgrad是导致收敛退化最主要的因素。之前的直觉可能认为前向激活不稳定才是麻烦,但这项控制实验给出了挺意外的答案:前向和梯度都稳定时,全流水线FP4照样发散。可以说,权重梯度量化这个环节才是全流水线训练中真正的短板。

这项发现对AI训练的实际影响

Llama 3.1-8B在C4数据集上的全FP4预训练经历,为AI硬件设计者提供了一个明确方向:若想实现更高效的底层硬件加速,必须优先解决权重梯度的FP4量化稳定性问题。仅仅关注前向传播和激活梯度的量化优化,恐怕很难突破全流水线训练的瓶颈。

后续研究能否带来转机?

这项arXiv上的研究为业界指明了下一步的攻关重点。权重梯度的量化方案能否调整,或者FP4硬件能否为梯度计算提供更高精度支持,都成了值得探索的问题。咱们也可以持续关注,看看后续能不能找到稳定实现全流水线FP4训练的方法。

相关文章

精彩推荐