NVIDIA Blackwell NVFP4精度下LLM预训练无偏梯度估计改进

作者:袖梨 2026-06-02

NVIDIA Blackwell GPU 支持的 NVFP4 低精度格式,本可实现端到端全量化 LLM 预训练——这听起来挺美,对吧?但现有方案为追求更准确的无偏梯度估计,反而牺牲了该格式的部分表示能力,导致模型精度明显不如标准 FP16 和 FP8 训练。日前,研究人员在 Quar tet II 论文中提出了改进方法,直击这一痛点。

NVFP4 的潜力与现有困局

NVFP4 是 NVIDIA 为 Blackwell 架构量身定制的 4 位浮点格式,它承诺让大语言模型(LLM)在预训练阶段就实现完全低精度量化,从而大幅降低计算与显存开销。不过,当前主流量化训练方法为了得到更精确的无偏梯度估计,普遍采用随机舍入(SR)策略——这相当于把 NVFP4 的“表达能力”打了一个折扣。没错,梯度估计是准了,但模型最终准确率却跟着掉了一截。

改进的核心:找回丢失的表示容量

那新方法做了什么?说白了,它不再一味用随机舍入牺牲精度换“无偏”,而是通过优化梯度估计流程,在 NVFP4 的表示范围内更合理地分配位宽。论文中的思路可以这样理解:既然 NVFP4 能表示的数据范围有限,那就把有限的“格子”优先分配给对模型训练最关键的那些梯度值——而不是像 SR 那样机械地四舍五入。

与 FP16/FP8 训练的对比

改进后的方案在多个 LLM 预训练任务上,准确率已经逼近甚至达到 FP16/FP8 的水平。这其实很关键——毕竟之前大家一提起 4 位量化,总觉得“省是省了,精度肯定差一大截”。现在来看,Blackwell 的 NVFP4 硬件配合新算法,完全有望成为大模型训练的效率利器。

为什么说这是真正的突破?

试想一下,如果 4 位预训练就能追平 16 位或 8 位的效果,那算力成本能省多少?更重要的是,这意味着低精度训练不再是“凑合用”,而是“放心用”。当然,论文中的实验仍在验证阶段,但方向已经足够清晰:别再为了梯度无偏而牺牲模型能力了——平衡好两者,才是量化训练的出路。

相关文章

精彩推荐