NVIDIA Blackwell NVFP4精度下LLM预训练无偏梯度估计改进

作者：袖梨 2026-06-02

NVIDIA Blackwell GPU 支持的 NVFP4 低精度格式，本可实现端到端全量化 LLM 预训练——这听起来挺美，对吧？但现有方案为追求更准确的无偏梯度估计，反而牺牲了该格式的部分表示能力，导致模型精度明显不如标准 FP16 和 FP8 训练。日前，研究人员在 Quar tet II 论文中提出了改进方法，直击这一痛点。

NVFP4 的潜力与现有困局

NVFP4 是 NVIDIA 为 Blackwell 架构量身定制的 4 位浮点格式，它承诺让大语言模型（LLM）在预训练阶段就实现完全低精度量化，从而大幅降低计算与显存开销。不过，当前主流量化训练方法为了得到更精确的无偏梯度估计，普遍采用随机舍入（SR）策略——这相当于把 NVFP4 的“表达能力”打了一个折扣。没错，梯度估计是准了，但模型最终准确率却跟着掉了一截。

改进的核心：找回丢失的表示容量

那新方法做了什么？说白了，它不再一味用随机舍入牺牲精度换“无偏”，而是通过优化梯度估计流程，在 NVFP4 的表示范围内更合理地分配位宽。论文中的思路可以这样理解：既然 NVFP4 能表示的数据范围有限，那就把有限的“格子”优先分配给对模型训练最关键的那些梯度值——而不是像 SR 那样机械地四舍五入。

与 FP16/FP8 训练的对比

改进后的方案在多个 LLM 预训练任务上，准确率已经逼近甚至达到 FP16/FP8 的水平。这其实很关键——毕竟之前大家一提起 4 位量化，总觉得“省是省了，精度肯定差一大截”。现在来看，Blackwell 的 NVFP4 硬件配合新算法，完全有望成为大模型训练的效率利器。

为什么说这是真正的突破？

试想一下，如果 4 位预训练就能追平 16 位或 8 位的效果，那算力成本能省多少？更重要的是，这意味着低精度训练不再是“凑合用”，而是“放心用”。当然，论文中的实验仍在验证阶段，但方向已经足够清晰：别再为了梯度无偏而牺牲模型能力了——平衡好两者，才是量化训练的出路。