Google DeepMind上线Gemma-4 31B QAT四比特量化多模态模型

作者：袖梨 2026-06-21

Google DeepMind在Hugging Face上推出Gemma-4 31B QAT四比特量化多模态模型，该模型通过量化感知训练技术将权重压缩至4-bit并保持16-bit激活精度，旨在降低大模型部署时的计算与存储开销。对于希望自行托管大语言模型的团队来说，这个版本在保持多模态能力的同时，大幅削减了显存需求。

量化技术如何降低模型门槛

量化技术通过降低权重数字位数来压缩模型文件体积，4-bit权重相比常规16-bit占用的空间仅为四分之一。QAT（Quantization-Aware Training，量化感知训练）在训练过程中模拟量化误差，让模型主动适应低精度表示，相比事后直接量化的精度损失更小。最终31B参数模型在推理时对GPU显卡的显存压力明显减少，但仍保留了图像与文本混合处理的能力。

多模态处理的实际用途

该仓库pipeline标签为image-text-to-text，意味着模型能同时接收图片和文字，并生成文字回应。开发者可以输入一张产品照片，让模型描述外观或识别其中的文字；也可以在数据分析中让模型结合图表与说明文本输出结论。这对于需要视觉理解的问答、文档处理或内容审核场景提供了更直接的方案。

社区反馈与部署支持

截至目前，该模型在Hugging Face上获得2492次下载和13个赞，已引起开发者关注。仓库标注为transformers兼容、endpoints_compatible，并采用safetensors格式存储，方便直接加载与推理服务集成。使用步骤大致如下：