Google 推出 Gemma 4 12B QAT 量化模型支持任意模态转换

作者：袖梨 2026-06-07

Google 推出 Gemma 4 12B QAT 量化模型，支持任意模态转换

Google 近日在 Hugging Face 上线了 Gemma 4 12B QAT 量化模型（具体名称为 google/gemma-4-12B-it-qat-q4_0-gguf），该模型采用 QAT（量化感知训练）技术实现 4-bit 量化，并具备“any-to-any”（任意模态转换）能力。截至发稿，该模型在平台已获得超过 4600 次下载和 53 个点赞，采用 Apache-2.0 许可证开放，支持对话与多模态交互场景。

技术水平与核心特性

该模型基于 Gemma 4 12B 指令微调版本进行量化压缩，QAT 方法让模型在降低计算和存储需求的同时尽量保持推理精度。GGUF 格式使得模型可在 llama.cpp 等本地推理框架上运行，适合开发者部署在消费级硬件上。模型的 pipeline 标签为“any-to-any”，意味着它能直接处理文本、图像等多种输入输出形式的转换任务，而无需额外适配模块。

“任意模态转换”的实际意义

与传统的单模态或有限多模态模型不同，Gemma 4 12B QAT 模型在架构上支持从任意输入模态到任意输出模态的端到端转换。例如，开发者可以将一张图片输入模型，直接得到文字描述；或者输入一段语音并转换为结构化文本输出。这一特性大幅降低了多模态应用开发的工程门槛，尤其适用于内容理解、自动标注、跨模态检索等场景。

获取与使用方式

模型已在 Hugging Face 平台以 GGUF 格式发布，开发者可直接下载使用。对应的基础模型为 google/gemma-4-12B-it-qat-q4_0-unquantized（未量化版本），量化版则针对本地部署优化了存储和推理效率。使用流程如下：