Google 发布 Gemma 4 E4B-IT 移动端 8-bit 量化模型

作者:袖梨 2026-06-07

Google 发布 Gemma 4 E4B-IT 移动端 8-bit 量化模型

Google 日前在 Hugging Face 上架了一款名为 google/gemma-4-E4B-it-qat-mobile-transformers 的模型,这是 Gemma 4 系列的首个移动端 8-bit 量化版本。该模型基于原版 google/gemma-4-E4B-it 进行量化感知训练(QAT),将权重压缩至 8 位,同时保持 any-to-any 多模态能力——即模型可以接受文本、图像等多种输入并生成对应输出。目前该模型已有 164 次下载和 7 个点赞,采用 Apache-2.0 开源许可。

8-bit 量化对移动端意味着什么

大模型直接部署在手机上通常面临内存和功耗瓶颈。8-bit 量化将每个参数从 16 位或 32 位浮点数减少为 8 位整数,模型体积缩小约一半,推理速度提升,使得 Gemma 4 这样的大模型能够在移动设备上流畅运行,而无需依赖云端算力。这一版本特别针对 移动端 场景优化,使用 Transformers 框架和 Safetensors 格式加载,兼容性较好。

Gemma 4 系列与 E4B-IT 变体

Gemma 是 Google 推出的轻量级开源大模型家族,Gemma 4 在参数效率和多模态能力上做了增强。E4B-IT 是该系列的一个变体,其中 “E4B” 可能指代模型架构配置,“IT” 指指令微调版本。这款量化模型继承了原版的 any-to-any 能力,意味着用户在手机端就能输入图文混合内容并得到文本或结构化的回复,适合离线助手、翻译、图像描述等场景。

模型标签与兼容性

  • 核心标签:transformers、safetensors、gemma4、any-to-any、8-bit、gemma
  • 基础模型:google/gemma-4-E4B-it(量化前版本)
  • 量化基模型:google/gemma-4-E4B-it(量化时参照的原始权重)
  • 兼容端点:endpoints_compatible,可对接 Hugging Face 推理 API 或离线框架

开源许可与社区初步反应

采用 Apache-2.0 许可证意味着开发者可以自由使用、修改和分发该模型,甚至用于商业场景。目前模型上架时间较短,下载量和点赞数虽然不高,但考虑到移动端量化模型尚属前沿,这一发布为开发者提供了一个可以直接在手机上跑多模态 AI 的官方基座。未来随着社区适配各种移动推理引擎(如 MediaPipe、ONNX Runtime),该模型有望降低端侧 AI 应用的开发门槛。

相关文章

精彩推荐