NVIDIA发布Nemotron-3多模态推理模型,30B参数仅3B激活

作者:袖梨 2026-05-30

NVIDIA 日前在 Hugging Face 上发布了 Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 模型,这是一款 30B 总参数仅 3B 激活的多模态推理模型,刚上线就拿到了 238098 次下载和 282 个赞。模型采用稀疏专家架构(MoE),推理时只激活 10% 的参数,效率确实挺高。

30B 参数只激活 3B,凭什么这么强? 答案藏在“any-to-any”这个 pipeline tag 里——模型支持图像、文本、语音等多种模态的输入输出,而不是单纯的文本聊天。它基于 NemotronH_Nano_Omni_Reasoning_V3 架构构建,再用 NVIDIA 自家的 Nemotron-Image-Training-v3 数据集进行训练,这就让它在多模态推理上有了实打实的竞争力。

多模态模型越来越多,Nemotron-3 到底哪里不一样? 其实关键在于“推理”二字。它不是简单的多模态识别模型,而是能理解图像中的逻辑关系并进行多步推理。比如说你给它一张图表,它不光能读出数字,还能分析趋势、做预测。这一点对于企业级应用来说真的很有价值。

再来看技术细节:模型使用 safetensors 格式存储权重,基于 PyTorch 框架开发,属于 transformers 生态。它支持 feature-extraction 功能,意味着开发者可以将其嵌入到更大的 AI 系统中作为特征提取模块。这种灵活性让咱们在做二次开发时省了不少力气。

开源、多模态、低激活参数——这套组合拳打得很准! 要知道,大模型部署的最大痛点是显存和算力。Nemotron-3 用 30B 总参 + 3B 激活的策略,相当于把一台“重型卡车”改装成了“轻量跑车”:功能不减,成本却大幅降低。对于中小企业来说,这确实是个好消息。

目前模型在 Hugging Face 上以 BF16 格式提供,这对于服务器端推理非常友好。NVIDIA 这次算是把推理效率做到了一个新高度——30B 参数级别里,能同时兼顾多模态和低激活的模型本来就没几个,Nemotron-3 可以说是直接抢占了先机。

相关文章

精彩推荐