llama.cpp 项目新增 Mellum 架构模型支持

作者:袖梨 2026-06-05

llama.cpp 项目近日合并了 Mellum 架构模型支持的 Pull Request(#23966),正式把这一新型推理架构纳入其开源工具箱。这一变动意味着开发者现在可以借助 llama.cpp 直接在本地运行 Mellum 架构的模型,而不需要依赖专门的推理框架或者昂贵的云服务。

这次合并究竟带来了什么?

Pull Request #23966 的核心工作是在 llama.cpp 的模型定义层新增了对 Mellum 架构的底层支持。说白了,llama.cpp 之前能跑 LLaMA、Falcon、Mistral 等一系列主流架构,现在把 Mellum 也加了进来,等于把兼容模型列表再拉长了一大截。对于终端用户来说,只要把 Mellum 架构的模型权重转成 llama.cpp 支持的 GGUF 格式,就能直接用 CPU 或 GPU 在本地完成推理。

难道 Mellum 架构本身有什么特别之处吗?

其实社区里关于 Mellum 的讨论已经持续了一段时间,不少开发者觉得它在 token 效率和长上下文处理上做了挺有意思的优化。llama.cpp 项目组这次这么迅速地把支持代码合并进来,背后反映的是一种务实态度——既然用户有需求,那就先做到能用。后续的优化自然可以靠社区迭代慢慢补上。

对整个开源 AI 推理领域来说,这个更新算得上是一个积极信号。

llama.cpp 一直以来的定位就是“让 AI 推理平民化”:无论你是在用高端游戏显卡、老旧笔记本还是树莓派,只要模型能转成 GGUF 格式,就有可能跑起来。现在 Mellum 架构也进了这个生态,等于又给本地推理爱好者多了一种选择。你可以想象一下,以后在火车上用一台轻薄本跑 Mellum 模型做文本分析,这画面是不是还挺带感的?

接下来值得关注的是,社区开发者会怎样利用这一新能力。

按照 llama.cpp 过去的节奏,支持代码合入后,很快就有人会做性能测试、量化打包、甚至把模型整合进 GUI 前端应用里。毕竟开源项目的魅力就在于——没人催你,但总有人抢着搞。你要不要也试试自己编译个最新版,亲手跑一跑 Mellum?

相关文章

精彩推荐