llama.cpp 项目新增 Mellum 架构模型支持

作者：袖梨 2026-06-05

llama.cpp 项目近日合并了 Mellum 架构模型支持的 Pull Request（#23966），正式把这一新型推理架构纳入其开源工具箱。这一变动意味着开发者现在可以借助 llama.cpp 直接在本地运行 Mellum 架构的模型，而不需要依赖专门的推理框架或者昂贵的云服务。

这次合并究竟带来了什么？

Pull Request #23966 的核心工作是在 llama.cpp 的模型定义层新增了对 Mellum 架构的底层支持。说白了，llama.cpp 之前能跑 LLaMA、Falcon、Mistral 等一系列主流架构，现在把 Mellum 也加了进来，等于把兼容模型列表再拉长了一大截。对于终端用户来说，只要把 Mellum 架构的模型权重转成 llama.cpp 支持的 GGUF 格式，就能直接用 CPU 或 GPU 在本地完成推理。

难道 Mellum 架构本身有什么特别之处吗？

其实社区里关于 Mellum 的讨论已经持续了一段时间，不少开发者觉得它在 token 效率和长上下文处理上做了挺有意思的优化。llama.cpp 项目组这次这么迅速地把支持代码合并进来，背后反映的是一种务实态度——既然用户有需求，那就先做到能用。后续的优化自然可以靠社区迭代慢慢补上。

对整个开源 AI 推理领域来说，这个更新算得上是一个积极信号。

llama.cpp 一直以来的定位就是“让 AI 推理平民化”：无论你是在用高端游戏显卡、老旧笔记本还是树莓派，只要模型能转成 GGUF 格式，就有可能跑起来。现在 Mellum 架构也进了这个生态，等于又给本地推理爱好者多了一种选择。你可以想象一下，以后在火车上用一台轻薄本跑 Mellum 模型做文本分析，这画面是不是还挺带感的？

接下来值得关注的是，社区开发者会怎样利用这一新能力。

按照 llama.cpp 过去的节奏，支持代码合入后，很快就有人会做性能测试、量化打包、甚至把模型整合进 GUI 前端应用里。毕竟开源项目的魅力就在于——没人催你，但总有人抢着搞。你要不要也试试自己编译个最新版，亲手跑一跑 Mellum？