Mistral 发布 Codestral-Mamba 与 Mathstral，引入 Mamba 架构

作者：袖梨 2026-05-30

Mistral 正式发布 Codestral-Mamba 与 Mathstral，并引入 Mamba 架构。这两个模型分别针对编程任务与数学推理推出，目前可通过 Mistral 官方平台与更新后的 v1.2.0 代码库获取。没错，Mistral 这次直接把 Mamba 架构放进了新模型里，其实就挺让人好奇的——为什么要在自家技术栈里加入这样一种新架构？

Codestral-Mamba：编程场景的专用模型

Codestral-Mamba 是专门面向代码生成与理解任务的模型。它基于 Mamba 架构构建，而这一架构本身便与常见的 Transformer 设计不同——它能处理更长的上下文，且推理效率更高。对于开发者来说，这意味着在完成复杂编程任务时，模型可能不会那么容易丢失信息。不过，Mistral 目前还没有公开它的完整参数规模，是吧？

Mathstral：为数学推理量身定制

Mathstral 则专门处理数学问题与推理任务。与 Codestral-Mamba 类似，它也采用 Mamba 架构，但权重和训练数据更侧重数学场景。其实这就很有意思了——Mistral 把同一个架构用在两个完全不同的领域，却又不直接发布一个多用途模型，而是单独推出专用版本，说明他们确实在认真评估不同任务对架构的需求。

v1.2.0 版本带来 Mamba 架构支持

要运行这两个新模型，开发者需要更新 Mistral 推理库到 v1.2.0 版本。安装命令很简单：pip install mistral-inference>=1.2.0。更新之后，就能直接调用 Codestral-Mamba 和 Mathstral 了。凭什么说这次更新重要？因为 Mamba 架构之前在开源社区里讨论热度挺高，但很少有公司真正把它集成到产品级模型里。Mistral 这次算是率先把它落地了。

那么，Mamba 架构到底能给模型带来什么改变？从目前公开的信息看，它能在处理长序列时降低显存占用，同时保持较高的推理速度。对于编程这种需要关注长代码上下文的场景，优势还是挺明显的吧？

Mistral 的布局：不只是多一个架构

Mistral 这次推出 Codestral-Mamba 与 Mathstral，其实是在为开发者提供更多选择。Transformer 架构固然成熟，但 Mamba 架构在一些特定任务上确实有潜力——通常 Transformer 处理长文时计算量会急剧上升，而 Mamba 的线性复杂度则能让模型更轻快地运行。这是不是意味着未来会有更多模型转向这类架构？还不能下结论，但至少 Mistral 迈出了这一步。

目前这两个模型已经可以通过 Mistral 的官方平台试用，感兴趣的开发者不妨自己跑跑看。毕竟代码和数学这种场景，行不行一试便知——对吧？