Mistral 正式发布 Codestral-Mamba 与 Mathstral,并引入 Mamba 架构。这两个模型分别针对编程任务与数学推理推出,目前可通过 Mistral 官方平台与更新后的 v1.2.0 代码库获取。没错,Mistral 这次直接把 Mamba 架构放进了新模型里,其实就挺让人好奇的——为什么要在自家技术栈里加入这样一种新架构?
Codestral-Mamba:编程场景的专用模型

Codestral-Mamba 是专门面向代码生成与理解任务的模型。它基于 Mamba 架构构建,而这一架构本身便与常见的 Transformer 设计不同——它能处理更长的上下文,且推理效率更高。对于开发者来说,这意味着在完成复杂编程任务时,模型可能不会那么容易丢失信息。不过,Mistral 目前还没有公开它的完整参数规模,是吧?
Mathstral:为数学推理量身定制

Mathstral 则专门处理数学问题与推理任务。与 Codestral-Mamba 类似,它也采用 Mamba 架构,但权重和训练数据更侧重数学场景。其实这就很有意思了——Mistral 把同一个架构用在两个完全不同的领域,却又不直接发布一个多用途模型,而是单独推出专用版本,说明他们确实在认真评估不同任务对架构的需求。
v1.2.0 版本带来 Mamba 架构支持
要运行这两个新模型,开发者需要更新 Mistral 推理库到 v1.2.0 版本。安装命令很简单:pip install mistral-inference>=1.2.0。更新之后,就能直接调用 Codestral-Mamba 和 Mathstral 了。凭什么说这次更新重要?因为 Mamba 架构之前在开源社区里讨论热度挺高,但很少有公司真正把它集成到产品级模型里。Mistral 这次算是率先把它落地了。
那么,Mamba 架构到底能给模型带来什么改变?从目前公开的信息看,它能在处理长序列时降低显存占用,同时保持较高的推理速度。对于编程这种需要关注长代码上下文的场景,优势还是挺明显的吧?
Mistral 的布局:不只是多一个架构
Mistral 这次推出 Codestral-Mamba 与 Mathstral,其实是在为开发者提供更多选择。Transformer 架构固然成熟,但 Mamba 架构在一些特定任务上确实有潜力——通常 Transformer 处理长文时计算量会急剧上升,而 Mamba 的线性复杂度则能让模型更轻快地运行。这是不是意味着未来会有更多模型转向这类架构?还不能下结论,但至少 Mistral 迈出了这一步。
目前这两个模型已经可以通过 Mistral 的官方平台试用,感兴趣的开发者不妨自己跑跑看。毕竟代码和数学这种场景,行不行一试便知——对吧?