LM Studio 最新测试版正式支持 MTP 推测解码加速

作者：袖梨 2026-05-30

LM Studio 最新测试版正式支持 MTP 推测解码加速。日前，LM Studio 在最新的 0.4.14 Build 2 测试版中，正式加入了 MTP 推测解码功能。这项更新意味着用户在使用本地大模型时，能够获得更快的推理速度，而不再依赖云端服务。

社区热聊：MTP 推测解码到底有多快？

在 Reddit 上，相关讨论帖获得了 183 个点赞，热度不低。不少用户已经实测了新版，结果发现推理速度确实有提升。MTP 这种技术说白了就是让模型在生成下一个 token 时，提前“猜”几步，然后并行验证，这样整体速度就上来了。这对于咱们这些经常跟本地模型打交道的开发者或爱好者来说，算是一个挺实用的升级。

重要提醒：更新后还得手动开启

需要注意的是，这个功能并非开箱即用。更新到 0.4.14 Build 2 (Beta) 后，你还需要确保 llama.cpp 引擎版本为 2.15.0。之后，在加载模型时，必须手动选择“Manually choose model load parameters”，并在弹出的选项中启用 MTP。如果不手动勾选，MTP 默认是不开启的。这可就有点考验动手能力了，不是吗？

LM Studio 官方为何此时推出？

LM Studio 选择在这个时间点推出 MTP 支持，其实挺符合当下本地推理需求的。随着开源模型的参数越来越大，用户对推理效率的要求也水涨船高。MTP 推测解码这种加速方案，可以说是在不牺牲太多质量的前提下，换取速度的最直接路径。毕竟，谁不想让本地模型跑得更快呢？

展望：本地大模型体验的新起点

总的来看，这次更新确实让 LM Studio 在本地大模型工具中更有竞争力。对于追求极致推理速度的用户来说，这无疑是个好消息。至于未来是否会进一步优化 MTP 的默认开启逻辑，或者加入更多加速策略，就看后续版本的迭代了。虽然目前操作上稍微有点门槛，但效果已经摆在那里——值得一试！