LM Studio 最新测试版正式支持 MTP 推测解码加速。日前,LM Studio 在最新的 0.4.14 Build 2 测试版中,正式加入了 MTP 推测解码功能。这项更新意味着用户在使用本地大模型时,能够获得更快的推理速度,而不再依赖云端服务。
社区热聊:MTP 推测解码到底有多快?

在 Reddit 上,相关讨论帖获得了 183 个点赞,热度不低。不少用户已经实测了新版,结果发现推理速度确实有提升。MTP 这种技术说白了就是让模型在生成下一个 token 时,提前“猜”几步,然后并行验证,这样整体速度就上来了。这对于咱们这些经常跟本地模型打交道的开发者或爱好者来说,算是一个挺实用的升级。
重要提醒:更新后还得手动开启

需要注意的是,这个功能并非开箱即用。更新到 0.4.14 Build 2 (Beta) 后,你还需要确保 llama.cpp 引擎版本为 2.15.0。之后,在加载模型时,必须手动选择“Manually choose model load parameters”,并在弹出的选项中启用 MTP。如果不手动勾选,MTP 默认是不开启的。这可就有点考验动手能力了,不是吗?
LM Studio 官方为何此时推出?
LM Studio 选择在这个时间点推出 MTP 支持,其实挺符合当下本地推理需求的。随着开源模型的参数越来越大,用户对推理效率的要求也水涨船高。MTP 推测解码这种加速方案,可以说是在不牺牲太多质量的前提下,换取速度的最直接路径。毕竟,谁不想让本地模型跑得更快呢?
展望:本地大模型体验的新起点
总的来看,这次更新确实让 LM Studio 在本地大模型工具中更有竞争力。对于追求极致推理速度的用户来说,这无疑是个好消息。至于未来是否会进一步优化 MTP 的默认开启逻辑,或者加入更多加速策略,就看后续版本的迭代了。虽然目前操作上稍微有点门槛,但效果已经摆在那里——值得一试!