Needle开源26M参数工具调用模型，消费级设备达6000 tok/s

作者：袖梨 2026-05-30

Needle开源26M参数工具调用模型，消费级设备达6000 tok/s

Cactus团队核心成员Henry在Show HN上正式开源了Needle——一款仅有26M参数的函数调用（工具调用）模型。这款模型在消费级设备上实现了6000 tok/s的预填充速度和1200 tok/s的解码速度，直接瞄准了此前被忽视的预算手机端智能体模型市场。

为什么大模型反而是“杀鸡用牛刀”？

团队在调研后发现，工具调用本质上只是一个“检索与组装”的过程：把用户查询匹配到工具名称、提取参数值、最后输出JSON格式指令。这活儿靠的是交叉注意力机制，根本不需要大模型那种庞大的推理能力。换句话说，用千亿参数模型做这事儿，有点浪费了。

26M参数到底能干啥？

别看参数小，Needle在消费级设备上的表现确实挺亮眼。6000 tok/s的预填充速度意味着模型能快速理解用户意图并定位到正确的工具；1200 tok/s的解码速度则保证了参数提取和JSON生成的流畅性。这对于在低端手机上运行代理型应用来说，算是一个很实际的突破。

那么，团队为何执着于极小模型？Henry坦言，此前行业内对“在预算手机上运行智能体模型”这件事投入太少。大模型虽然能力全面，但部署在手机端会面临功耗、内存和速度的多重瓶颈。Needle的出生正是要填补这个空白——用最低成本实现高质量工具调用。

从技术路线看，Small模型搭配合适的训练策略，其实能解决相当一部分实际场景问题。Needle走的就是“专而精”的路子：不做全能推理，而是把工具调用这一项做到极致。这种思路或许会改变行业对边缘设备上AI能力的认知。

目前Needle已完全开源，开发者可以将其直接集成到自己的应用中。如果后续社区能在此基础上优化推理框架或进一步微调，让它在更低功耗的设备上跑起来，那可就真的有意思了。

相关文章