Needle开源26M参数工具调用模型,消费级设备达6000 tok/s

作者:袖梨 2026-05-30

Needle开源26M参数工具调用模型,消费级设备达6000 tok/s

Cactus团队核心成员Henry在Show HN上正式开源了Needle——一款仅有26M参数的函数调用(工具调用)模型。这款模型在消费级设备上实现了6000 tok/s的预填充速度和1200 tok/s的解码速度,直接瞄准了此前被忽视的预算手机端智能体模型市场。

为什么大模型反而是“杀鸡用牛刀”?

团队在调研后发现,工具调用本质上只是一个“检索与组装”的过程:把用户查询匹配到工具名称、提取参数值、最后输出JSON格式指令。这活儿靠的是交叉注意力机制,根本不需要大模型那种庞大的推理能力。换句话说,用千亿参数模型做这事儿,有点浪费了。

26M参数到底能干啥?

别看参数小,Needle在消费级设备上的表现确实挺亮眼。6000 tok/s的预填充速度意味着模型能快速理解用户意图并定位到正确的工具;1200 tok/s的解码速度则保证了参数提取和JSON生成的流畅性。这对于在低端手机上运行代理型应用来说,算是一个很实际的突破。

那么,团队为何执着于极小模型?Henry坦言,此前行业内对“在预算手机上运行智能体模型”这件事投入太少。大模型虽然能力全面,但部署在手机端会面临功耗、内存和速度的多重瓶颈。Needle的出生正是要填补这个空白——用最低成本实现高质量工具调用。

从技术路线看,Small模型搭配合适的训练策略,其实能解决相当一部分实际场景问题。Needle走的就是“专而精”的路子:不做全能推理,而是把工具调用这一项做到极致。这种思路或许会改变行业对边缘设备上AI能力的认知。

目前Needle已完全开源,开发者可以将其直接集成到自己的应用中。如果后续社区能在此基础上优化推理框架或进一步微调,让它在更低功耗的设备上跑起来,那可就真的有意思了。

相关文章

精彩推荐