Cactus开源Needle：26M参数工具调用模型，消费设备运行达6000 tok/s

作者：袖梨 2026-05-30

Cactus公司日前正式开源了Needle模型，这是一个仅有26M参数的工具调用模型，能在消费级设备上实现6000 tok/s的预填充速度和1200 tok/s的解码速度。Cactus的Henry在发布时指出，他们一直对业界在廉价手机上构建智能体模型投入过少感到沮丧，因此进行了研究，发现工具调用本质上不过是检索与组装，而非复杂的推理。

为何大模型成了工具调用的标配？这确实是个值得思考的问题。Henry团队观察到，智能体体验建立在工具调用之上，而大模型对于这类任务来说纯粹是过度配置。工具调用的核心逻辑是匹配查询与工具名称、提取参数值、输出JSON格式，这其实更像一个信息检索任务，根本用不着大模型繁重的计算资源。

Needle的特别之处在于它采用交叉注意力机制，这正好贴合工具调用的本质。咱们都知道，跨注意力擅长处理查询与上下文之间的对应关系，用在工具调用上可以说非常合适。26M的参数规模意味着它可以在普通手机上流畅运行，不必依赖云端的算力支持。

从实际表现来看，6000 tok/s的预填充速度和1200 tok/s的解码速度确实让人眼前一亮。这效率挺惊人的，意味着用户几乎感觉不到延迟。Henry团队将Needle定位为“蒸馏版”模型，显然是从更大的模型中提炼出了核心能力，但成本却大幅降低了。

这样一来，开发者就能在本地设备上部署工具调用功能，不用再依赖云端API了。这对于那些注重隐私或网络条件有限的场景来说，无疑是个好消息。目前Needle已经在GitHub上开源，任何人都可以下载使用。

可以说，Needle的出现很可能改变工具调用领域的格局。当大家都在追求更大、更强的模型时，Cactus用实际行动证明：小模型也能办大事。未来，咱们或许会看到更多专门化的轻量模型，专门处理那些大模型“杀鸡焉用牛刀”的任务。

Cactus开源Needle：26M参数工具调用模型，消费设备运行达6000 tok/s

相关文章

精彩推荐