Cactus公司日前正式开源了Needle模型,这是一个仅有26M参数的工具调用模型,能在消费级设备上实现6000 tok/s的预填充速度和1200 tok/s的解码速度。Cactus的Henry在发布时指出,他们一直对业界在廉价手机上构建智能体模型投入过少感到沮丧,因此进行了研究,发现工具调用本质上不过是检索与组装,而非复杂的推理。
为何大模型成了工具调用的标配?这确实是个值得思考的问题。Henry团队观察到,智能体体验建立在工具调用之上,而大模型对于这类任务来说纯粹是过度配置。工具调用的核心逻辑是匹配查询与工具名称、提取参数值、输出JSON格式,这其实更像一个信息检索任务,根本用不着大模型繁重的计算资源。

Needle的特别之处在于它采用交叉注意力机制,这正好贴合工具调用的本质。咱们都知道,跨注意力擅长处理查询与上下文之间的对应关系,用在工具调用上可以说非常合适。26M的参数规模意味着它可以在普通手机上流畅运行,不必依赖云端的算力支持。
从实际表现来看,6000 tok/s的预填充速度和1200 tok/s的解码速度确实让人眼前一亮。这效率挺惊人的,意味着用户几乎感觉不到延迟。Henry团队将Needle定位为“蒸馏版”模型,显然是从更大的模型中提炼出了核心能力,但成本却大幅降低了。

这样一来,开发者就能在本地设备上部署工具调用功能,不用再依赖云端API了。这对于那些注重隐私或网络条件有限的场景来说,无疑是个好消息。目前Needle已经在GitHub上开源,任何人都可以下载使用。
可以说,Needle的出现很可能改变工具调用领域的格局。当大家都在追求更大、更强的模型时,Cactus用实际行动证明:小模型也能办大事。未来,咱们或许会看到更多专门化的轻量模型,专门处理那些大模型“杀鸡焉用牛刀”的任务。