ZeroSearch以无搜索方式激励LLM搜索能力

作者：袖梨 2026-05-31

ZeroSearch以无搜索方式激励LLM搜索能力——强化学习新路径

arXiv最新替换论文（编号2505.04588v3）提出一种名为ZeroSearch的方法，让大型语言模型（LLM）通过强化学习训练搜索能力，但整个过程不依赖实时搜索引擎。这就意味着，模型不再被外部文档质量的不确定性干扰，而是靠自身策略完成信息检索。你说这算不算一种逆向创新？

传统方法让LLM直接对接搜索引擎，每次都从真实环境抓取内容。但搜索引擎返回的文档质量参差不齐，有的噪声大、有的信息过时，这种不稳定因素会严重干扰训练。ZeroSearch干脆绕开这个环节——它用无搜索的方式模拟搜索行为，把搜索过程本身变成可优化的策略，挺有意思吧？

具体来说，ZeroSearch将搜索视为一种内部动作，模型在训练中自己决定何时发起“搜索”、如何整合“搜到的信息”。强化学习的奖励信号来自最终推理或生成任务的表现，而不是搜索引擎的反馈。这样一来，模型就能学会在不确定环境下主动获取关键线索，确实比被动依赖外源更稳健。

为什么非要绕过搜索引擎？

其实道理很简单：训练时每搜索一次都会引入随机性，不同时间、不同地域返回的文档可能完全不同。LLM在这种噪音中很难学到稳定的策略。ZeroSearch把搜索动作内化，相当于让模型在头脑中“模拟搜索”，从而获得更可靠的学习信号。没错，这就像咱们人类不翻书也能回忆知识——LLM也需要这种内部检索能力。

论文指出，ZeroSearch在多个推理和生成基准上表现优于传统方法，尤其当外部文档质量下降时，性能差距更加明显。这意味着LLM不再被搜索引擎的“脾气”绑架，而是真正掌握了自主搜索的技能。不过，这种无搜索方式会不会限制模型获取实时信息呢？作者留了个悬念，暗示未来可以结合轻量级外部校验。

目前，ZeroSearch还处在学术验证阶段，但它展示了一个方向：让LLM的搜索能力从“工具依赖”转向“技能内化”。可以这么说，如果强化学习能教会模型自己判断什么时候搜、搜什么，那咱们离真正的自主智能又近了一步。至于如何平衡内部模拟与外部事实的准确性，就得看后续研究怎么解决了。

相关文章