通义实验室、北大宣布ZeroSearch，无需搜索即可激活LLM检索能力

通义实验室、北大宣布ZeroSearch，无需搜索即可激活LLM检索能力

本文作者来自通义实验室和北京大学，第一作者是北京大学智能学院博士生孙浩，主要研究偏向是RAG和Agent，在 NeurIPS、ACL、EMNLP 等国际顶级聚会上揭晓多篇论文，师从张岩教授。该事情在阿里巴巴通义实验室RAG团队实习时代完成。

信息检索能力对提升大语言模子 (LLMs) 的推理体现至关主要，近期研究实验引入强化学习 (RL) 框架激活 LLMs 自动搜集信息的能力，但现有要领在训练历程中面临两大焦点挑战：

文档质量不可控：真实搜索引擎返回内容不可控，训练历程易受噪声滋扰。搜索 API 本钱高昂：Rollout 阶段频仍挪用搜索 API，训练本钱极高。

为相识决这些问题，我们提出了 ZeroSearch 框架 —— 无需真实搜索，直接用大语言模子模拟搜索引擎，并引入课程学习战略，在显著降低 88% 本钱的同时，在多项使命上性能凌驾依赖真实搜索引擎的要领。

论文问题：ZeroSearch: Incentivize the Search Capability of LLMs without Searching论文地点：https://arxiv.org/pdf/2505.04588代码地点：https://github.com/Alibaba-NLP/ZeroSearch项目主页：https://alibaba-nlp.github.io/ZeroSearchHuggingface 主页：https://huggingface.co/collections/sunhaonlp/zerosearch-v2-6827f4ee6b6265069d443d4e

要领

无需搜索的强化学习框架

古板训练要领需要在 Rollout 阶段频仍与真实搜索引擎交互，爆发大宗 API 开销，而大语言模子在预训练阶段积累了富厚的天下知识，具备凭证 query 返回相关信息的能力，因此 ZeroSearch 立异性地引入大语言模子作为模拟搜索引擎（Simulation LLM），无需真实搜索，即可为战略模子天生检索文档，大幅降低了训练本钱：

为了阻止战略模子记着由 Simulation LLM 天生的文档，我们对文档举行了损失屏障（Loss Masking），仅对战略模子自己天生的 token 举行损失盘算。

结构化训练模板

ZeroSearch 无需初始监视微调（SFT），直接对预训练语言模子举行强化学习训练，通过接纳结构化的训练模板，指导模子在每一轮交互中划分头脑办法：

对已有信息剖析，明确下一步行动提炼搜索 query总结推理历程，形成最终谜底

这种结构化模板提升了模子推理路径的清晰度和可诠释性，名堂化的输出便于提取最终谜底举行奖励盘算。

搜索模拟微调

直接通过 Prompt 指导 LLM 天生的模拟检索内容，往往与真实搜索引擎返回的检索内容气概差别较大，且质量不稳固。为相识决这些问题，我们接纳了模拟微调战略，详细包括以下三步：

轨迹收罗：从战略模子与真实搜索引擎的交互中收罗 Query-Document 对证量评估：使用 Qwen-Max 作为评审，对文档举行有用性判别监视微调：构建高质量训练集，举行轻量级微调 (2 万条数据，7B 模子训练时间仅需 30 分钟)

别的我们还在 Prompt 内引入原始问题的准确谜底，从而扩充 Simulation LLM 的知识界线。

基于课程学习的文档天生战略

经由微调的 Simulation LLM 可通过调解在 Prompt 中添加 Useful/Noisy 指令，无邪控制天生文档的质量；谡庖荒芰，我们进一步引入了课程学习战略，通过逐步降低文档质量，循序渐进地提升训练难度，从而更有用地引发模子的推理能力。

为实现训练难度的平滑过渡，我们设计了一个指数函数来控制 Noisy 文档的天生概率：

训练初期：训练难度上升缓慢，模子能够稳步学习基本的输特殊式以及使命逻辑。训练后期，训练难度快速上升，从而促使模子一直强化其推理能力与鲁棒性。

该由易到难的训练历程能够一连引发战略模子的推理能力，有用提升强化学习训练的稳固性与最终体现。

奖励函数设计

在实验中，我们发明使用 Exact Match 作为奖励会诱导模子天生冗长内容以 “碰中” 谜底，泛起 Reward Hacking 问题，我们改用 F1 Score 作为奖励指标，越发关注输出的准确性与精练性，有用抑制了冗余谜底的爆发。别的，我们发明模子在训练中即便不显式监视输特殊式，也能天生结构规范的回覆，因此没有引入名堂奖励。

实验效果

主要性能体现

ZeroSearch 逾越所有基线要领，该性能优势在域内以及域外数据集上均得以体现，展示了我们要领的鲁棒性。ZeroSearch 的体现优于依赖真实搜索引擎的要领 Search-R1，凸显其在大规模强化学习中替换真实搜索引擎的潜力。ZeroSearch 展现了强盛的泛化能力，随着模子参数目增添，其性能进一步提升，体现了优异的扩展性。

与真实搜索引擎比照

ZeroSearch 与真实搜索的奖励趋势相似，随着训练的推进，ZeroSearch 和 Search-R1 的奖励分数都稳步上升。ZeroSearch 的奖励提升越发显著，虽然在训练初期 ZeroSearch 的奖励值低于 Search-R1，但它最终实现了逾越，并且波动更小。ZeroSearch 在基础模子和指令微调模子中都展现了优异的泛化能力，在这两类模子下，ZeroSearch 的奖励体现都一连提升。

模拟搜索设定比照

相关于Base Model，差别类型的 Simulation LLM 均可有用引发战略模子的搜索能力； Prompt 的要领效果较差，主要由于其天生的文档气概与真实搜索引擎差别较大，且质量不稳固，难以支持稳固训练。经由微调的 Simulation LLM，即便仅有 3B 参数目，也能显著提升战略模子性能；随着模子规模扩大，性能进一步提升：SFT-7B 可抵达与 Google 相当的效果，SFT-14B 甚至实现逾越 Google 的性能。

交互轮数研究

训练初期：交互轮数迅速下降，奖励缓慢上升

此阶段模子尚未掌握搜索挪用机制，经常爆发冗余交互，检索效果不佳。

训练中期：交互轮数迅速回升，奖励同步显著提升

模子逐渐学会怎样高效挪用搜索引擎，能够获取准确信息，回覆质量显著提高。

训练后期：交互轮数和奖励趋于稳固

模子已顺应数据集的跳数漫衍，交互战略逐步固化，在课程学习设定下，模子需提升推理能力以应对更低质量文档，从而维持较高奖励水平。

课程学习战略研究

实验效果批注，Curriculum（由易到难）训练战略显著优于 Random（随机难度）训练战略，验证了该训练范式在引发模子推理能力方面的有用性。与 Random 类似，真实搜索引擎在训练历程中难以控制文档难度，导致模子缺乏系统性的能力提升路径，从而限制了推理能力的一连进化。

总结

本文提出了 ZeroSearch，一种无需真实搜索引擎即可激活大语言模子搜索能力的强化学习框架，我们使用轻量级的监视微调将 LLM 转变为一个检索？，在 RL 训练阶段，我们基于课程学习逐步降低检索模子天生文档的质量，通过一直提升检索难度，逐步引发战略模子推理能力。

大宗实验批注，ZeroSearch 使用 3B 参数规模的模子作为检索？槭奔纯梢⒂镅阅Ｗ蛹焖髂芰，7B 模子的检索性能已靠近真实搜索引擎，而 14B 模子甚至实现了逾越。别的，ZeroSearch 对基础模子和指令微调模子均具有优异的泛化能力，并可兼容多种 RL 算法，具备极强的顺应性与可扩展性。