
SERVICE PHONE
363050.com发布时间:2025-06-03 17:06:36 点击量:
百家乐,百家乐平台,百家乐官方网站,百家乐在线,百家乐网址,百家乐平台推荐,百家乐网址,百家乐试玩,百家乐的玩法,百家乐赔率,百家乐技巧,百家乐公式,百家乐打法,百家乐稳赢技巧,百家乐电子,百家乐游戏本文作者来自通义实验室和北京大学,第一作者是北京大学智能学院博士生孙浩,主要研究方向是RAG和Agent,在 NeurIPS、ACL、EMNLP 等国际顶级会议上发表多篇论文,师从张岩教授。该工作在阿里巴巴通义实验室RAG团队实习期间完成。
信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中面临两大核心挑战:
文档质量不可控:真实搜索引擎返回内容不可控,训练过程易受噪声干扰。搜索 API 成本高昂:Rollout 阶段频繁调用搜索 API,训练成本极高。
为了解决这些问题,我们提出了 ZeroSearch 框架 —— 无需真实搜索,直接用大语言模型模拟搜索引擎,并引入课程学习策略,在显著降低 88% 成本的同时,在多项任务上性能超过依赖真实搜索引擎的方法。
传统训练方法需要在 Rollout 阶段频繁与真实搜索引擎交互,产生大量 API 开销,而大语言模型在预训练阶段积累了丰富的世界知识,具备根据 query 返回相关信息的能力,因此 ZeroSearch 创新性地引入大语言模型作为模拟搜索引擎(Simulation LLM),无需真实搜索,即可为策略模型生成检索文档,大幅降低了训练成本:
为了避免策略模型记住由 Simulation LLM 生成的文档,我们对文档进行了损失屏蔽(Loss Masking),仅对策略模型自己生成的 token 进行损失计算。
ZeroSearch 无需初始监督微调(SFT),直接对预训练语言模型进行强化学习训练,通过采用结构化的训练模板,引导模型在每一轮交互中划分思维步骤:
对已有信息分析,明确下一步行动提炼搜索 query总结推理过程,形成最终答案
这种结构化模板提升了模型推理路径的清晰度和可解释性,格式化的输出便于提取最终答案进行奖励计算。
直接通过 Prompt 指导 LLM 生成的模拟检索内容,往往与真实搜索引擎返回的检索内容风格差异较大,且质量不稳定。为了解决这些问题,我们采用了模拟微调策略,具体包含以下三步:
轨迹采集:从策略模型与真实搜索引擎的交互中采集 Query-Document 对质量评估:利用 Qwen-Max 作为评审,对文档进行有用性判别监督微调:构建高质量训练集,进行轻量级微调 (2 万条数据,7B 模型训练时间仅需 30 分钟)
此外我们还在 Prompt 内引入原始问题的正确答案,从而扩充 Simulation LLM 的知识边界。
经过微调的 Simulation LLM 可通过调整在 Prompt 中添加 Useful/Noisy 指令,灵活控制生成文档的质量。基于这一能力,我们进一步引入了课程学习策略,通过逐步降低文档质量,循序渐进地提升训练难度,从而更有效地激发模型的推理能力。
为实现训练难度的平滑过渡,我们设计了一个指数函数来控制 Noisy 文档的生成概率:
训练初期:训练难度上升缓慢,模型能够稳步学习基本的输出格式以及任务逻辑。训练后期,训练难度快速上升,从而促使模型不断强化其推理能力与鲁棒性。
该由易到难的训练过程能够持续激发策略模型的推理能力,有效提升强化学习训练的稳定性与最终表现。
在实验中,我们发现使用 Exact Match 作为奖励会诱导模型生成冗长内容以 “碰中” 答案,出现 Reward Hacking 问题,我们改用 F1 Score 作为奖励指标,更加关注输出的准确性与简洁性,有效抑制了冗余答案的产生。此外,我们发现模型在训练中即便不显式监督输出格式,也能生成结构规范的回答,因此没有引入格式奖励。
ZeroSearch 超越所有基线方法,该性能优势在域内以及域外数据集上均得以体现,展示了我们方法的鲁棒性。ZeroSearch 的表现优于依赖真实搜索引擎的方法 Search-R1,凸显其在大规模强化学习中替代真实搜索引擎的潜力。ZeroSearch 展现了强大的泛化能力,随着模型参数量增加,其性能进一步提升,体现了良好的扩展性。
ZeroSearch 与真实搜索的奖励趋势相似,随着训练的推进,ZeroSearch 和 Search-R1 的奖励分数都稳步上升。ZeroSearch 的奖励提升更加显著,虽然在训练初期 ZeroSearch 的奖励值低于 Search-R1,但它最终实现了超越,并且波动更小。ZeroSearch 在基础模型和指令微调模型中都展现了良好的泛化能力,在这两类模型下,ZeroSearch 的奖励表现都持续提升。
相对于Base Model,不同类型的 Simulation LLM 均可有效激发策略模型的搜索能力。基于 Prompt 的方法效果较差,主要由于其生成的文档风格与真实搜索引擎差异较大,且质量不稳定,难以支撑稳定训练。经过微调的 Simulation LLM,即便仅有 3B 参数量,也能显著提升策略模型性能;随着模型规模扩大,性能进一步提升:SFT-7B 可达到与 Google 相当的效果,SFT-14B 甚至实现超越 Google 的性能。
模型已适应数据集的跳数分布,交互策略逐步固化,在课程学习设定下,模型需提升推理能力以应对更低质量文档,从而维持较高奖励水平。
实验结果表明,Curriculum(由易到难)训练策略显著优于 Random(随机难度)训练策略,验证了该训练范式在激发模型推理能力方面的有效性。与 Random 类似,真实搜索引擎在训练过程中难以控制文档难度,导致模型缺乏系统性的能力提升路径,从而限制了推理能力的持续进化。
本文提出了 ZeroSearch,一种无需真实搜索引擎即可激活大语言模型搜索能力的强化学习框架,我们使用轻量级的监督微调将 LLM 转变为一个检索模块,在 RL 训练阶段,我们基于课程学习逐步降低检索模型生成文档的质量,通过不断提升检索难度,逐步激发策略模型推理能力。
大量实验表明,ZeroSearch 使用 3B 参数规模的模型作为检索模块时即可激发语言模型检索能力,7B 模型的检索性能已接近线B 模型甚至实现了超越。此外,ZeroSearch 对基础模型和指令微调模型均具有良好的泛化能力,并可兼容多种 RL 算法,具备极强的适应性与可扩展性。
信用卡逾期是很多人在使用信用卡过程中可能会遇到的问题之一。而招商银行作为国内一家知名的银行,其信用卡业务也是非常广泛的。那么,如果在使用招商银行信用卡时发生逾期,会有什么后果呢?本文将围绕“信用卡逾期招商”这一主题,探讨招商银行在逾期情况下的处理方式以及可能面临的法律后果。 一、信用卡逾期招商银行...
时事2:合乐8最具实力版登录05月24日,新加坡外交部发言人就台湾地区选举表示“祝贺” 中方已提出严正交涉,
第八十二章 只身闯寇窟,MG真人网址登录,美高梅国际网站,半岛·体育网页版入口。
时事3:od体育下载05月24日,河南司法警官职业学院原党委副书记、院长董世平接受审查调查,
一是城镇规模不断膨胀,城镇化水平日益提高。近年来,市、县、乡三级都十分重视城镇化建设,极力打造城镇这一承载工商业发展的载体、蕴含文化的容器,构建加快发展的大舞台。目前,市中心城区建成区面积达平方公里,市区非农业人口达到万人,分别比年增长平方公里和万人。全市县城建成区面积达平方公里,比年的平方公里增加平方公里,建成区总人口达万人。市区规划并开始建设平方公里的新城和工业城,目前,城市框架正在拉开,朝着建设豫鄂皖三省交界处的区域中心城市和豫南重点城市方向发展。县规划了平方公里的东城区,一期开发平方公里区域内各项建设进展顺利,形势喜人;县城市建设力度不减,年,县城框架拉大到平方公里,建成区面积平方公里,常住人口万,城镇化水平达到;县按照“一河两线三水四片”发展构想,城镇建成区面积扩大到平方公里,县城区人口达到万人,城镇化率达,分别较年增长了、;县城规模达到平方公里,人口达到万人;县按照“三纵三横”发展思路,县城面积由原来的平方公里扩大到平方公里;县把饮马港入淮口段平方公里水域改造成的“东西湖”,既提升了城市品味,又扩大了面积;区五路沿线开发如火如荼,并积极开辟城区向南挺进的新天地;县大力开发城东新区,扩大城区面积;区加大了旧城改造和浉河南岸改造开发力度;县不仅扩大了县城面积,而且建出了山城特色;新区开发建设经过几年的蕴育,已经进入快速发展期。全市小城镇建成区面积达平方公里,比年的平方公里增长了平方公里。重点镇、中心镇、沿边镇规模不断扩大。全市个建制镇镇区常住人口达万人,较年的万人增长万人,平均规模达平方公里,比年的平方公里增长倍,其中个省级重点镇镇区常住人口达万人,较年的万人增长。全市城镇化水平今年年底预计可以达到左右,将比年提升个多百分点,比年提升近个多百分点。
时事4:线日,台风“潭美”在菲律宾致死人数升至90人 逾578万人受灾,
,足球亚洲杯,通博娱乐,澳博在线日,【党外人士话复兴】院士卢柯:科研的“游戏”永不结束,赤红的小雀儿毫不逊色,令许多山峰化成了岩浆,赤红液体喷发向苍穹,如一道道红色的大河沟通了天地,而那只是余波,真正的大战在天穹上!,十大线国际网址,天博最新下载地址在哪。
【安徽问计寻智提升新能源汽车“国际范”】【港大主办“第五次工业革命与医学教育变革研讨会”】