梦晨 发自 凹非寺量子位 | 公众号 QbitAI
推理大模子开卷新偏向,阿里开源长文本深度思索模子QwenLong-L1,登上HuggingFace今日热门论文第二。
其32B参数版本凌驾OpenAI-o3-mini、Qwen3-235B-A22B等,取得与Claude-3.7-Sonnet-Thingking相当的性能。
除测评分数外,论文中还详细展示了一个金融文档推理的案例。古板模子容易被无关细节误导,而QwenLong-L1通过回溯和验证机制过滤滋扰信息,准确整合要害数据。
使命要求:凭证文档回覆问题“将优先票据的刊行本钱与第一年的利息支出合并盘算,总资源本钱是几多?”
首先进场的基础模子DeepSeek-R1-Distill-Qwen-14B被文档中“自2011年10月15日起每半年支付一次利息”误导,凭证不相关的时间和财务信息,过失盘算了第一年的利息支付。
接下来,经由特殊SFT的版本仍然未能解决这个问题。
它在对不相关文档举行太过剖析的循环中自我嫌疑,最终尽了最大天生限制(10000 tokens),却没有给出最终谜底。
相比之下,虽然QwenLong-L1-14B最初也体现出类似的分神,但它很快举行了有用的自我反思。通过实时验证和回溯,乐成过滤掉了不相关的细节,得出了准确谜底。
那么,QwenLong-L1是怎样做到的?
渐进式上下文扩展
首先,现有推理模子在面临长文本(如几万字甚至更长)时遇到什么问题?
Qwen团队通过比照实验发明,长文本推理的强化学习训练保存两个“硬伤”:
一是训练效率低,古板强化学习(RL)要领在长文本中容易陷入局部最优,奖励收敛慢,限制了战略优化时的探索行为。
二是优化历程不稳固,长文本使命的输出长度更高、输入长度漫衍不匀称,导致战略更新时的方差被放大,训练历程中参数更新不稳固(如KL散度坐过山车)。
为此团队提出QwenLong-L1训练框架,焦点是通过渐进式上下文扩展让模子逐步顺应长文本推理。训练历程分为两阶段:
预热监视微调(Warm-Up Supervised Fine-Tuning)
在最先强化学习之前,先用高质量的演示数据举行监视微调,让模子先具备基本的长文本明确能力、推理链天生能力和谜底提取能力。
团队从DeepSeek-R1蒸馏了5.3K个高质量的问题-文档-谜底三元组,确保模子有个稳固的起点。实验效果显示,这个”热身”阶段对后续的强化学习训练至关主要。
课程指导的分阶段强化学习(Curriculum-Guided Phased Reinforcement Learning)。
从随笔笔起步过渡到长文本。例如,先训练模子处置惩罚2万token的文本,稳固后再增添到6万token,最后到128K。每个阶段只关注对应长度的文本。
别的还引入了难度感知的回溯采样机制。在进入下一阶段时,会保存前一阶段中最难的样本(平均准确率为零的那些),确保模子不会”遗忘”如那里置难题案例。
长文本问答的谜底往往较量开放,纯粹的规则匹配太死板,可能遗漏准确谜底。
QwenLong-L1在强化学习训练中接纳混淆奖励函数,连系了基于规则的验证和LLM-as-a-Judge。
规则验证也就是直接检查谜底是否与标准谜底完全一致(如数学题盘算效果是否准确),再用另一个模子判断谜底的语义是否准确(应对谜底表述差别但意思一致的情形),两者连系阻止简单规则过于严酷或宽松
在DocMath、Frames、2WikimQA等七个长文本基准测试中,QwenLong-L1-14B相比基础模子R1-Distill-Qwen-14B,平均提升了4.1分,逾越了Gemini-2.0-Flash-Thinking和Qwen3-32B。
QwenLong-L1的32B版内情比基础模子提升了5.1分,抵达70.7的平均分。这个效果不但凌驾了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。
团队还针对Test-time Scaling性能做了评估。当天生16个候选谜底时,QwenLong-L1-14B的体现凌驾了DeepSeek-R1和OpenAI-o1-preview。
最后论文中还深入探讨了两个问题:
既然SFT相对简朴自制,为什么还要辛苦搞强化学习(RL)?
实验效果很有启发性。长文本SFT确实能带来2.6分的提升,比随笔本SFT的效果更好。可是,若是在长文本SFT的基础上再做RL,提升幅度只有0.3分;而在随笔本SFT基础上做RL,却能提升3.2分。
对此团队提出一个看法:SFT提供了一种经济的性能提升方法,而RL则是抵达最优性能必不可少的。
通过跟踪剖析了四种要害推理行为发明3个结论:信息定位(grounding)、子目的设定(subgoal setting)、回溯(backtracking)和验证(verification)。
所有模子都展现出显着的推理行为,尤其是信息定位行为泛起频率最高,这证实晰它在处置惩罚上下文依赖推理时的主要性;强化学习训练历程中,这些行为会逐渐增强,并与性能提升高度相关,批注强化学习能有用调解输出空间,优先保存有助于得出准确解答的推理模式虽然SFT模子也能学会这些行为,但这些外貌上的行为模拟并没有带来实质性能提升,这展现了SFT更关注外貌模式匹配,而非实质推理能力的作育。
论文地点:https://arxiv.org/pdf/2505.17667
原神凝光乳液狂飙开襟 | 1天前 |
女人蹲便偷拍㊙️无遮挡 |
虎杖悠仁裸体❌开腿图片 | 5天前 |
精神小妹1V7精神小伙 |
强制夹冰块高潮惩罚H影片 | 6天前 |
扒开❌狂揉❌喷水作文 |
H漫画啪啪无遮挡在哪里看 | 7天前 |
埃及猫原版动画片免费观看 |
成人做爰高潮片免费漫画视频 | 2天前 |
脱👙让学生C🐻-百度视频 |
Hentai本子H18同人本子 | 9天前 |
成人叼嘿视频网站免费下载 |
Chinese男男GaY✅视频 | 1天前 |
18🈲免费3d实境模拟器 |
人与野鲁❌毛片免费浪女人 | 8天前 |
动漫❌❌爆乳❌❌玻璃 |
520886·mooc美国版520,小学生妹 | 1天前 |
壮熊多毛裸体Gay自慰网站 |
free性厨房bd性BBwHD23 | 4天前 |
石墨生花400段云盘 |