阿里开源长文本深度思索模子!渐进式强化学习破解长文本训练难题
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
推理大模子开卷新偏向,阿里开源长文本深度思索模子QwenLong-L1,登上HuggingFace今日热门论文第二。
其32B参数版本凌驾OpenAI-o3-mini、Qwen3-235B-A22B等,取得与Claude-3.7-Sonnet-Thingking相当的性能。
除测评分数外,论文中还详细展示了一个金融文档推理的案例。古板模子容易被无关细节误导,而QwenLong-L1通过回溯和验证机制过滤滋扰信息,准确整合要害数据。
使命要求:凭证文档回覆问题“将优先票据的刊行本钱与第一年的利息支出合并盘算,总资源本钱是几多?”
首先进场的基础模子DeepSeek-R1-Distill-Qwen-14B被文档中“自2011年10月15日起每半年支付一次利息”误导,凭证不相关的时间和财务信息,过失盘算了第一年的利息支付。
接下来,经由特殊SFT的版本仍然未能解决这个问题。
它在对不相关文档举行太过剖析的循环中自我嫌疑,最终尽了最大天生限制(10000 tokens),却没有给出最终谜底。
相比之下,虽然QwenLong-L1-14B最初也体现出类似的分神,但它很快举行了有用的自我反思。通过实时验证和回溯,乐成过滤掉了不相关的细节,得出了准确谜底。
那么,QwenLong-L1是怎样做到的?
渐进式上下文扩展
首先,现有推理模子在面临长文本(如几万字甚至更长)时遇到什么问题?
Qwen团队通过比照实验发明,长文本推理的强化学习训练保存两个“硬伤”:
一是训练效率低,古板强化学习(RL)要领在长文本中容易陷入局部最优,奖励收敛慢,限制了战略优化时的探索行为。
二是优化历程不稳固,长文本使命的输出长度更高、输入长度漫衍不匀称,导致战略更新时的方差被放大,训练历程中参数更新不稳固(如KL散度坐过山车)。
为此团队提出QwenLong-L1训练框架,焦点是通过渐进式上下文扩展让模子逐步顺应长文本推理。训练历程分为两阶段:
预热监视微调(Warm-Up Supervised Fine-Tuning)
在最先强化学习之前,先用高质量的演示数据举行监视微调,让模子先具备基本的长文本明确能力、推理链天生能力和谜底提取能力。
团队从DeepSeek-R1蒸馏了5.3K个高质量的问题-文档-谜底三元组,确保模子有个稳固的起点。实验效果显示,这个”热身”阶段对后续的强化学习训练至关主要。
课程指导的分阶段强化学习(Curriculum-Guided Phased Reinforcement Learning)。
从随笔笔起步过渡到长文本。例如,先训练模子处置惩罚2万token的文本,稳固后再增添到6万token,最后到128K。每个阶段只关注对应长度的文本。
别的还引入了难度感知的回溯采样机制。在进入下一阶段时,会保存前一阶段中最难的样本(平均准确率为零的那些),确保模子不会”遗忘”如那里置难题案例。
长文本问答的谜底往往较量开放,纯粹的规则匹配太死板,可能遗漏准确谜底。
QwenLong-L1在强化学习训练中接纳混淆奖励函数,连系了基于规则的验证和LLM-as-a-Judge。
规则验证也就是直接检查谜底是否与标准谜底完全一致(如数学题盘算效果是否准确),再用另一个模子判断谜底的语义是否准确(应对谜底表述差别但意思一致的情形),两者连系阻止简单规则过于严酷或宽松
在DocMath、Frames、2WikimQA等七个长文本基准测试中,QwenLong-L1-14B相比基础模子R1-Distill-Qwen-14B,平均提升了4.1分,逾越了Gemini-2.0-Flash-Thinking和Qwen3-32B。
QwenLong-L1的32B版内情比基础模子提升了5.1分,抵达70.7的平均分。这个效果不但凌驾了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。
团队还针对Test-time Scaling性能做了评估。当天生16个候选谜底时,QwenLong-L1-14B的体现凌驾了DeepSeek-R1和OpenAI-o1-preview。
最后论文中还深入探讨了两个问题:
既然SFT相对简朴自制,为什么还要辛苦搞强化学习(RL)?
实验效果很有启发性。长文本SFT确实能带来2.6分的提升,比随笔本SFT的效果更好。可是,若是在长文本SFT的基础上再做RL,提升幅度只有0.3分;而在随笔本SFT基础上做RL,却能提升3.2分。
对此团队提出一个看法:SFT提供了一种经济的性能提升方法,而RL则是抵达最优性能必不可少的。
通过跟踪剖析了四种要害推理行为发明3个结论:信息定位(grounding)、子目的设定(subgoal setting)、回溯(backtracking)和验证(verification)。
所有模子都展现出显着的推理行为,尤其是信息定位行为泛起频率最高,这证实晰它在处置惩罚上下文依赖推理时的主要性;强化学习训练历程中,这些行为会逐渐增强,并与性能提升高度相关,批注强化学习能有用调解输出空间,优先保存有助于得出准确解答的推理模式虽然SFT模子也能学会这些行为,但这些外貌上的行为模拟并没有带来实质性能提升,这展现了SFT更关注外貌模式匹配,而非实质推理能力的作育。
论文地点:https://arxiv.org/pdf/2505.17667
相关推荐:莫妮卡裸体 我的好儿媳月月最终身份 男被绑住㊙️四肢取精网站
粉色视频🈲🈲🈲下载安装
9l视频自拍蝌蚪9l视频
张家界小白龙16分钟演出地点
玖辛奈强乳喷自慰爽
迪丽热巴被❌到喷水18禁
无尽❌裸体❌触手❌视频
国产做受❌❌蓝莓视频吧
成人福利APP导航大全
секс мама 192.168.0.1
欧美做受❌❌❌高潮喷水白丝袜
女同学蹲下露出内裤
林草茂盛老熟女
娇妻互换被高潮了三次
1000部免费A片毛片
爽躁多水快深点三p文章
色视频成人♥在线观看免
绝区零简杜❌自慰喷水漫画
五花大绑裸体美女㊙️
爱色AV
扒开❌狂躁❌公交车
中国少妇精品❌❌❌OOO喷水
扒开腿灌牛奶拏调教微博
美女被c❌到爽的游戏
日本无码一级A片奶水人妻网站
美女隐私㊙️让男人吻动漫
绫波丽18禁H同人本子
亚洲AV成人片无码网站
扒开内衣吸奶头
女人扒开让男人❌出白浆电视
古代的婬荡婬H
巴巴塔被爆❌自慰流水
女神后入颜射乳交
美女让男人边亲边摸自己羞羞
中国🇨🇳熟老太HDt∪be
九色直播
“苍月奥特曼无删减”
扒开❌狂揉❌喷水动漫
撕开吸奶头进屁
男人🍌伸进女仆的🍑动漫
嗯~啊~快点🌿死我韩漫无码
小婷好大用力深一动图
凤鸟吟唱气质国模
美女脱👙给我捏🐻动漫
12孩岁女裸体㊙️
3d动漫Free❌㐅❌性HD
美女露🐻18🈲
扒开腿做爰XXXⅩ高潮原神动漫
naimi奶咪最新番外
女仆游戏18㊙️免费游戏水多
XXNXX888سكسس
Cosplay裸体❌开腿漫画
小宵虎南SSNI-610无码
MM131杨晨晨被❌喷水视
🔞🍌进🍑里❌❌❌玩漫画
八重神子爆乳潮喷
哈里斯裸体无码
原神胡桃大战史莱姆原版在哪看
果冻传媒AV精品国产网站
WWW6T96
撕开奶罩边躁狠狠躁软学生电影
曜被铠扒开双腿c失禁
好大公快用力日日深视频
H漫纯肉无遮挡全彩漫
武警男同教练龙阳呻吟
李沁裸被❌高清网站
汤芳毛阴叶最简单三个步骤
女仆乖乖趴下脱内衣内裤照片大全
被爆🌿禁止🚫视频动漫
سىرىقكىنو987
美女裸露拉屎㊙️网站
坤坤戳进🍑🍑
多强被❌c到爽🔞H电影
妲己张嘴流眼泪翻白眼照片
小兰被❌超污网站免费
99亚洲欲妇❌❌❌❌❌
扫二维码看视频
少妇做受高潮1000牛奶
M男跪下喝s女王尿
麻豆丨国产丨白浆㊙️洗澡
免费被❌到爽的黄游火影
园丁扒开腿做❌同人文第五
网友谈论 审查所有谈论>>