阿里开源长文本深度思索模子!渐进式强化学习破解长文本训练难题
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
推理大模子开卷新偏向,阿里开源长文本深度思索模子QwenLong-L1,登上HuggingFace今日热门论文第二。
其32B参数版本凌驾OpenAI-o3-mini、Qwen3-235B-A22B等,取得与Claude-3.7-Sonnet-Thingking相当的性能。
除测评分数外,论文中还详细展示了一个金融文档推理的案例。古板模子容易被无关细节误导,而QwenLong-L1通过回溯和验证机制过滤滋扰信息,准确整合要害数据。
使命要求:凭证文档回覆问题“将优先票据的刊行本钱与第一年的利息支出合并盘算,总资源本钱是几多?”
首先进场的基础模子DeepSeek-R1-Distill-Qwen-14B被文档中“自2011年10月15日起每半年支付一次利息”误导,凭证不相关的时间和财务信息,过失盘算了第一年的利息支付。
接下来,经由特殊SFT的版本仍然未能解决这个问题。
它在对不相关文档举行太过剖析的循环中自我嫌疑,最终尽了最大天生限制(10000 tokens),却没有给出最终谜底。
相比之下,虽然QwenLong-L1-14B最初也体现出类似的分神,但它很快举行了有用的自我反思。通过实时验证和回溯,乐成过滤掉了不相关的细节,得出了准确谜底。
那么,QwenLong-L1是怎样做到的?
渐进式上下文扩展
首先,现有推理模子在面临长文本(如几万字甚至更长)时遇到什么问题?
Qwen团队通过比照实验发明,长文本推理的强化学习训练保存两个“硬伤”:
一是训练效率低,古板强化学习(RL)要领在长文本中容易陷入局部最优,奖励收敛慢,限制了战略优化时的探索行为。
二是优化历程不稳固,长文本使命的输出长度更高、输入长度漫衍不匀称,导致战略更新时的方差被放大,训练历程中参数更新不稳固(如KL散度坐过山车)。
为此团队提出QwenLong-L1训练框架,焦点是通过渐进式上下文扩展让模子逐步顺应长文本推理。训练历程分为两阶段:
预热监视微调(Warm-Up Supervised Fine-Tuning)
在最先强化学习之前,先用高质量的演示数据举行监视微调,让模子先具备基本的长文本明确能力、推理链天生能力和谜底提取能力。
团队从DeepSeek-R1蒸馏了5.3K个高质量的问题-文档-谜底三元组,确保模子有个稳固的起点。实验效果显示,这个”热身”阶段对后续的强化学习训练至关主要。
课程指导的分阶段强化学习(Curriculum-Guided Phased Reinforcement Learning)。
从随笔笔起步过渡到长文本。例如,先训练模子处置惩罚2万token的文本,稳固后再增添到6万token,最后到128K。每个阶段只关注对应长度的文本。
别的还引入了难度感知的回溯采样机制。在进入下一阶段时,会保存前一阶段中最难的样本(平均准确率为零的那些),确保模子不会”遗忘”如那里置难题案例。
长文本问答的谜底往往较量开放,纯粹的规则匹配太死板,可能遗漏准确谜底。
QwenLong-L1在强化学习训练中接纳混淆奖励函数,连系了基于规则的验证和LLM-as-a-Judge。
规则验证也就是直接检查谜底是否与标准谜底完全一致(如数学题盘算效果是否准确),再用另一个模子判断谜底的语义是否准确(应对谜底表述差别但意思一致的情形),两者连系阻止简单规则过于严酷或宽松
在DocMath、Frames、2WikimQA等七个长文本基准测试中,QwenLong-L1-14B相比基础模子R1-Distill-Qwen-14B,平均提升了4.1分,逾越了Gemini-2.0-Flash-Thinking和Qwen3-32B。
QwenLong-L1的32B版内情比基础模子提升了5.1分,抵达70.7的平均分。这个效果不但凌驾了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。
团队还针对Test-time Scaling性能做了评估。当天生16个候选谜底时,QwenLong-L1-14B的体现凌驾了DeepSeek-R1和OpenAI-o1-preview。
最后论文中还深入探讨了两个问题:
既然SFT相对简朴自制,为什么还要辛苦搞强化学习(RL)?
实验效果很有启发性。长文本SFT确实能带来2.6分的提升,比随笔本SFT的效果更好。可是,若是在长文本SFT的基础上再做RL,提升幅度只有0.3分;而在随笔本SFT基础上做RL,却能提升3.2分。
对此团队提出一个看法:SFT提供了一种经济的性能提升方法,而RL则是抵达最优性能必不可少的。
通过跟踪剖析了四种要害推理行为发明3个结论:信息定位(grounding)、子目的设定(subgoal setting)、回溯(backtracking)和验证(verification)。
所有模子都展现出显着的推理行为,尤其是信息定位行为泛起频率最高,这证实晰它在处置惩罚上下文依赖推理时的主要性;强化学习训练历程中,这些行为会逐渐增强,并与性能提升高度相关,批注强化学习能有用调解输出空间,优先保存有助于得出准确解答的推理模式虽然SFT模子也能学会这些行为,但这些外貌上的行为模拟并没有带来实质性能提升,这展现了SFT更关注外貌模式匹配,而非实质推理能力的作育。
论文地点:https://arxiv.org/pdf/2505.17667
小狂趁柳二龙洗澡c柳二龙
美女胸罩秘露出奶头被变态捏
台湾男Gay XXX Tube1
日本丰满大乳❌❌❌
以色列丰满熟妇乱XXXXX猛交
雏田被鸣人扒开腿狂❌游戏
赵露思脱了内裤求被c在线观看
原神美女脱秘露小奶头
博人与花火做r漫画
漫画裸体被❌吸乳羞羞
男男GayGay✅免费动漫游戏
Free❌㐅❌性HD韩国女主播
妓院女春DVD片
日韩做受❌❌❌高潮电影o漫画
ZZijZZij亚洲日本少妇jiZjiZ
啊〜用力〜嗯〜轻一点蓝忘机
成人以下禁止观看网站入口
300元过夜电话
120秒床戏裸交动漫
91无码➕高潮➕在线不卡
青青子衿在线观看免费完整版
主人罚我戴小玩具一整天
布兰迪爱和儿子
欧美⭕⭕⭕⭕XXXX888
91丨PORNY丨人妻露出
田曦薇AI换脸AV一区二区
美女尿裤子㊙️部位无遮挡
女下部扒开㊙️高清视频
新妺妺窝窝777777野外
男女18㊙️免费网
国产aV蝌蚪💃👅密月
中国帅小伙Gay自慰集合
猛男狂小受受网站
小戳进无遮挡动
🌿我~慢点~好大好爽~
亚洲AV㊙️无码高桥圣子
甘雨挤奶🈲🚫动漫小说
老熟女60岁大战小伙子
女人自慰A片免费直播
黄片色
A漫禁漫画在线观看网站
18🈲在线观看网站
美女100%无遮挡尿孔图片
原神同人动漫网站免费入口
!脱👙让学生摸🐻免费无
高清乱码🔞❌❌❌粪便小说动漫
白白布布免费发布小明
西西人体大胆4444ww张筱雨
A片⭕⭕⭕⭕XXXX受爽视频
芙宁娜裸体被❌涩涩的网站
секс性色видио
樱花🌸视频无🈚码一区
成人扒开伸进网站
🔯黄🔯色🔯甘🔯女
❌❌❌❌成人3D
公交车上一人上面2人下边
丁香花高清在线观看完整动漫
free欧美❌❌❌裤袜
受调教成0不许穿内裤随时挨c
偷拍⭕⭕⭕⭕XXXX果冻传媒
扒开❌狂揉❌真人版
东京热成人免费A片
粗大的弄出白浆
FerrPorno馃拫馃憴69
中日无码视频成人播放浏览器
波蘭連續發現不明物體
三玖同人❌漫画免费
18漫🈵净进禁h七网站
坤坤浏览器网页版入口下载
日向花火把腿张开让鸣人猛戳
挤奶㊙️无遮视频
直男服务员被猛男狂cao
动漫男yoai自慰Gay漫画网站
性爱视频免费观看
欧美大尺度A片双龙
FreeeXXX性HD丝袜69
美女裸体❌羞羞漫画免费看
巜女教师~婬辱の教室2
老师在办公室自慰被学生看见
在线观看特色大片免费网站
老阿姨做爰网站
网友谈论 审查所有谈论>>