尊龙游戏人生就是博

美女裸体开腿羞羞吞精 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

目今位置:首页专题合集 → w3u7903ejky2ywls

尊龙凯时 - 人生就是搏!

阿里开源长文本深度思索模子!渐进式强化学习破解长文本训练难题

阿里开源长文本深度思索模子!渐进式强化学习破解长文本训练难题

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

推理大模子开卷新偏向,阿里开源长文本深度思索模子QwenLong-L1,登上HuggingFace今日热门论文第二 。

其32B参数版本凌驾OpenAI-o3-mini、Qwen3-235B-A22B等,取得与Claude-3.7-Sonnet-Thingking相当的性能 。

除测评分数外,论文中还详细展示了一个金融文档推理的案例 。古板模子容易被无关细节误导,而QwenLong-L1通过回溯和验证机制过滤滋扰信息,准确整合要害数据 。

使命要求:凭证文档回覆问题“将优先票据的刊行本钱与第一年的利息支出合并盘算,总资源本钱是几多?”

首先进场的基础模子DeepSeek-R1-Distill-Qwen-14B被文档中“自2011年10月15日起每半年支付一次利息”误导,凭证不相关的时间和财务信息,过失盘算了第一年的利息支付 。

接下来,经由特殊SFT的版本仍然未能解决这个问题 。

它在对不相关文档举行太过剖析的循环中自我嫌疑,最终尽了最大天生限制(10000 tokens),却没有给出最终谜底 。

相比之下,虽然QwenLong-L1-14B最初也体现出类似的分神,但它很快举行了有用的自我反思 。通过实时验证和回溯,乐成过滤掉了不相关的细节,得出了准确谜底 。

那么,QwenLong-L1是怎样做到的?

渐进式上下文扩展

首先,现有推理模子在面临长文本(如几万字甚至更长)时遇到什么问题?

Qwen团队通过比照实验发明,长文本推理的强化学习训练保存两个“硬伤”:

一是训练效率低,古板强化学习(RL)要领在长文本中容易陷入局部最优,奖励收敛慢,限制了战略优化时的探索行为 。

二是优化历程不稳固,长文本使命的输出长度更高、输入长度漫衍不匀称,导致战略更新时的方差被放大,训练历程中参数更新不稳固(如KL散度坐过山车) 。

为此团队提出QwenLong-L1训练框架,焦点是通过渐进式上下文扩展让模子逐步顺应长文本推理 。训练历程分为两阶段:

预热监视微调(Warm-Up Supervised Fine-Tuning)

在最先强化学习之前,先用高质量的演示数据举行监视微调,让模子先具备基本的长文本明确能力、推理链天生能力和谜底提取能力 。

团队从DeepSeek-R1蒸馏了5.3K个高质量的问题-文档-谜底三元组,确保模子有个稳固的起点 。实验效果显示,这个”热身”阶段对后续的强化学习训练至关主要 。

课程指导的分阶段强化学习(Curriculum-Guided Phased Reinforcement Learning) 。

从随笔笔起步过渡到长文本 。例如,先训练模子处置惩罚2万token的文本,稳固后再增添到6万token,最后到128K 。每个阶段只关注对应长度的文本 。

别的还引入了难度感知的回溯采样机制 。在进入下一阶段时,会保存前一阶段中最难的样本(平均准确率为零的那些),确保模子不会”遗忘”如那里置难题案例 。

长文本问答的谜底往往较量开放,纯粹的规则匹配太死板,可能遗漏准确谜底 。

QwenLong-L1在强化学习训练中接纳混淆奖励函数,连系了基于规则的验证和LLM-as-a-Judge 。

规则验证也就是直接检查谜底是否与标准谜底完全一致(如数学题盘算效果是否准确),再用另一个模子判断谜底的语义是否准确(应对谜底表述差别但意思一致的情形),两者连系阻止简单规则过于严酷或宽松

在DocMath、Frames、2WikimQA等七个长文本基准测试中,QwenLong-L1-14B相比基础模子R1-Distill-Qwen-14B,平均提升了4.1分,逾越了Gemini-2.0-Flash-Thinking和Qwen3-32B 。

QwenLong-L1的32B版内情比基础模子提升了5.1分,抵达70.7的平均分 。这个效果不但凌驾了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手 。

团队还针对Test-time Scaling性能做了评估 。当天生16个候选谜底时,QwenLong-L1-14B的体现凌驾了DeepSeek-R1和OpenAI-o1-preview 。

最后论文中还深入探讨了两个问题:

既然SFT相对简朴自制,为什么还要辛苦搞强化学习(RL)?

实验效果很有启发性 。长文本SFT确实能带来2.6分的提升,比随笔本SFT的效果更好 。可是,若是在长文本SFT的基础上再做RL,提升幅度只有0.3分;而在随笔本SFT基础上做RL,却能提升3.2分 。

对此团队提出一个看法:SFT提供了一种经济的性能提升方法,而RL则是抵达最优性能必不可少的 。

通过跟踪剖析了四种要害推理行为发明3个结论:信息定位(grounding)、子目的设定(subgoal setting)、回溯(backtracking)和验证(verification) 。

所有模子都展现出显着的推理行为,尤其是信息定位行为泛起频率最高,这证实晰它在处置惩罚上下文依赖推理时的主要性;强化学习训练历程中,这些行为会逐渐增强,并与性能提升高度相关,批注强化学习能有用调解输出空间,优先保存有助于得出准确解答的推理模式虽然SFT模子也能学会这些行为,但这些外貌上的行为模拟并没有带来实质性能提升,这展现了SFT更关注外貌模式匹配,而非实质推理能力的作育 。

论文地点:https://arxiv.org/pdf/2505.17667

相关推荐:莫妮卡裸体 我的好儿媳月月最终身份 男被绑住㊙️四肢取精网站

分享: 2025-05-31 23:00:25 共81款

电脑

安卓

苹果

相关合集

网友谈论 审查所有谈论>>

揭晓谈论

(您的谈论需要经由审核才华显示) 网友粉丝QQ群号:766969941

审查所有0条谈论>>

【网站地图】【sitemap】