上下文长度达 13 万 token，适用于多段文档综合剖析、金融、执法、科研等重大领域使命。

近期的推理大模子（LRMs）通过强化学习（RL）展现出强盛的推理能力，但这些刷新主要体现在短上下文推理使命中。相比之下，怎样通过强化学习扩展 LRMs 以有用处置惩罚和推理长上下文输入，仍然是一个尚未解决的要害挑战。

来自阿里巴巴通义实验室的团队首先形式化界说长上下文推理强化学习范式，并识别出其中的两个焦点挑战：次优的训练效率与不稳固的优化历程

针对这些问题，团队提出QwenLong-L1长上下文推理强化学习框架，通过渐进式上下文扩展战略逐步提升模子在长上下文推理使命上的体现，最终在多个长文档问答 benchmarks 上，QwenLong-L1-32B 体现卓越，不但逾越 OpenAI-o3-miniQwen3-235B-A22B等旗舰模子，更与 Claude-3.7-Sonnet-Thinking 性能对标

区别于短上下文推理强化学习增进模子使用内部知识推理，长上下文推理强化学习需要模子首先定位外部要害信息然后整合内部推理

长上下文推理强化学习训练效率低，详细体现在（a）奖励收敛较慢，（b）模子输出熵的显著降低，限制了优化历程中的探索行为。同时，长上下文推理强化学习训练不稳固，详细体现为（c）KL 散度突刺较多，这是由于（d）较长的输出长度和不匀称的输入长度导致方差变大，导致战略更新不稳固。

基于渐进式上下文扩展手艺混淆奖励机制，QwenLong-L1 通过强化学习实现了从随笔本到长文本的稳固上下文顺应。

与前沿长上下文推理大模子相比，QwenLong-L1-32B 实现了显著的性能提升，相较于 DeepSeek-R1-Distill-Qwen-32B 平均提升7.8%，不但逾越OpenAI-o3-miniQwen3-235B-A22B等旗舰模子，更与 Claude-3.7-Sonnet-Thinking 性能对标，为长文本推理优化提供了基础性手艺计划，

基于古板的短上下文推理强化学习框架，QwenLong-L1 主要提出如下刷新：渐进式上下文扩展手艺和混淆奖励机制。

训练长上下文推理大模子保存不稳固的优化动态特征。为解决这些问题，我们提出了一种渐进式上下文扩展框架，该框架包括：课程指导的分阶段强化学习战略以稳固从短到长上下文的优化历程；难度感知的回首采样机制，优先探索重大实例；以及稳固的监视微调预热阶段，在强化学习训练条件供稳健的初始化基础。

稳健的监视微调预热：使用蒸馏的长上下文推理数据在强化学习前监视微调模子，获取稳固的初始战略，降低训练历程中的不稳固。

课程指导的分阶段强化学习：将强化学习训练分为两阶段，阶段 I 输入长度 20K，阶段 II 扩展至 60K，逐步顺应长上下文。每阶段仅训练目今长度区间的样本，阻止混淆长度导致的优化冲突。

难度感知的回首采样：凭证样本平均奖励动态盘算难度，低奖励样本（高难度）被优先保存至后续阶段。阶段 II 训练时，包括阶段 I 的高难度样本，强制模子一连探索重大案例。

在数学、编程和逻辑推理等短上下文推理使命中，先前的研究事情通常接纳基于规则的奖励函数。然而，开放域问答等长上下文推理使命因其固有的谜底多样性带来了奇异挑战。在这种情境下，限制性过强的基于规则的奖励机制可能会制约有用谜底的多样性，从而可能影响整体性能。针对这些局限性，我们提出一种融合规则验证模子评判的混淆奖励机制，通过互补性评估实现准确率与召回率的平衡。

规则奖励：通过正则表达式从模子输出中提取谜底，与标准谜底严酷匹配。确保谜底名堂准确性，避免 Reward Hacking。

模子评判：训练历程接纳 Qwen2.5-1.5B-Instruct 作为轻量级评判模子，评估展望谜底和标准谜底之间语义等价性。

组合战略：最终奖励取规则与模子评判的最大值，兼顾准确性与谜底多样性。

相较于 SFT，RL 性能提升显著：仅需 1.6K 高质量样本在 R1-Distill-Qwen 模子上 RL 后提升显着，14B 模子平均提升 4.1，32B 模子平均提升 5.1。

QwenLong-L1-14B 模子平均 Pass@1 抵达 68.3，逾越 Gemini-2.0-Flash-Thinking, R1-Distill-Qwen-32B, Qwen3-32BQwenLong-L1-32B 模子平均 Pass@1 抵达 70.7，逾越 QwQ-Plus, Qwen3-Plus, OpenAI-o3-mini, 与 Claude-3.7-Sonnet-Thinking 持平

Test-Time Scaling 性能显着：QwenLong-L1-14B 模子平均 Pass@2 抵达 73.7，逾越 DeepSeek-R1 (Pass@1, 72.1), OpenAI-o1-preview (Pass@1, 72.9)

探讨差别起点模子 RL 后的效果：Base Model, Short-Context SFT Model (<=20K), Long-Context SFT Model (<=60K)。

SFT 和 RL 施展着互补作用，SFT 较低价钱到可接受性能，而 RL 对抵达最佳效果至关主要；要实现最优性能，必需优先思量 RL 而不是 SFT，由于太过关注 SFT 可能使模子陷入局部最优，从而限制 RL 提升；

探索训练历程中推理模式的动态转变：包括长上下文推理相关的 Grounding 和通用推理相关的 Backtracking, Verification, Subgoal Setting 等推理模式。

所有模子都体现出显着的种种推理模式，且长上下文相关的 Grounding 泛起频率最高RL 自然地使这些推理模式泛起频率越来越高，最终性能也会随之增添SFT 只管让推理模式取得了远高于 RL 的增添，但转换成的性能提高相较于 RL 有限

这项研究通过强化学习探索了长上下文推理大模子的开发。其首先提出长上下文推理强化学习范式，并发明次优的训练效率和不稳固的优化历程等要害问题。

为应对这些挑战，研究团队推出 QwenLong-L1，一个渐进式上下文扩展强化学习框架。实验效果批注 QwenLong-L1 在业界领先的长上下文推理大模子中体现优异。其中，QwenLong-L1-14B 性能逾越 Gemini-2.0-Flash-Thinking 和 Qwen3-32B，而 QwenLong-L1-32B 逾越 OpenAI-o3-mini、Qwen3-235B-A22B，甚至与 Claude-3.7-Sonnet-Thinking 抵达一律水平。

尊龙游戏人生就是博剖析展现了长上下文推理强化学习的三项要害洞察：渐进式上下文扩展对实现稳固顺应的主要作用、优先强化学习对最优性能的须要性，以及强化学习训练历程中长文本推理模式的增添对性能提升的增进作用。

尊龙游戏人生就是博

强化学习解决长上下文推理问题：通义推出QwenLong-L1-32B

「统计」w3u7903ejky2ywls

512.20MB

版本V6.9.64

下载APK 高速下载

下载少年被强扒裤玩j网站装置你想要的应用更利便更快捷发明更多

74%好评(84254人)

详细信息

软件巨细: 35494.21569MB
最后更新: 2025-06-02 06:45:59
最新版本: V4.84368.2
文件名堂: apk
应用分类:ios-Android 男男被❌到爽2次元
使用语言: 中文
: 需要联网
系统要求: 6.56688以上

应用先容

一，美杜莎3D被❌吸乳，!脱让学生免费网站
二，俺たちのゲームセット百度翻译，免费无遮挡🔞视频
三，三个妇女玩人妖，嗯～c尿了～不许尿出来视频
四，naruto❌sakura18，成人免费视频网址
五，成人做爰黄A片免费视频网站野外，成➕人➕网站➕免费孕妇
六，小乔眼睛翻白眼流眼泪的解决方法,🈲18❌❌❌OOO，韩国美女裸体被❌羞羞
七，小太正Gay初精2023
【联系尊龙游戏人生就是博】
客服热线：134-2881-646

加载更多

版本更新

V6.3.32

爆喷水洗澡蓝莓

韩国大尺度《偷欢2》

ai女友成人版18禁

24095.68MB

102好评

日本动漫无码有限公司
裸体爆乳羞羞网站视频

动漫裸体❌羞羞网站

76703.83MB

785414好评

偷拍撒尿㊙️Findsex网站
未满十八18勿进黄网站免费看

成人国产精品㊙️在线鲁大

13.45MB

312好评

甘雨被❌到爽🔞高潮痉挛小说
兄弟互相导管立了

国产做受❌❌❌高潮游戏视频

53.12MB

276好评

精品sm捆绑网站免费观看
卫生间深深挺进老师小泬漫画大全

永劫无间季莹莹裸体被c

71.57MB

706好评

寸止手冲挑战1～8期
导管专用网站

不要了,不要了,已经饱了”,嫌我艹的慢,

83.66MB

339好评

美女❌C🐻八衣服软件
崩铁镜流被❌乳液狂飙

奇尤影院

23.90MB

108好评

naruto❌纲手色情在线看
修女被❌吸乳羞羞动漫

公牛巨鞭躁得好爽H

50.30MB

923好评

麻豆精品秘国产传媒夏夏
欧美男男GayGay✅免费网址

女奥特曼污18🈲在线观看

83.97MB

561好评

成人精品GIF动图一区
原神刻晴被哭还一直流东西

羞羞漫在线观看♥无限免费

83.83MB

756好评

谷玉霞和小志的恋情进展情况
爆乳朱竹清被❌❌动漫

在厨房做嗯～啊～叫出来视频

63.34MB

3297好评

宋雨琦❌❌自慰
粉嫩小雪双乳被到喷水18漫画

女人帮男人橹视A片

99.36MB

604好评

我帮妺妺洗澡忍不住c了她漫画
jk成人色情美女软件91

草莓视频♥成人app♥

65.51MB

748好评

波提欧被银枝爆炒
农村熟女XXXXHD做受

足控脚❌Xx免费网站-百度

54.98MB

756好评

万叶顶散兵生殖部为微博
小黃片㊙️🈲ww软件

征服巧梅婶全文阅读无弹窗笔趣阁

57.73MB

684好评

电视剧演员表
美女露100%奶头无挡视频

芙宁娜被扒开腿坐做❌同人

24.68MB

354好评

不良人女帝18禁❌视频
校花跪床❌❌被🌿漫画

动漫日本❌❌喷水视频

13.89MB

315好评

原神纳西妲裸体❌开襟
羞耻鞭打滴蜡灌肠调教女生网站

♥同人♥本子♥卡芙卡

84.41MB

214好评

mmd虫交18R区3D大全
Gay Yaoi Hard manga 男男

美女露出🐻让男生揉野外裸奔

45.16MB

735好评

成人🔞美女裸体
果冻传媒HDⅩXXXXX

美洲做受高潮蜜

10.76MB

187好评

东北体育生巨大粗爽gv小说
美女班长露🐻让我揉

天体舞全集在线播放

44.69MB

362好评

高清孕妇性孕交✖️✖️
A漫禁漫画在线观看网站

8x8Ⅹ8成人网站入口

91.90MB

202好评

dva被❌18禁同人网站285
芋圆呀呀白麻酥酥私人订制

国产码高潮app

30.37MB

903好评

中国少妇精品❌❌❌在线
国产91♥️丝袜在线播放00

欧美高潮AAAAAA片

30.95MB

546好评

亲亲扔衣服还不盖被子
国产性猛交❌XX❌乱动漫

超大乳抖乳露双乳喷奶水视频

29.22MB

128好评

流萤脱了内裤打开腿让人桶
白丝jK爆❌❌乳❌❌

免费成人777cos

70.54MB

451好评

取精室成人片在线观看
同人动漫网站免费入口 title="少萝自愿裸体❌❌㐅漫画" class="0v5366j9r7414 app-list-img" src="https://t11.m.mksxm.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

女奥特曼被爆❌羞羞

小s货张开腿让我c烂你的sb

详情
王者荣耀女英雄真人不知火舞cos title="13禁🍆🍑🔞❌❌❌毛片" class="0v5366j9r7414 app-list-img" src="https://t10.m.mksxm.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

成龙历险记小玉h污

51学生㊙️片黄在线观看游戏

详情
八重神子爆乳潮喷 title="欧美⭕⭕⭕⭕XXXX男人小说" class="0v5366j9r7414 app-list-img" src="https://t12.m.mksxm.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

sm在线观看

▇小蝌蚪视频▇在线观看

详情