猫眼影戏
猫眼影戏
杨长水
手机审查
猫眼影戏记者 张政美 报道w3u7903ejky2ywls
新智元报道
编辑:LRS
【新智元导读】自顺应语言模子框架SEAL,让大模子通过天生自己的微调数据和更新指令来顺应新使命。SEAL在少样本学习和知识整合使命上体现优异,显著提升了模子的顺应性和性能,为大模子的自主学习和优化提供了新的思绪。
经由海量文本预训练后的大模子,已经能够很好地明确语言,并凭证要求来天生文本。
不过,在安排大模子应用于特定使命、整合新信息或学习新的推理手艺时,仍然需要人工标注数据对模子权重举行微调。
大模子是否可以通过「自己天生训练数据和学习要领」来实现对新使命的自顺应?
麻省理工学院的研究职员提出了一个全新的自顺应语言模子(Self-Adapting LLMs,简称SEAL)的框架,可以让大模子通过天生自己的微调数据和更新指令来实现自顺应。
论文链接:https://arxiv.org/pdf/2506.10943
项目主页:https://jyopari.github.io/posts/seal
与以往依赖自力顺应?榛蚋ㄖ绲囊觳畋,SEAL直接使用模子自身的天生能力来参数化和控制其自我顺应历程。
当模子吸收到新的输入时,会天生一个「自编辑」(self-edit)——即自然语言指令,用于指定命据和优化超参数,以更新模子的权重。
通过有监视微调(SFT),自编辑能够实现长期的权重更新,从而实现恒久的顺应性。
为了训练模子天生有用的自编辑,研究职员接纳强化学习循环,以「更新后模子在下游使命中的体现」作为奖励信号。
在实验「将新的事实性知识整合到LLM」的实验上,研究职员使用SEAL模子天生的合成数据举行微调。
相比与直接在原始文本上微调差别,经由强化学习训练后,使用SEAL天生的合成数据举行微调,将SQuAD无上下文版本的问题回覆准确率从33.5%提高到47.0%,甚至凌驾了GPT-4.1天生的合成数据。
研究职员还在ARC-AGI基准测试的简化子集上对SEAL举行了少样本学习评估,模子需要使用一组工具自主选择合成数据增强和优化超参数(例如学习率、训练周期、对特定token类型的损失盘算)。
实验批注,使用SEAL自动选择和设置这些工具,比标准的上下文学习(ICL)和没有强化学习训练的自编辑体现更好。
自顺应大模子
自顺应大模子(SEAL)可以资助语言模子更好地顺应特定使命。
假设语言模子的参数为θ,C是与使命相关的上下文信息,τ是用于评估模子顺应性的下游使命,SEAL会针对每个使命实例(C, τ)举行操作。
在知识整合使命中,C是需要整合到模子内部知识中的段落,τ是关于该段落的问题和谜底;
在少样本学习使命中,C是新使命的少量示例,τ是盘问输入和真实输出。
给定上下文C后,模子会天生一个自编辑(SE),通过有监视微调的方法来更新自己的参数。
研究职员使用强化学习来优化自编辑天生的历程:模子天生SE作为行动,凭证天生SE后模子在τ上的体现获得奖励,并凭证奖励更新战略,以最大化预期奖励。
奖励与模子参数θ有关,以是强化学习的状态为上下文C和参数θ
由于模子参数会一直更新,之前版本模子网络的(状态,行动,奖励)三元组可能不再适用于目今模子。
因此,研究职员接纳「在线战略」要领,即从目今模子中采样自编辑,并基于目今模子盘算奖励。
相比其他战略要领,ReSTEM接纳的「拒绝采样+有监视微调」,可以让训练历程更稳固。
ReSTEM的历程为:首先从目今模子战略中采样一些候选输出(即自编辑),然后只对那些获得正奖励的样本举行监视微调,以此来强化模子的战略。
实验效果
少样本学习
研究职员使用了一个没有经由针对ARC(笼统和推理语料,Abstract and Reasoning Corpus)预训练的小型开源模子Llama-3.2-1B-Instruct举行实验。
由于大大都ARC使命关于未经由ARC预训练的模子来说难度较大,研究职员从ARC训练集中筛选出11个使命,从评估集中筛选出8个使命,确保这些使命在最优TTT(测试时训练,test-time training)设置下可以被基础的Llama-3.2-1B-Instruct模子解决。
在训练历程中,研究职员使用ReSTEM要领,通过为每个训练使命采样15个自编辑来训练模子。
每个自编辑划分应用于天生15个更新后的模子,然后在对应的测试样本上举行评估,只保存那些「经由顺应后能够为测试输入天生准确输出」的模子。
评估指标为乐成率:为每个保存的评估使命天生5个自编辑并评估模子,然后统计能够爆发准确输出的自编辑的百分比,可以反应出所学自编辑天生战略的质量。
比照基线要领包括上下文学习(ICL)、TTT+自编辑(无强化学习)和Oracle TTT(性能上限)。
与基线要领相比,SEAL显著提高了顺应乐成率(72.5%),而未经强化学习训练的基础模子的自编辑乐成率仅为20%,不举行任何顺应的乐成率为0%
知识整合(Knowledge Incorporation)
研究职员使用Qwen2.5-7B模子,从SQuAD(斯坦福问答数据集)的段落中整合新的事实内容。
比照基线包括基础模子(直接在问答使命上评估,Base Model)、仅在段落上微调模子(Train on Passage)、在段落和自动天生的推论上训练模子(Train on Passage + Synthetic)、在段落和通过OpenAI API从GPT-4.1网络的模子天生推论上训练。
在单段落设置下,仅在段落上微调的模子相比基础模子险些没有提升(33.5% vs. 32.7%),批注仅使用原始数据是不敷的。
使用GPT-4.1天生的推论可以将准确率提升到46.3%,比仅使用段落的基线提高了12.8个百分点。
使用Qwen2.5-7B模子天生的合成数据可以抵达39.7%,提高了6.2个百分点。
经由强化学习后,SEAL进一步将准确率提升到47.0%,只管模子规模较小,但体现优于使用GPT-4.1天生的合成数据。
在一连预训练(CPT)设置下,模子从200个段落中整合信息,并在所有974个相关问题上举行评估。研究职员为每个段落采样5个自编辑天生内容,并将这些合成数据用于一连预训练。
效果显示,SEAL在多段落设置下也优于所有基线要领,准确率抵达43.8%。
虽然绝对性能低于单段落设置,但相对提升效果坚持一致,这批注SEAL发明的编辑战略不但适用于单个段落的合成数据天生,还能推广到更普遍的场景。
仅需两次迭代,SEAL就凌驾了使用GPT-4.1数据的效果,后续迭代的提升效果逐渐削弱,批注战略迅速收敛到一种能够「将段落提炼为易于学习的基本事实」的编辑气概。
从例子中,可以看到强化学习可以促使天生更详细的自编辑内容,而这些更详细的编辑又反过来提升了整体性能。
参考资料:
https://arxiv.org/abs/2506.10943
??时势1:格温同人免费漫画
??07月16日,“欢欢喜喜过大年” 重庆文旅将推出千余主题活动,
“太爷,攻击凶兽的左腋下!”石毅再次启齿,眸子无比的深邃,有丝丝缕缕的神芒射出,神秘实力流转,恐怖无比。
,亚洲熟妇无码Av无码。??07月16日,湖南郴州:设社区“零工驿站” 打造15分钟就业圈,
尊重的家长们,各人都在各行各业辛勤地事情,为社会和家庭做着孝顺。作文一名先生,的理想是让100个孩子有一个灼烁绚烂的未来;作为一名先生,兴的是做100个孩子谆谆教导的父亲和朋侪;作为一名先生,最良苦专心的是对孩子教育的千吩咐万嘱咐。
,云缨脱了内裤求被c的小说,三个妇女玩人妖,男女被啪羞羞全免费。??时势2:3D小舞裸体❌❌抖乳摇网站
??07月16日,青海摄影再“出圈” 斩获国际艺术摄影大赛2金,
晚上好!
,好大好硬用力深一点日本,大筒木辉夜被C❌裸体18禁网站,爆❌喷水❌洗澡❌外网。??07月16日,传承红色基因 浙江桐乡系列活动纪念张琴秋诞辰120周年,
“宝具!”有人惊呼。
,温迪被扒开双腿疯狂输入小说,成人做爰黄A片免费视频网站野外,灰原哀被狂揉下部❌。??时势3:韩漫无羞遮无删减H漫画欲海交锋
??07月16日,“五一”假期广州接待游客近1104万人次,
“哎呦,疼死了,干嘛打我们,适才不是还很体贴我们吗,怎么转眼就变脸了!”孩子们惨叫。
,男人的伸到里小舞,强奸轮奸虐待乱伦强暴留学生黑人老外黑鬼黑吊洋人,女仆扒开腿㊙️让人桶漫画。??07月16日,上海:多方携手探索中医药领域产教融合新模式、新路径,
夜色下,一根雪羽长达五六米,散发皎洁绚烂,很是的圣洁。上面站着几道身影,其中那对宛若精灵的小姐妹正在挥舞纤柔的小手,她们长相一致,肌肤莹白,大眼灵动,冲着石村偏向离别。
,❌❌❌美女裸体隐私视频,3d陆雪琪被黄漫网站,FerrPorno馃拫馃憴6。??时势4:❤️爱情岛网址进入
??07月16日,琼州海峡54艘客滚船完成“体检” 即将投入春运运营,
就这样,三个孩子混战在了一起,相互攻击,引发众人侧目。
,ai换脸张婧仪狂❌,91娇羞❌❌⭕⭕白丝,动漫裸体啪啪h动画霸道总裁。??07月16日,探访太原“孤独石窟”,
4、广发是生齿大乡,计生事情难度大,下层基础事情十分薄弱,村级对妄想生育熟悉不高,未形成齐抓共管的浓重气氛。“村为主”流于形式,保存“想在县里,急在乡里,冷在村里”的征象,计生迎检营业不熟,又不学习钻研,检查组一来,就不知所措,手忙脚乱,误差百出。村计生专干素质狼籍不齐,履职不力,有的专干形同虚设,“专干不专,专干不干”,文化水平不高,做个报表都辛苦,责任心不强,开会培训不到位,事情落实图应付,出生基础不清,盲目通检。
,俄罗斯美女做爰XXXⅩ视频,91女神高潮喷水在线观看,灰原嗯~啊~轻。责编:吴为忠
审核:向天成
责编:高文平
Copyright (C) 2001-2025 dzwww.com. All Rights Reserved
新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证
山东省互联网传媒集团主理 联系电话:0531-85193202 违法不良信息举报电话:0531-85196540
Copyright (C) 2001-2025 Dzwww 鲁ICP备09023866号-1