MIT宣布自顺应语言模子!新使命,自天生远超「GPT-4.1合成训练数据」
新智元报道
编辑:LRS
【新智元导读】自顺应语言模子框架SEAL,让大模子通过天生自己的微调数据和更新指令来顺应新使命。SEAL在少样本学习和知识整合使命上体现优异,显著提升了模子的顺应性和性能,为大模子的自主学习和优化提供了新的思绪。
经由海量文本预训练后的大模子,已经能够很好地明确语言,并凭证要求来天生文本。
不过,在安排大模子应用于特定使命、整合新信息或学习新的推理手艺时,仍然需要人工标注数据对模子权重举行微调。
大模子是否可以通过「自己天生训练数据和学习要领」来实现对新使命的自顺应?
麻省理工学院的研究职员提出了一个全新的自顺应语言模子(Self-Adapting LLMs,简称SEAL)的框架,可以让大模子通过天生自己的微调数据和更新指令来实现自顺应。
论文链接:https://arxiv.org/pdf/2506.10943
项目主页:https://jyopari.github.io/posts/seal
与以往依赖自力顺应?榛蚋ㄖ绲囊觳畋,SEAL直接使用模子自身的天生能力来参数化和控制其自我顺应历程。
当模子吸收到新的输入时,会天生一个「自编辑」(self-edit)——即自然语言指令,用于指定命据和优化超参数,以更新模子的权重。
通过有监视微调(SFT),自编辑能够实现长期的权重更新,从而实现恒久的顺应性。
为了训练模子天生有用的自编辑,研究职员接纳强化学习循环,以「更新后模子在下游使命中的体现」作为奖励信号。
在实验「将新的事实性知识整合到LLM」的实验上,研究职员使用SEAL模子天生的合成数据举行微调。
相比与直接在原始文本上微调差别,经由强化学习训练后,使用SEAL天生的合成数据举行微调,将SQuAD无上下文版本的问题回覆准确率从33.5%提高到47.0%,甚至凌驾了GPT-4.1天生的合成数据。
研究职员还在ARC-AGI基准测试的简化子集上对SEAL举行了少样本学习评估,模子需要使用一组工具自主选择合成数据增强和优化超参数(例如学习率、训练周期、对特定token类型的损失盘算)。
实验批注,使用SEAL自动选择和设置这些工具,比标准的上下文学习(ICL)和没有强化学习训练的自编辑体现更好。
自顺应大模子
自顺应大模子(SEAL)可以资助语言模子更好地顺应特定使命。
假设语言模子的参数为θ,C是与使命相关的上下文信息,τ是用于评估模子顺应性的下游使命,SEAL会针对每个使命实例(C, τ)举行操作。
在知识整合使命中,C是需要整合到模子内部知识中的段落,τ是关于该段落的问题和谜底;
在少样本学习使命中,C是新使命的少量示例,τ是盘问输入和真实输出。
给定上下文C后,模子会天生一个自编辑(SE),通过有监视微调的方法来更新自己的参数。
研究职员使用强化学习来优化自编辑天生的历程:模子天生SE作为行动,凭证天生SE后模子在τ上的体现获得奖励,并凭证奖励更新战略,以最大化预期奖励。
奖励与模子参数θ有关,以是强化学习的状态为上下文C和参数θ
由于模子参数会一直更新,之前版本模子网络的(状态,行动,奖励)三元组可能不再适用于目今模子。
因此,研究职员接纳「在线战略」要领,即从目今模子中采样自编辑,并基于目今模子盘算奖励。
相比其他战略要领,ReSTEM接纳的「拒绝采样+有监视微调」,可以让训练历程更稳固。
ReSTEM的历程为:首先从目今模子战略中采样一些候选输出(即自编辑),然后只对那些获得正奖励的样本举行监视微调,以此来强化模子的战略。
实验效果
少样本学习
研究职员使用了一个没有经由针对ARC(笼统和推理语料,Abstract and Reasoning Corpus)预训练的小型开源模子Llama-3.2-1B-Instruct举行实验。
由于大大都ARC使命关于未经由ARC预训练的模子来说难度较大,研究职员从ARC训练集中筛选出11个使命,从评估集中筛选出8个使命,确保这些使命在最优TTT(测试时训练,test-time training)设置下可以被基础的Llama-3.2-1B-Instruct模子解决。
在训练历程中,研究职员使用ReSTEM要领,通过为每个训练使命采样15个自编辑来训练模子。
每个自编辑划分应用于天生15个更新后的模子,然后在对应的测试样本上举行评估,只保存那些「经由顺应后能够为测试输入天生准确输出」的模子。
评估指标为乐成率:为每个保存的评估使命天生5个自编辑并评估模子,然后统计能够爆发准确输出的自编辑的百分比,可以反应出所学自编辑天生战略的质量。
比照基线要领包括上下文学习(ICL)、TTT+自编辑(无强化学习)和Oracle TTT(性能上限)。
与基线要领相比,SEAL显著提高了顺应乐成率(72.5%),而未经强化学习训练的基础模子的自编辑乐成率仅为20%,不举行任何顺应的乐成率为0%
知识整合(Knowledge Incorporation)
研究职员使用Qwen2.5-7B模子,从SQuAD(斯坦福问答数据集)的段落中整合新的事实内容。
比照基线包括基础模子(直接在问答使命上评估,Base Model)、仅在段落上微调模子(Train on Passage)、在段落和自动天生的推论上训练模子(Train on Passage + Synthetic)、在段落和通过OpenAI API从GPT-4.1网络的模子天生推论上训练。
在单段落设置下,仅在段落上微调的模子相比基础模子险些没有提升(33.5% vs. 32.7%),批注仅使用原始数据是不敷的。
使用GPT-4.1天生的推论可以将准确率提升到46.3%,比仅使用段落的基线提高了12.8个百分点。
使用Qwen2.5-7B模子天生的合成数据可以抵达39.7%,提高了6.2个百分点。
经由强化学习后,SEAL进一步将准确率提升到47.0%,只管模子规模较小,但体现优于使用GPT-4.1天生的合成数据。
在一连预训练(CPT)设置下,模子从200个段落中整合信息,并在所有974个相关问题上举行评估。研究职员为每个段落采样5个自编辑天生内容,并将这些合成数据用于一连预训练。
效果显示,SEAL在多段落设置下也优于所有基线要领,准确率抵达43.8%。
虽然绝对性能低于单段落设置,但相对提升效果坚持一致,这批注SEAL发明的编辑战略不但适用于单个段落的合成数据天生,还能推广到更普遍的场景。
仅需两次迭代,SEAL就凌驾了使用GPT-4.1数据的效果,后续迭代的提升效果逐渐削弱,批注战略迅速收敛到一种能够「将段落提炼为易于学习的基本事实」的编辑气概。
从例子中,可以看到强化学习可以促使天生更详细的自编辑内容,而这些更详细的编辑又反过来提升了整体性能。
参考资料:
https://arxiv.org/abs/2506.10943
粉嫩㊙️AV一站
裸体 惩罚 拍击 打屁股视频
16萝女洗澡自慰呻吟网站
大胸❌挤奶❌强j斗罗大陆动漫❌
性少妇VideOseXfreeXXXX片
黄⭐色⭐视⭐频
火舞脱👙让学生摸🐻
玩弄+跪趴+调教+打屁股图片
动漫内衣内裤画
黄☪️色☪️网☪️站☪️
美女被❌爽到脱内内动漫版
Free❌❌❌性AV中国野外
Gay野战Gay野战野外
色情乱婬老太HD中文字幕
DVDPORONOXXXX馃拫
美女的隐私㊙️韩国大胸
赤身裸体100%无遮挡暴露尿口
黄瓜视频成人18禁㊙️网站
giantess动画官网18+
狠狠挺进鞠婧祎的小泬
美女胸奶头片黄🈲免费
西村妮娜最惊艳5部电视剧
怎么找av预告片
初学生疯狂喷一区免费视频
少妇高潮免费观看A片
妺妺自愿做我的性玩具h
Jαpαnese熟妇偷子伦
扒开甘雨的内裤摸出白浆视频
打屁股🔞网站脱裤子打屁股视频
蝴蝶传媒app黄
老师❌开腿让我爽一夜真人版
残忍榨精m男地狱寸止
Gay男同g片黄网站www
两男一女3p双龙h调教h
裸体小舞被❌吸乳
九幺黄9·1🐔巴大
蜜臀AV视频麻豆国产一二三
白丝校花🌸自慰
韩漫秘密3d㊙️免费观看
十八禁裸体自慰免费观看
白丝女仆疯狂❌喷水自慰爽作文
17c丨国产丨白浆㊙️洗澡
日本熟妇D❌❌❌台湾
日本排泄物拉屎goshoppingvk
强伦轩一级A片在线观看
国产精品㊙️福利姬软萌萝
火烧女人的桃花源
美女露出🐻让男生揉捏
美女裸体㊙️奶网站无遮挡
动漫furry同性狼狼榨精网站
揉我奶头啊嗯高潮gif
3D爆乳巨胸无码动漫在线观看
崩坏三18禁本子
欧美做爰性猛交XXXⅩ
少妇我被躁爽到高潮A片李宗瑞
炮阁导航官方入口
巨胸美女被爆乳
人妻偷拍熟女网站直播
女男♂♀爱👄❤️😍😘
纲手张开腿让自来也❌动漫
国产❌❌❌69熟妇视频网站
女同互摸自慰喷水爽哭
婬妇❌❌❌❌999999
Дваорла HD 72
唐雅婷被肉干高H潮文不断
18禁裸体爆乳羞羞 7 4网站视频
女人跪趴着扒开🍑用藤条打动漫
XXXXXXX泡妞🍆🍑下载
男男被爽无套免费看
肉丝祙做爰XXXⅩ性视频
oldGaHay胖老头JJ勃起
欧美熟妇潮喷❌❌❌图片
萨摩伊爆乳被❌漫画
梅花十三扒下脱裙子撅屁股
婬荡学院(校园H)
黄☸️色☸️网☸️
小学生自愈扣出桨的三个基本原则
3D巨乳动漫同人❌漫画免费
被室友粗大jib捣出了白浆
BBW日本🇯🇵
女性私密部位越揉会越黑吗
网友谈论 审查所有谈论>>