尊龙游戏人生就是博

亲妺妺的玉足伸进我内裤里图片 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

目今位置:首页专题合集 → w3u7903ejky2ywls

尊龙凯时 - 人生就是搏!

MIT宣布自顺应语言模子!新使命,自天生远超「GPT-4.1合成训练数据」

MIT宣布自顺应语言模子!新使命,自天生远超「GPT-4.1合成训练数据」

新智元报道

编辑:LRS

【新智元导读】自顺应语言模子框架SEAL,让大模子通过天生自己的微调数据和更新指令来顺应新使命。SEAL在少样本学习和知识整合使命上体现优异,显著提升了模子的顺应性和性能,为大模子的自主学习和优化提供了新的思绪。

经由海量文本预训练后的大模子,已经能够很好地明确语言,并凭证要求来天生文本。

不过,在安排大模子应用于特定使命、整合新信息或学习新的推理手艺时,仍然需要人工标注数据对模子权重举行微调。

大模子是否可以通过「自己天生训练数据和学习要领」来实现对新使命的自顺应?

麻省理工学院的研究职员提出了一个全新的自顺应语言模子(Self-Adapting LLMs,简称SEAL)的框架,可以让大模子通过天生自己的微调数据和更新指令来实现自顺应。

论文链接:https://arxiv.org/pdf/2506.10943

项目主页:https://jyopari.github.io/posts/seal

与以往依赖自力顺应?榛蚋ㄖ绲囊觳畋,SEAL直接使用模子自身的天生能力来参数化和控制其自我顺应历程。

当模子吸收到新的输入时,会天生一个「自编辑」(self-edit)——即自然语言指令,用于指定命据和优化超参数,以更新模子的权重。

通过有监视微调(SFT),自编辑能够实现长期的权重更新,从而实现恒久的顺应性。

为了训练模子天生有用的自编辑,研究职员接纳强化学习循环,以「更新后模子在下游使命中的体现」作为奖励信号。

在实验「将新的事实性知识整合到LLM」的实验上,研究职员使用SEAL模子天生的合成数据举行微调。

相比与直接在原始文本上微调差别,经由强化学习训练后,使用SEAL天生的合成数据举行微调,将SQuAD无上下文版本的问题回覆准确率从33.5%提高到47.0%,甚至凌驾了GPT-4.1天生的合成数据。

研究职员还在ARC-AGI基准测试的简化子集上对SEAL举行了少样本学习评估,模子需要使用一组工具自主选择合成数据增强和优化超参数(例如学习率、训练周期、对特定token类型的损失盘算)。

实验批注,使用SEAL自动选择和设置这些工具,比标准的上下文学习(ICL)和没有强化学习训练的自编辑体现更好。

自顺应大模子

自顺应大模子(SEAL)可以资助语言模子更好地顺应特定使命。

假设语言模子的参数为θ,C是与使命相关的上下文信息,τ是用于评估模子顺应性的下游使命,SEAL会针对每个使命实例(C, τ)举行操作。

在知识整合使命中,C是需要整合到模子内部知识中的段落,τ是关于该段落的问题和谜底 ;

在少样本学习使命中,C是新使命的少量示例,τ是盘问输入和真实输出。

给定上下文C后,模子会天生一个自编辑(SE),通过有监视微调的方法来更新自己的参数。

研究职员使用强化学习来优化自编辑天生的历程:模子天生SE作为行动,凭证天生SE后模子在τ上的体现获得奖励,并凭证奖励更新战略,以最大化预期奖励。

奖励与模子参数θ有关,以是强化学习的状态为上下文C和参数θ

由于模子参数会一直更新,之前版本模子网络的(状态,行动,奖励)三元组可能不再适用于目今模子。

因此,研究职员接纳「在线战略」要领,即从目今模子中采样自编辑,并基于目今模子盘算奖励。

相比其他战略要领,ReSTEM接纳的「拒绝采样+有监视微调」,可以让训练历程更稳固。

ReSTEM的历程为:首先从目今模子战略中采样一些候选输出(即自编辑),然后只对那些获得正奖励的样本举行监视微调,以此来强化模子的战略。

实验效果

少样本学习

研究职员使用了一个没有经由针对ARC(笼统和推理语料,Abstract and Reasoning Corpus)预训练的小型开源模子Llama-3.2-1B-Instruct举行实验。

由于大大都ARC使命关于未经由ARC预训练的模子来说难度较大,研究职员从ARC训练集中筛选出11个使命,从评估集中筛选出8个使命,确保这些使命在最优TTT(测试时训练,test-time training)设置下可以被基础的Llama-3.2-1B-Instruct模子解决。

在训练历程中,研究职员使用ReSTEM要领,通过为每个训练使命采样15个自编辑来训练模子。

每个自编辑划分应用于天生15个更新后的模子,然后在对应的测试样本上举行评估,只保存那些「经由顺应后能够为测试输入天生准确输出」的模子。

评估指标为乐成率:为每个保存的评估使命天生5个自编辑并评估模子,然后统计能够爆发准确输出的自编辑的百分比,可以反应出所学自编辑天生战略的质量。

比照基线要领包括上下文学习(ICL)、TTT+自编辑(无强化学习)和Oracle TTT(性能上限)。

与基线要领相比,SEAL显著提高了顺应乐成率(72.5%),而未经强化学习训练的基础模子的自编辑乐成率仅为20%,不举行任何顺应的乐成率为0%

知识整合(Knowledge Incorporation)

研究职员使用Qwen2.5-7B模子,从SQuAD(斯坦福问答数据集)的段落中整合新的事实内容。

比照基线包括基础模子(直接在问答使命上评估,Base Model)、仅在段落上微调模子(Train on Passage)、在段落和自动天生的推论上训练模子(Train on Passage + Synthetic)、在段落和通过OpenAI API从GPT-4.1网络的模子天生推论上训练。

在单段落设置下,仅在段落上微调的模子相比基础模子险些没有提升(33.5% vs. 32.7%),批注仅使用原始数据是不敷的。

使用GPT-4.1天生的推论可以将准确率提升到46.3%,比仅使用段落的基线提高了12.8个百分点。

使用Qwen2.5-7B模子天生的合成数据可以抵达39.7%,提高了6.2个百分点。

经由强化学习后,SEAL进一步将准确率提升到47.0%,只管模子规模较小,但体现优于使用GPT-4.1天生的合成数据。

在一连预训练(CPT)设置下,模子从200个段落中整合信息,并在所有974个相关问题上举行评估。研究职员为每个段落采样5个自编辑天生内容,并将这些合成数据用于一连预训练。

效果显示,SEAL在多段落设置下也优于所有基线要领,准确率抵达43.8%。

虽然绝对性能低于单段落设置,但相对提升效果坚持一致,这批注SEAL发明的编辑战略不但适用于单个段落的合成数据天生,还能推广到更普遍的场景。

仅需两次迭代,SEAL就凌驾了使用GPT-4.1数据的效果,后续迭代的提升效果逐渐削弱,批注战略迅速收敛到一种能够「将段落提炼为易于学习的基本事实」的编辑气概。

从例子中,可以看到强化学习可以促使天生更详细的自编辑内容,而这些更详细的编辑又反过来提升了整体性能。

参考资料:

https://arxiv.org/abs/2506.10943

相关推荐:三玖同人18❌漫画免费 把🍌放进女人的🍑 老婆你好骚~叫出来h

分享: 2025-07-15 19:09:54 共81款

电脑

安卓

苹果

相关合集

网友谈论 审查所有谈论>>

揭晓谈论

(您的谈论需要经由审核才华显示) 网友粉丝QQ群号:766969941

审查所有0条谈论>>

【网站地图】【sitemap】