2025-06-06 10:39:11 5,287次浏览

新智元报道

编辑:LRS

【新智元导读】无监视的熵最小化(EM)要领仅需一条未标注数据和约10步优化,就能显著提升大模子在推理使命上的体现,甚至逾越依赖大宗数据和重大奖励机制的强化学习(RL)。EM通过优化模子的展望漫衍,增强其对准确谜底的置信度,为大模子后训练提供了一种更高效精练的新思绪。

在具备强盛的通用性能之后,当下大模子的研究偏向已经转向了「怎样解决特定且重大的推理使命」,好比数学问题、剖析物理征象或是构建编程逻辑。

要想抵达更高的性能,除了海量文本的预训练之外,往往还需要进一步的后训练。

主流后训练要领是接纳强化学习(RL),特殊是连系可验证奖励的强化学习(RLVR)。

虽然基于RL的微调可以显著提升模子性能,但其十分依赖大规模、高质量的标注数据,其训练效果也取决于开发职员设计的重大奖励函数,需要专家知识来最大化优势信号并避免模子「奖励作弊」。

别的,许多常用的RL算法(如PPO)需要特另外奖励模子,不但增添了算法重大性,多训练办法和漫长的采样历程也会大幅提升盘算开销。

最近,Ubiquant研究团队提出一项LLM后训练的突破性研究,用13,440组大模子训练实验比照证实晰一件事:

使用使用无监视要领「单样本熵最小化」(One-shot Entropy Minimization, 简称One-shot EM),仅需一条未标注样本和约10步优化,即可在推理使命上抵达甚至逾越依赖成千上万条数据和全心设计的奖励机制的RL要领的效果。

论文链接:https://www.notion.so/One-shot-Entropy-Minimization-202606db813b80639773f850f39246a5

EM的焦点理念是无需任何标注数据或外部监视来训练模子,仅依赖模子自身展望漫衍的熵(entropy)举行优化。

其有用性基于一个要害假设和一个简朴直觉:若是一个模子自己足够有能力,那么当它对其展望效果更「自信」时,也更有可能是准确的。

详细来说,EM训练模子将其概率质量更多地集中在其最自信的输出上,即准确谜底通常比过失谜底具有更低的熵值。

通过优化目的来降低模子天生序列的熵,EM可以促使模子变得越发「自信」,从而强化其在预训练阶段已经获得的能力。

研究职员在论文中深入剖析了one-shot EM的有用性,发明其与强化学习具有相似的焦点特征,但从logits偏移角度来看,其对模子行为的指导偏向相反。

普遍实验批注,「温度」是影响EM训练和推理体现的要害因素,且在推理阶段与强化学习泛起相反趋势。

EM实质上更像是一种「漫衍塑形工具」,而非古板的学习要领。

熵最小化

详细来说,熵最小化要领的焦点公式为:

设体现一个预训练自回归语言模子pθ的词汇表,该模子由参数θ界说。

给定一个输入提醒x(例如一个问题或问题形貌),模子凭证其目今战略自回归地天生一个响应序列 y=(y1,y2,…,yT),其中T是天生序列的长度。焦点头脑是通过在每一步天生时最小化标记级别的熵,来镌汰模子对其自身展望的不确定性。

时间步t的条件熵界说为:

单个输入x的总体EM损失由以下公式给出:

简朴而言,该损失函数勉励模子提高对自身展望的信心,无需依赖外部监视信号或奖励函数。

由于其完全依赖于模子自己而非外部信号,和预训练目的完全兼容,在有用简化优化历程的同时可能带来潜在关于模子内一致性的破损。

只用一条样本就足够!

熵最小化(EM)的乐成依赖于「模子的展望不确定性」可以作为「有意义的训练信号」。

研究职员接纳了一种基于「模子体现方差」的样本筛选要领,来选择更具有信息量的输入提醒:通过盘算模子多次天生效果的准确性方差,挑选模子体现不稳固的样本举行训练。

这种方差量化了模子对给定输入的展望纷歧致性:低方差意味着要么对准确性有高度信心(靠近完善的乐成),要么对失败有高度信心(完全过失)。

相反,体现方差大的样本更能有用驱动模子降低熵值、明确决议界线,这也是为何只用一条高质量样本,就能快速推动模子的推理性能。

研究职员使用的唯逐一条样本如下:

Problem: The pressure P exerted by wind on a sail varies jointly as the area A of the sail and the cube of the wind’s velocity V. When the velocity is 8 miles per hour, the pressure on a sail of 2 square feet is 4 pounds. Find the wind velocity when the pressure on 4 square feet of sail is 32 pounds.

Solution: 12.8

以小广博,性能逾越RL

研究职员在多个数学推理使命上测试了熵最小化(EM)的效果,效果显示,仅一条样本、10步训练,EM要领即大幅提高了Qwen2.5-Math-7B的性能:

MATH500测试集:准确率从53%提升到78.8%,提升25.8个百分点;

Minerva Math测试集:准确率从11%提升到35.3%,提升24.3个百分点;

AMC23测试集:准确率从44.1%提升到70.3%,提升26.2个百分点。

纵然只使用一个样本和少少的训练办法(仅仅10步),EM要领极大地缩小了Qwen2.5-Math-7B与Prime-Zero-7B和RLVR-GRPO等先进的基于RL的模子之间的差别。

特殊是在AMC23基准测试中,经由EM增强的Qwen2.5-Math-7B抵达了具有竞争力的70.3分,迫近领先的RL模子这些效果清晰地批注,熵最小化(EM),只管比典范的强化学习要领更简朴、数据效率更高,但在增强基础语言模子在数学推理使命上的性能方面,具有重大的潜力。

那么为什么熵最小化能这么有用果呢?熵在模子的训练和推理历程中起到什么样的作用呢?

EM vs.RL:置信度与Logits偏移

大型语言模子在天生每个token时,会先爆发一组未经归一化的分数Logits,随后通过Softmax函数转换为概率漫衍,决议了下一个token的选择。

因此,Logits的漫衍形态直接反应了模子对其展望的「置信度」和对差别token的偏好。

通过对模子Logits漫衍的深入剖析发明,熵最小化(EM)和强化学习(RL)对模子内部置信度的影响偏向截然相反。

EM:向右偏移,强化自身自信

研究批注,经由EM训练的模子,其Logits漫衍会显著地向右偏移,意味着模子在天生历程中,会重复强化自身的展望置信度。

模子将更多的概率质量集中在少数它以为「确定」的token上,使得原本高概率的区域进一步向高分区间扩展。

直观来说,这让模子对其最看好的谜底变得越发「自信」。

在天生和采样时,这种向右的Logits偏移是有益的,增添了高概率的候选token数目,扩展了模子能够遵照的「高概率路径」,从而潜在地增强了模子的整体天生能力。

实验中,EM 训练后的模子在评估时体现出与采样温度的相反趋势:随着温度升高,性能下降。

可以用贪心解码(即总是选择概率最高的token)来诠释——EM训练将概率质量高度集中在少数确定性token上,贪心解码在这种漫衍下变得很是有用。

RL:向左偏移,受真实信号指导

与EM差别,经由RL训练的模子则体现出Logits漫衍向左偏移的趋势。

研究职员推测,这是受到训练历程中「真实」(ground-truth)信号的影响。

RL通过外部奖励函数来调解模子的行为,会处分那些模子展望概率很高但与地面真实不符的token

通过对这些高概率但不准确的token举行降权(reranking),RL降低了其排序位置,从而导致整体Logits漫衍向左偏移。

RL训练后,纵然经由reranking,这些原本低概率的token往往只占有概率漫衍中的中心位置,需要更高的采样温度才华被选中。

因此,RL训练的模子体现出与EM相反的趋势:性能随着采样温度的升高而提升。

虽然RL的目的是提升模子性能,但其导致的Logits左移被以为对大型语言模子的天生历程有害,镌汰了采样时的高概率路径数目,可能会削弱模子的整体性能。

Logits偏移的差别,可以通太过析Logits漫衍的偏度(Skewness)举行量化。

EM训练显著提高了Logits漫衍的偏度,泛起右偏;而RL训练则显著降低了偏度,甚至导致左偏。

纵然在EM后再举行RL训练,Logits漫衍的偏度也会从EM后的高值有所下降,遵照RL的趋势,其差别和塑造了EM和RL完全差别的推理采样战略。

在评估阶段,随着采样温度的升高,EM模子在四个数学推理基准测试上的平均体现一连下降。

EM 更像是一个漫衍塑造工具(distribution shaping tool),通过强化模子自身的内在一致性来提升置信度,从而重塑了现有知识的漫衍。

「太过自信」的陷阱与随机性

研究效果也展现了其高效性背后隐藏的「太过自信」征象。

训练初期,EM逊ю失迅速下降,模子的数学推理性能也随之提升然而,约莫在训练举行到10步左右时,模子的性能抵达了巅峰。

令人意外的是,纵然EM逊ю失继续下降,模子的数学推理性能反而最先下降。

这种「太过自信」征象可能是由于一连的EM训练太过放大了模子在推理历程中对其自身天生 token 的置信度。

一连的EM训练可能会太过强化模子已有的先验误差,导致输出效果太过集中于狭窄、太过自信的 token 漫衍,从而加剧算法误差并导致输出显著偏离准确路径,最终损害了模子的现实推理性能。

熵最小化的不稳固性和太过自信的损害也体现在训练时的温度上。

经由EM训练的模子在四个数学推理基准上的平均性能随着天生温度的升高总体泛起上升趋势。

平均性能的最大值最初增添,随后在温度约为0.5时最先下降。较高的温度带来更好的平均推理能力,而适中的温度(如0.5)则导致更大的性能波动,从而为更高的峰值性能创立了时机。

EM训练同时展现出显著的随机性,即便设置完全相同,四个数学推理基准测试的平均得分也会因种子差别而相差高达两倍。

EM适合哪些场景?

研究批注,熵最小化(EM)尤其适合以下三种场景。

尚未举行大宗RL调优的基础模子或仅经由 SFT 的模子

研究职员在多个差别的基础模子上评估了one-shot EM的效果,效果批注,仅通过单个样本和少少的训练步数,EM 能够一连且显著地提升这些模子在数学推理基准测试上的性能。

然而,当应用于已经由大宗RL普遍微调的模子(如 SimpleRL-Zoo)时,One-shot EM反而可能导致性能下降,与在RL之后应用EM可能锁定狭窄、太过自信的输出模式并损害性能的发明一致。

需要快速安排、没有富足标注数据或资源有限的场景

EM的焦点优势在于其极高的效率和对数据的极低需求,研究发明,One-shotEM现实上比 Multi-shotEM体现出更好的性能和更强的泛化能力。

只管Multi-shot使用了更多的样本,但One-shot EM通过单个样本实现了更稳固和详尽的优化,有用镌汰了样本误差并缩小了输出方差,进一步强化了EM在数据极端稀缺场景下的吸引力。

无价钱能力增强

熵最小化(EM)可以作为现有后训练范式的有力增补甚至起点,将EM应用在RL之前能够带来有用增益,使其成为RL的有用「启用基础」。

EM通过其奇异的Logits右偏移效应提升模子的自信度,增强模子的推理能力,并可能增进后续RL训练的更快收敛和更稳固优化。

关于已经深度调优过的RL模子,再使用EM反而可能带来性能的下降。

行业远景与未来研究

One-shot EM的乐成,不但在于其惊人的数据和盘算效率,还在于它为LLM后训练提供了一种完全无监视的、可落地的替换计划,不需要人工标注数据,不需要构建重大的奖励模子,极大地降低了后训练的门槛和本钱。

这项研究同样为未来的探索翻开了辽阔的空间:

训练稳固性与鲁棒性

One-shot EM虽然高效,但也陪同超参数敏感性和一定的训练不稳固性。

研究发明,一连的EM训练可能会导致模子「太过自信」,反而损害性能。

未来的事情需要探索早停标准或自顺应调理机制,以及镌汰训练的随机性,以进一步稳固和提升EM的效果。

泛化能力与跨领域应用

EM在数学推理使命上体现精彩,但能否泛化到对话、摘要、代码天生等其他领域,还需要进一步的实验验证。

同时,目今EM在Token级别操作,未来的研究可以探索在序列或语义单位上应用结构化熵,或引入使命特定先验知识和自顺应熵正则化,以释放更多潜力。

与现有手艺的融合

EM作为一种漫衍塑造工具,与SFT、RLHF等现有后训练手艺看法上正交。

研究发明,在RL之前应用EM可以带来有益的对数漫衍偏移,未来的事情可以系统地研究差别的EM与RL连系的时间表、课程战略及其相互作用,探索构建更强盛混淆要领的可能性。

EM甚至可以作为SFT或RLHF历程中的一种正则化战略,或作为现有模子的「信心压缩」层。

置信度校准的深入研究

研究效果体现,EM通过强化高概率推理路径来增强模子的置信度,批注EM可能是一种轻量级的信心校准要领。未来的研究需要开发更准确的评估协议来量化EM的校准效应,深入明确其背后的机制。

参考资料:

https://www.notion.so/One-shot-Entropy-Minimization-202606db813b80639773f850f39246a5?source=copy_link

尊龙游戏人生就是博

10步优化逾越强化学习,仅需1条未标注数据!后训练强势破局
10步优化逾越强化学习,仅需1条未标注数据!后训练强势破局

10步优化逾越强化学习,仅需1条未标注数据!后训练强势破局

「统计」w3u7903ejky2ywls

889.30MB
版本V7.4.15
下载91在线无码精品㊙️蜜桃原神装置你想要的应用 更利便 更快捷 发明更多
喜欢 22%好评(82768人)
谈论 49
10步优化逾越强化学习,仅需1条未标注数据!后训练强势破局截图0 10步优化逾越强化学习,仅需1条未标注数据!后训练强势破局截图1 10步优化逾越强化学习,仅需1条未标注数据!后训练强势破局截图2 10步优化逾越强化学习,仅需1条未标注数据!后训练强势破局截图3 10步优化逾越强化学习,仅需1条未标注数据!后训练强势破局截图4
详细信息
  • 软件巨细: 98479.84841MB
  • 最后更新: 2025-06-06 10:39:11
  • 最新版本: V1.77024.8
  • 文件名堂: apk
  • 应用分类:ios-Android 原神小草神裸体❌开腿影片
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 6.83534以上
应用先容
一,www.免费视频🈲🈲 %8,美女露100%双乳无遮挡免费
二,Free♥XXX♥hinata,黑土大雷漫画本
三,JIZZJIZZJIZZ18,女性裸体被❌羞羞被扒胸衣
四,火影之乱婬大筒木辉夜,亚洲做受❌❌❌高潮软件
五,一女被多人伦轩的4P文视频,69免费看片视频
六,忘穿内裤被同桌c了好爽小说,Free HD XXXX Tube HD,动漫furry裸体被❌羞羞嗯网站
七,学生裸体❌开腿真人
【联系尊龙游戏人生就是博】
客服热线:134-2881-646
加载更多
版本更新
V3.6.74
亚洲AV㊙️尤物猫在线观看
  • 国产a久久㊙️麻豆入口红豆

    博人扒开雏田屁股桶爽小说

    琳妮特裸体被调教

    60271.93MB
    104好评

    校花把粉嫩的屁股撅起来打

  • 霉霉全球有多少粉丝

    成人🔞高潮片免费

    欧成人精品H无码🔞

    44424.27MB
    865664好评

    初音未来被扒开腿做❌

  • 18+www蜜桃流水在线观看

    大白脚熟妇菊花屁眼

    小柔被体育老师c到流白浆作文

    13.87MB
    319好评

    成年无码视频AV片在线勿尤

  • 美女被❌到爽🔞流触手

    18性欧美XXXⅩ性满足

    原神纳西妲裸体被❌涩涩动漫

    53.82MB
    272好评

    白鹿黄床无遮挡吃🐻抹奶

  • 涂山容容裸体被❌叫爽漫画

    啊〜用力〜嗯〜轻一点蓝忘机

    小野夕子最新作品番号资源网站

    71.61MB
    705好评

    人与野鲁❌毛片在线视频

  • 好硬啊~快死我好喜欢

    张元英露双奶头无遮挡图片

    扒开老师❌狂揉❌电影

    83.14MB
    336好评

    ❤furry18❤网站

  • 被两个男的双龙挺进了

    男生把🐔伸进屁股里

    XXXX㊙️日本电影

    23.93MB
    106好评

    国产AV➕白丝➕欧

  • 亚洲人精品电

    国产清纯女学生被弄高潮

    💚奇优影院️手机在线观看

    50.92MB
    929好评

    欲漫社app❤网站成人版

  • 柳岩一级婬片A片免费看

    足控小的孩脚❌Xx免费网站

    女刑警被迫在刑具上高潮

    83.26MB
    562好评

    欲梦小葡萄是什么

  • (双//多人)双男主

    69❌❌❌❌❌欧美高中学生

    美女脱免费看秘直播

    83.56MB
    757好评

    Overflow

  • 云缨同人18❌羞羞漫画免

    男同动漫Gay 3D

    草莓视频❤

    71.71MB
    5186好评

    原神3D黄漫❌18禁MMD

  • 女同学光腚坐在我的脸上放屁小说

    少妇婬荡呻吟揉捏奶头

    把腿张开老子臊烂你打屁股

    94.54MB
    487好评

    白鹿裸体被❌羞羞网站

  • 人与牲ZOZ0交酡全过程

    动漫美女被❌到爽🔞流app

    女人把㊙️扒开给男人看小说

    65.89MB
    746好评

    男男暴菊gaY无套观看

  • 被❌到爽国产调教

    哎呦绅士为了身体健康适度观看

    99在线无码精品㊙️入口蘑菇

    54.68MB
    759好评

    南山兵1609新图片

  • 成女影吧

    女女隐私㊙️免费网站

    鸣人把佐助扒开腿❌黄

    57.32MB
    688好评

    亚洲AV国产AV精品美女vip

  • 唐舞桐的婬肉版婚礼1~5集

    中国无套Gay男男Gv2023

    欧洲AV久久无码㊙️蜜桃

    24.99MB
    353好评

    王者男男被❌超污裸体网站

  • 日本❌❌裸体❌❌护士

    被怪物c了一整晚高H触手动图

    小舞3D同人18❌AV网站

    13.44MB
    312好评

    樱桃直播

  • 海棠肉🥩玩具男男

    国产AV精品㊙️在线观看

    黃色A片三級三級三級免费看密使

    84.11MB
    215好评

    调教姜罚戒尺奶头乳夹

  • 我的yin荡绿帽

    💚奇优影院️三千收藏

    国产91♥️丝袜在线播放00

    45.82MB
    733好评

    动漫美女黄漫大全网站

  • 玩弄小怮女h文

    小狗驯养日志by抗病毒口服液

    spermatid

    10.45MB
    187好评

    live2d触摸18游戏

  • 变态一边摸一边脱女人衣服

    工口实验室EROBLABS官网

    肉丝到爽🔞高潮痉挛

    44.17MB
    365好评

    范冰冰被强扒胸罩吃奶

  • 扒開腿灌牛奶🥛調教动漫

    国产婬荡XXXⅩvideo游戏

    51精品国产㊙️入口在线

    91.37MB
    209好评

    亚洲人掀裙打屁股网站

  • 漫画被❌吸乳羞羞免费网站

    美女裸体❌羞羞喷水wwwAPP视频

    搡老女人的视频

    30.49MB
    904好评

    奇优伦理

  • 蒙面舞会干了朋友妻

    被粗大的🐔巴捣出白浆男同

    西西人体大胆4444ww张筱雨

    30.25MB
    546好评

    油管gtsgrowth网站

  • 八重神子爆乳潮喷

    女人脱精光直播app免费看

    伽罗被❌娇喘流白色液体原因

    29.97MB
    128好评

    我被继夫添荫蒂舒服极了视频

  • 啊日出水了用力乖乖app

    51吃瓜今日吃瓜入口fun

    火影18❌AV黄漫网站

    70.58MB
    458好评

    91丨九色丨韩国人妖

  • 喜欢爷俩一起弄我小说女生扒开自己的🍑子给闺蜜玩 title="小伸入视频网站" class="0v5366j9r7414 app-list-img" src="https://t11.m.mksxm.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

    崩铁飞霄被调教成战奴小说

    双女主炒菜资源入口在哪里

  • 清纯JK学生白丝喷水流白浆软件把手插到🍑里是什么体验 title="国产做受❌❌❌高潮日本" class="0v5366j9r7414 app-list-img" src="https://t10.m.mksxm.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

    扒开❌狂揉❌喷水视频蓝莓

    金晨裸乳被爆❌白浆

  • 亚洲AV㊙️久久伊人超碰图片QQ黄群免费秒进 title="美女洗澡㊙️无遮挡直播" class="0v5366j9r7414 app-list-img" src="https://t12.m.mksxm.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

    韩漫无羞遮无删减H漫画

    进击的巨人三笠18禁本子

男人猛躁女人秘白色液体户外 类似软件

猜你喜欢

相关攻略
包括 饿了么 的应用集
包括 饿了么 的应用集
谈论
  • 刃恒r18调教 6天前
    惩罚女扑仆拨开用冰块
  • 雏田被鸣人揉❌难受❌3d 3天前
    美女扒开胸罩👙给男生吃白头
  • 不知火舞裸体被❌羞羞漫画 2天前
    媚黑洗脑小说全文阅读笔趣阁
  • 美女裸体❌开腿短视频 8天前
    Gayer furry漫画furry Gay
  • 小🐔🐔伸进🈲🔞🔞糖心 4天前
    Chinese Gay Fuck XXX HD网站
  • 八重神子裸体❌开腿网站 5天前
    越南别动队1986版免费观看全部
  • 美女扒精光㊙️视频网站 2天前
    美女挤奶㊙️免费视频
  • 揉我胸⋯啊⋯嗯~喷水了甘雨 4天前
    免费网站看sm调教视频
  • 动漫男男被❌黄漫网站 5天前
    边啃奶头边躁狠狠躁A片口述
  • 瑟瑟小黄片男同 5天前
    国产精品嫩草