猫眼影戏
猫眼影戏
阿依努尔·阿布都拉
手机审查
猫眼影戏记者 翟文杰 报道w3u7903ejky2ywls
新智元报道
编辑:LRS
【新智元导读】无监视的熵最小化(EM)要领仅需一条未标注数据和约10步优化,就能显著提升大模子在推理使命上的体现,甚至逾越依赖大宗数据和重大奖励机制的强化学习(RL)。EM通过优化模子的展望漫衍,增强其对准确谜底的置信度,为大模子后训练提供了一种更高效精练的新思绪。
在具备强盛的通用性能之后,当下大模子的研究偏向已经转向了「怎样解决特定且重大的推理使命」,好比数学问题、剖析物理征象或是构建编程逻辑。
要想抵达更高的性能,除了海量文本的预训练之外,往往还需要进一步的后训练。
主流后训练要领是接纳强化学习(RL),特殊是连系可验证奖励的强化学习(RLVR)。
虽然基于RL的微调可以显著提升模子性能,但其十分依赖大规模、高质量的标注数据,其训练效果也取决于开发职员设计的重大奖励函数,需要专家知识来最大化优势信号并避免模子「奖励作弊」。
别的,许多常用的RL算法(如PPO)需要特另外奖励模子,不但增添了算法重大性,多训练办法和漫长的采样历程也会大幅提升盘算开销。
最近,Ubiquant研究团队提出一项LLM后训练的突破性研究,用13,440组大模子训练实验比照证实晰一件事:
使用使用无监视要领「单样本熵最小化」(One-shot Entropy Minimization, 简称One-shot EM),仅需一条未标注样本和约10步优化,即可在推理使命上抵达甚至逾越依赖成千上万条数据和全心设计的奖励机制的RL要领的效果。
论文链接:https://www.notion.so/One-shot-Entropy-Minimization-202606db813b80639773f850f39246a5
EM的焦点理念是无需任何标注数据或外部监视来训练模子,仅依赖模子自身展望漫衍的熵(entropy)举行优化。
其有用性基于一个要害假设和一个简朴直觉:若是一个模子自己足够有能力,那么当它对其展望效果更「自信」时,也更有可能是准确的。
详细来说,EM训练模子将其概率质量更多地集中在其最自信的输出上,即准确谜底通常比过失谜底具有更低的熵值。
通过优化目的来降低模子天生序列的熵,EM可以促使模子变得越发「自信」,从而强化其在预训练阶段已经获得的能力。
研究职员在论文中深入剖析了one-shot EM的有用性,发明其与强化学习具有相似的焦点特征,但从logits偏移角度来看,其对模子行为的指导偏向相反。
普遍实验批注,「温度」是影响EM训练和推理体现的要害因素,且在推理阶段与强化学习泛起相反趋势。
EM实质上更像是一种「漫衍塑形工具」,而非古板的学习要领。
熵最小化
详细来说,熵最小化要领的焦点公式为:
设体现一个预训练自回归语言模子pθ的词汇表,该模子由参数θ界说。
给定一个输入提醒x(例如一个问题或问题形貌),模子凭证其目今战略自回归地天生一个响应序列 y=(y1,y2,…,yT),其中T是天生序列的长度。焦点头脑是通过在每一步天生时最小化标记级别的熵,来镌汰模子对其自身展望的不确定性。
时间步t的条件熵界说为:
单个输入x的总体EM损失由以下公式给出:
简朴而言,该损失函数勉励模子提高对自身展望的信心,无需依赖外部监视信号或奖励函数。
由于其完全依赖于模子自己而非外部信号,和预训练目的完全兼容,在有用简化优化历程的同时可能带来潜在关于模子内一致性的破损。
只用一条样本就足够!
熵最小化(EM)的乐成依赖于「模子的展望不确定性」可以作为「有意义的训练信号」。
研究职员接纳了一种基于「模子体现方差」的样本筛选要领,来选择更具有信息量的输入提醒:通过盘算模子多次天生效果的准确性方差,挑选模子体现不稳固的样本举行训练。
这种方差量化了模子对给定输入的展望纷歧致性:低方差意味着要么对准确性有高度信心(靠近完善的乐成),要么对失败有高度信心(完全过失)。
相反,体现方差大的样本更能有用驱动模子降低熵值、明确决议界线,这也是为何只用一条高质量样本,就能快速推动模子的推理性能。
研究职员使用的唯逐一条样本如下:
Problem: The pressure P exerted by wind on a sail varies jointly as the area A of the sail and the cube of the wind’s velocity V. When the velocity is 8 miles per hour, the pressure on a sail of 2 square feet is 4 pounds. Find the wind velocity when the pressure on 4 square feet of sail is 32 pounds.
Solution: 12.8
以小广博,性能逾越RL
研究职员在多个数学推理使命上测试了熵最小化(EM)的效果,效果显示,仅一条样本、10步训练,EM要领即大幅提高了Qwen2.5-Math-7B的性能:
MATH500测试集:准确率从53%提升到78.8%,提升25.8个百分点;
Minerva Math测试集:准确率从11%提升到35.3%,提升24.3个百分点;
AMC23测试集:准确率从44.1%提升到70.3%,提升26.2个百分点。
纵然只使用一个样本和少少的训练办法(仅仅10步),EM要领极大地缩小了Qwen2.5-Math-7B与Prime-Zero-7B和RLVR-GRPO等先进的基于RL的模子之间的差别。
特殊是在AMC23基准测试中,经由EM增强的Qwen2.5-Math-7B抵达了具有竞争力的70.3分,迫近领先的RL模子这些效果清晰地批注,熵最小化(EM),只管比典范的强化学习要领更简朴、数据效率更高,但在增强基础语言模子在数学推理使命上的性能方面,具有重大的潜力。
那么为什么熵最小化能这么有用果呢?熵在模子的训练和推理历程中起到什么样的作用呢?
EM vs.RL:置信度与Logits偏移
大型语言模子在天生每个token时,会先爆发一组未经归一化的分数Logits,随后通过Softmax函数转换为概率漫衍,决议了下一个token的选择。
因此,Logits的漫衍形态直接反应了模子对其展望的「置信度」和对差别token的偏好。
通过对模子Logits漫衍的深入剖析发明,熵最小化(EM)和强化学习(RL)对模子内部置信度的影响偏向截然相反。
EM:向右偏移,强化自身自信
研究批注,经由EM训练的模子,其Logits漫衍会显著地向右偏移,意味着模子在天生历程中,会重复强化自身的展望置信度。
模子将更多的概率质量集中在少数它以为「确定」的token上,使得原本高概率的区域进一步向高分区间扩展。
直观来说,这让模子对其最看好的谜底变得越发「自信」。
在天生和采样时,这种向右的Logits偏移是有益的,增添了高概率的候选token数目,扩展了模子能够遵照的「高概率路径」,从而潜在地增强了模子的整体天生能力。
实验中,EM 训练后的模子在评估时体现出与采样温度的相反趋势:随着温度升高,性能下降。
可以用贪心解码(即总是选择概率最高的token)来诠释——EM训练将概率质量高度集中在少数确定性token上,贪心解码在这种漫衍下变得很是有用。
RL:向左偏移,受真实信号指导
与EM差别,经由RL训练的模子则体现出Logits漫衍向左偏移的趋势。
研究职员推测,这是受到训练历程中「真实」(ground-truth)信号的影响。
RL通过外部奖励函数来调解模子的行为,会处分那些模子展望概率很高但与地面真实不符的token
通过对这些高概率但不准确的token举行降权(reranking),RL降低了其排序位置,从而导致整体Logits漫衍向左偏移。
RL训练后,纵然经由reranking,这些原本低概率的token往往只占有概率漫衍中的中心位置,需要更高的采样温度才华被选中。
因此,RL训练的模子体现出与EM相反的趋势:性能随着采样温度的升高而提升。
虽然RL的目的是提升模子性能,但其导致的Logits左移被以为对大型语言模子的天生历程有害,镌汰了采样时的高概率路径数目,可能会削弱模子的整体性能。
Logits偏移的差别,可以通太过析Logits漫衍的偏度(Skewness)举行量化。
EM训练显著提高了Logits漫衍的偏度,泛起右偏;而RL训练则显著降低了偏度,甚至导致左偏。
纵然在EM后再举行RL训练,Logits漫衍的偏度也会从EM后的高值有所下降,遵照RL的趋势,其差别和塑造了EM和RL完全差别的推理采样战略。
在评估阶段,随着采样温度的升高,EM模子在四个数学推理基准测试上的平均体现一连下降。
EM 更像是一个漫衍塑造工具(distribution shaping tool),通过强化模子自身的内在一致性来提升置信度,从而重塑了现有知识的漫衍。
「太过自信」的陷阱与随机性
研究效果也展现了其高效性背后隐藏的「太过自信」征象。
训练初期,EM逊ю失迅速下降,模子的数学推理性能也随之提升然而,约莫在训练举行到10步左右时,模子的性能抵达了巅峰。
令人意外的是,纵然EM逊ю失继续下降,模子的数学推理性能反而最先下降。
这种「太过自信」征象可能是由于一连的EM训练太过放大了模子在推理历程中对其自身天生 token 的置信度。
一连的EM训练可能会太过强化模子已有的先验误差,导致输出效果太过集中于狭窄、太过自信的 token 漫衍,从而加剧算法误差并导致输出显著偏离准确路径,最终损害了模子的现实推理性能。
熵最小化的不稳固性和太过自信的损害也体现在训练时的温度上。
经由EM训练的模子在四个数学推理基准上的平均性能随着天生温度的升高总体泛起上升趋势。
平均性能的最大值最初增添,随后在温度约为0.5时最先下降。较高的温度带来更好的平均推理能力,而适中的温度(如0.5)则导致更大的性能波动,从而为更高的峰值性能创立了时机。
EM训练同时展现出显著的随机性,即便设置完全相同,四个数学推理基准测试的平均得分也会因种子差别而相差高达两倍。
EM适合哪些场景?
研究批注,熵最小化(EM)尤其适合以下三种场景。
尚未举行大宗RL调优的基础模子或仅经由 SFT 的模子
研究职员在多个差别的基础模子上评估了one-shot EM的效果,效果批注,仅通过单个样本和少少的训练步数,EM 能够一连且显著地提升这些模子在数学推理基准测试上的性能。
然而,当应用于已经由大宗RL普遍微调的模子(如 SimpleRL-Zoo)时,One-shot EM反而可能导致性能下降,与在RL之后应用EM可能锁定狭窄、太过自信的输出模式并损害性能的发明一致。
需要快速安排、没有富足标注数据或资源有限的场景
EM的焦点优势在于其极高的效率和对数据的极低需求,研究发明,One-shotEM现实上比 Multi-shotEM体现出更好的性能和更强的泛化能力。
只管Multi-shot使用了更多的样本,但One-shot EM通过单个样本实现了更稳固和详尽的优化,有用镌汰了样本误差并缩小了输出方差,进一步强化了EM在数据极端稀缺场景下的吸引力。
无价钱能力增强
熵最小化(EM)可以作为现有后训练范式的有力增补甚至起点,将EM应用在RL之前能够带来有用增益,使其成为RL的有用「启用基础」。
EM通过其奇异的Logits右偏移效应提升模子的自信度,增强模子的推理能力,并可能增进后续RL训练的更快收敛和更稳固优化。
关于已经深度调优过的RL模子,再使用EM反而可能带来性能的下降。
行业远景与未来研究
One-shot EM的乐成,不但在于其惊人的数据和盘算效率,还在于它为LLM后训练提供了一种完全无监视的、可落地的替换计划,不需要人工标注数据,不需要构建重大的奖励模子,极大地降低了后训练的门槛和本钱。
这项研究同样为未来的探索翻开了辽阔的空间:
训练稳固性与鲁棒性
One-shot EM虽然高效,但也陪同超参数敏感性和一定的训练不稳固性。
研究发明,一连的EM训练可能会导致模子「太过自信」,反而损害性能。
未来的事情需要探索早停标准或自顺应调理机制,以及镌汰训练的随机性,以进一步稳固和提升EM的效果。
泛化能力与跨领域应用
EM在数学推理使命上体现精彩,但能否泛化到对话、摘要、代码天生等其他领域,还需要进一步的实验验证。
同时,目今EM在Token级别操作,未来的研究可以探索在序列或语义单位上应用结构化熵,或引入使命特定先验知识和自顺应熵正则化,以释放更多潜力。
与现有手艺的融合
EM作为一种漫衍塑造工具,与SFT、RLHF等现有后训练手艺看法上正交。
研究发明,在RL之前应用EM可以带来有益的对数漫衍偏移,未来的事情可以系统地研究差别的EM与RL连系的时间表、课程战略及其相互作用,探索构建更强盛混淆要领的可能性。
EM甚至可以作为SFT或RLHF历程中的一种正则化战略,或作为现有模子的「信心压缩」层。
置信度校准的深入研究
研究效果体现,EM通过强化高概率推理路径来增强模子的置信度,批注EM可能是一种轻量级的信心校准要领。未来的研究需要开发更准确的评估协议来量化EM的校准效应,深入明确其背后的机制。
参考资料:
https://www.notion.so/One-shot-Entropy-Minimization-202606db813b80639773f850f39246a5?source=copy_link
??时势1:格温同人免费漫画
??06月06日,四川雅投发展投资集团有限公司原党委书记、董事长谭克强接受审查调查,
??06月06日,(文化中国行)走进无锡千年古运河畔 漫步老巷感受文脉,
交通信用卡是一种利便快捷的支付工具,但若是由于种种缘故原由导致逾期未能准时还款,就碰面临一系列的问题。在这种情形下,与银行进行协商解决是一种明智的选择。本文将探讨交通信用卡逾期后怎样与银行协商解决,以及逾期协商还款方法和效果。 一、交通信用卡逾期了怎么跟银行协商解决 1. 实时与银行**:一旦发明自...
??时势2:痛痛痛痛痛痛疼疼色版推特
??06月06日,云南镇雄突发山体滑坡47人失联 搜救工作紧张有序开展,
“咦……”这个头领惊异,他这一鞭之力有何等大,自己最清晰,一个孩子竟然一把就捉住了。
,日本在线播放va🔞成人雷速,梅花十三的隐身部位免费,男男doi攻🌿的巨猛受受视频。??06月06日,专家:大雪时节艾灸这两个穴位可补阳气,
今天,我们召开党委办公室事情座谈会,主要是总结交流履历,配合探讨做好新形势下办公室事情的思绪和步伐。同时,这次座谈会对各人来讲,也是一次难堪的学习交流时机,对增进党委办公室进一步提高“三效劳”水平,充分验展好照料助手作用必将爆发起劲的作用。
,触手怪物入侵女性❌乳动,亚洲精品无码永久在线观看性色,甘雨疯狂揉❌难受。??时势3:韩国美女屁股㊙️无遮挡
??06月06日,中国代表团:潘展乐是第一位获得男子百米自由泳奥运金牌的亚洲选手,
我校向导向来都十分重视学生军训事情,今年更是将军训作为今年度的头等大事来抓。8月9日学校召开了20xx级军训发动大会。在会上,特殊强调了全体同砚在军训中应体现出严酷的组织纪律性和强烈的整体声誉感,同时也向同砚们提出了明确的要求,即在军训时代严酷遵守学校的相关划定,发挥不怕苦不怕累的精神,做好严酷训练的准备,训练场如战场,在军训场上一切行悦耳教官指挥。
,3–12呦女,美女露出🐻给男人玩揉的,雷电将军被c到乳液狂飙。??06月06日,“中国天然染第一人”寻花问草还原千种中国色,
终于,经由二十几天的跋涉,两个孩子邻近了石村,他们身上的兽皮衣一条条、一缕缕,随处是血污。
,张柏芝性做爰A片免费看,美女扒开内衣👙露出jk网站,芙宁娜被爆❌自慰流水。??时势4:青少年内谢汇编
??06月06日,中国专家在联合国人权理事会介绍中国保障残疾人权利实践,
事实上,石国壮盛,远没有到需要平乱的时代,尤其最近几百年来人皇符文通天,神威盖世,国势越发郁勃,没有人敢起义。
,老师把我添高潮了A片潘金莲,亚洲经典一区二区三区爱妃记歌词,大长腿美女BB撒尿视频。??06月06日,提高就业补助资金使用效益 哪些人可以享受职业培训和社会保险补贴?,
已往,石昊只是一群大孩子后面的跟屁虫,自从他举起铜鼎后,就连大人们都已视他为小怪物,就更不要说孩子们了,一下子成为了他们中的“主干分子”之一。
,黑寡妇被C到高潮,宝贝奶好大呻吟想要A片,艾伦三笠同人本子211。责编:韦凯中
审核:维恩贝克
责编:李志林
Copyright (C) 2001-2025 dzwww.com. All Rights Reserved
新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证
山东省互联网传媒集团主理 联系电话:0531-85193202 违法不良信息举报电话:0531-85196540
Copyright (C) 2001-2025 Dzwww 鲁ICP备09023866号-1