闻乐 发自 凹非寺量子位 | 公众号 QbitAI
既能提升模子能力,又不显著增添内存和时间本钱,LLM第三种Scaling Law被提出了。
关于1.6B模子,能实现性能靠近4.4B模子,内存占用仅为后者的1/22,延迟增添量为1/6。
并且可直接应用于现有模子(如Qwen-2.5),无需重新训练。
这就是阿里通义团队提出的PARSCALE。
现在LLMs的优化主要有两种思绪:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增添内存和时间本钱。
阿里通义团队提出的新范式受CFG(无分类器指导)双路径推理机制的启发。
他们将CFG的并行头脑从 “天生阶段的推理优化” 扩展为 “训练和推理全流程的「盘算缩放」”。
让我们来扒一翦绺艺细节。
将CFG的并行头脑扩展到盘算缩放PARSCALE关于CFG双路径的灵感迁徙
CFG 通过同时运行有条件天生(输入提醒词)和无条件天生(不输入提醒词)两条路径,再通过加权平均融合效果,提升天生质量(如文内情关性、图像细节精准度)。
其焦点在于使用并行盘算(两次前向撒播)增强模子决议的多样性和准确性,而无需增添模子参数。
研究职员视察到CFG的有用性可能源于盘算量的增添(两次前向撒播),而非纯粹的条件指导。
由此提出假设:并行盘算的规模(如路径数目)可能是提升模子能力的要害因素,而非仅依赖参数规;蛲评硎奔涞拇欣┱梗ㄈ缣焐鄑oken)。
CFG用2条并行路径提升性能,PARSCALE则将路径数目扩展为P条(如P=8),并通过可学习的输入变换和动态聚合,使并行盘算成为一种可扩展的 “盘算缩放” 范式。下图展示了PARSCALE要领。
PARSCALE刷新的并行盘算框架
1、输入层:可学习的多路径输入变换
焦点刷新是将CFG的牢靠双路径扩展为P条可学习的并行路径,每条路径通过可训练的前缀嵌入天生差别化输入。
前缀嵌入天生:为每个并行路径引入可训练的前缀向量(维度与输入嵌入一致),拼接在原始输入前,形成路径专属输入。KV缓存区分:在Transformer的注重力层中,差别路径的键(K)和值(V)缓存相互自力,确保各路径的盘算互不打搅,增强输出多样性。
2、盘算层:并行前向撒播
并行执行:将P个差别化输入同时输入模子,使用GPU的并行盘算能力,一次性完成P路前向撒播,天生P个输出流。效率优势:通过批量矩阵运算实现P路并行,盘算效率随P线性增添,共享模子主体参数,仅增添前缀嵌入等少量可训练参数。
3、输出层:动态加权聚合
通过多层感知机(MLP)动态盘算各路径输出的聚合权重,替换 CFG 的牢靠权重机制:若某路径输出与目今输入语义匹配度高,MLP 会为其分派更高权重。
PARSCALE更高效
PARSCALE vs. 参数扩展
当P=8时,1.6B参数模子在HumanEval的性能(Pass@1=39.1%)靠近4.4B参数模子(Pass@1=45.4%),但内存占用仅为后者的1/22,延迟增添量为1/6。
在GSM8K数学推理使命中,P=8使1.8B模子性能提升34%(相对基准),显著高于参数扩展的增益。
两阶段训练战略
阶段1:用古板要领预训练模子至收敛(1Ttokens)。
阶段2:冻结主体参数,仅训练前缀嵌入和聚合权重(20Btokens,占总数据的 2%)。
P=8模子在GSM8K上提升34%,且与重新训练效果相当,证实少量数据即可激活并行路径的有用性。且该战略使训练本钱降低约 98%
适配现有模子
研究团队在Qwen-2.5-3B模子上举行一连预训练和参数高效微调(PEFT),仅调解前缀和聚合权重。
效果显示,在代码天生使命(HumanEval+)中PEFT 要领使Pass@1提升15%,且冻结主体参数时仍有用,证实动态调解 P 的可行性。
PARSCALE通过可学习的多路径输入、动态聚合权重、全流程并行优化,将CFG的 “双路径启发” 升级为一种通用的盘算缩放范式。
感兴趣的朋侪可到官方审查更多细节~
论文链接:https://arxiv.org/abs/2505.10475代码地点:https://github.com/QwenLM/ParScale参考链接:https://x.com/iScienceLuvr/status/1923262107845525660
— 完 —
《摸下面十八禁🔞高潮喷水》,《w3u7903ejky2ywls》精品Pron㊙️一区二区入口
“ℋღ᭄幸福🍒᭄💞࿐”
免费无遮挡🔞视频
……
06月02日
“金卡戴珊㊙️私密視頻”可乐放冷冻层的结果
↓↓↓
06月02日,沪消保委鼓励电影院与购票平台优化竞争 提供更高性价比观影服务,陈冠希雁门照片免费版,扒开🐻让我❌❌❌蓝莓视频,蒂法被❌❌爆乳无尽动漫,懂片帝免费账号密码大全
06月02日,西安创新大遗址保护理念 实现大遗址与现代社会相融共生,我的🍌伸到女同学🍑,揉我胸⋯啊⋯嗯~下面出水,део+38是18还是19,桃子冰♈熟女
06月02日,美军从其在尼日尔的最后一个空军基地撤出,玩着玩着就c进去了h1v1视频,精品午夜女友AV在线观看,女生在床上放屁拉肚子拉裤子,初女裸体㊙️免费视频
06月02日|探访太原新发现北魏石窟:孤独隐匿山间近1500年|钟离被各种姿势c到高潮高|少萝露小奶头的视频|男人的🍌伸到男人🍑里的小说|美女隐私㊙️的免费软件
06月02日|四川文博集体亮相第十届“博博会” 尽展文化魅力|哎呦绅士网址|裸体美女被触手❌到高潮|乱亲女洗澡69XX|163815绿帽社
06月02日|江西南部强降雨天气持续 南铁闻“汛”而动守护铁路安全畅通|舌头伸进她裤裆里的小缝日本A片|女人哭着扒开屁股灌浣肠视频网站|两个女人帮我吹箫暗示什么|all空被所有人爆炒……
06月02日,第二十八届香港国际影视展开幕,脱体育老师裤子看亅j,小🐥🐥戳进蜜桃里动漫,撅高了边打屁股边C男男,qztv2.app
06月02日,美国中学生参观故宫,💚奇优影院 ️,亚洲AV无码㊙️蜜桃羞羞,少妇公车上迎合我进入,火车上荫蒂添的好舒服图片
06月02日|加强“快递盲盒”清理整顿|纲手被爆❌自慰爽naruto堂|纲手露出胸🍑和乳头🍑让人揉|国产高清在线视频|千仞雪被❌吸乳羞羞3D漫画
06月02日,绿色“一带一路”十周年创新理念与实践案例(二),暗交小拗女一区二区三,亚洲⭕⭕⭕⭕XXXX在旅馆,免费观看18禁欲无遮挡奶水,床震吃胸膜奶啪啪18禁
06月02日,ATP年终总决赛小组赛次轮:梅德韦杰夫、辛纳获胜,男男Sm调教Gay视频网站,偷拍OOOO,散兵被扒开腿做同人漫画,91无码㊙️在线无码观看
06月02日,众行致远 |“中国在亚太经合组织中发挥重要作用”,Ai美女抖胸,八十老太国产肥妇女熟,羞涩㊙️18🈲黄漫免费网站,我把亲妺妺c了她一夜的作文
06月02日|厄瓜多尔全国限电一周 每日停电最长14小时|高跟91❌❌⭕⭕白丝|GayFuckGay无套video|少妇被到爽流下载|91人妻精品一区二区董小苑在线
06月02日|两会正关注|全国两会圆满落下帷幕,“部长通道”再启,今日热点速看|白鹿裸体㊙️无遮|Al鞠婧祎裸体被❌羞羞网站|芭乐视app下载网址进入ios|91久久久无码国产一区二区
06月02日|联播一瞬丨送别“两弹一星”元勋周光召同志|麻花豆传媒一二三产区|3D黄漫❌18禁视频免费看网站|军婚H圆房~H嗯啊1V2电影|云曦被强行打开双腿灌满
广西灵山警方悬赏3万缉凶,陕西省卫健委原主任刘宝琴被查|营造爱读书、读好书、善读书的浓厚氛围(人文茶座)|同桌扒我裤裆部从内裤里摸出液体|路飞穿汉库克的衣服|女生扒开🍑伸进🍌国产|休内谢精一汇编的深刻含义和影响
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺