尊龙游戏人生就是博

男男Gay叫床啪啪无码原神 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

目今位置:首页专题合集 → w3u7903ejky2ywls

尊龙凯时 - 人生就是搏!

阿里通义宣布并行盘算新战略:1.6B等效4.4B,内存消耗骤降95%

阿里通义宣布并行盘算新战略:1.6B等效4.4B,内存消耗骤降95%

闻乐 发自 凹非寺量子位 | 公众号 QbitAI

既能提升模子能力,又不显著增添内存和时间本钱,LLM第三种Scaling Law被提出了。

关于1.6B模子,能实现性能靠近4.4B模子,内存占用仅为后者的1/22,延迟增添量为1/6。

并且可直接应用于现有模子(如Qwen-2.5),无需重新训练。

这就是阿里通义团队提出的PARSCALE。

现在LLMs的优化主要有两种思绪:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增添内存和时间本钱。

阿里通义团队提出的新范式受CFG(无分类器指导)双路径推理机制的启发。

他们将CFG的并行头脑从 “天生阶段的推理优化” 扩展为 “训练和推理全流程的「盘算缩放」”。

让我们来扒一翦绺艺细节。

将CFG的并行头脑扩展到盘算缩放PARSCALE关于CFG双路径的灵感迁徙

CFG 通过同时运行有条件天生(输入提醒词)和无条件天生(不输入提醒词)两条路径,再通过加权平均融合效果,提升天生质量(如文内情关性、图像细节精准度)。

其焦点在于使用并行盘算(两次前向撒播)增强模子决议的多样性和准确性,而无需增添模子参数。

研究职员视察到CFG的有用性可能源于盘算量的增添(两次前向撒播),而非纯粹的条件指导。

由此提出假设:并行盘算的规模(如路径数目)可能是提升模子能力的要害因素,而非仅依赖参数规;蛲评硎奔涞拇欣┱梗ㄈ缣焐鄑oken)。

CFG用2条并行路径提升性能,PARSCALE则将路径数目扩展为P条(如P=8),并通过可学习的输入变换和动态聚合,使并行盘算成为一种可扩展的 “盘算缩放” 范式。下图展示了PARSCALE要领。

PARSCALE刷新的并行盘算框架

1、输入层:可学习的多路径输入变换

焦点刷新是将CFG的牢靠双路径扩展为P条可学习的并行路径,每条路径通过可训练的前缀嵌入天生差别化输入。

前缀嵌入天生:为每个并行路径引入可训练的前缀向量(维度与输入嵌入一致),拼接在原始输入前,形成路径专属输入。KV缓存区分:在Transformer的注重力层中,差别路径的键(K)和值(V)缓存相互自力,确保各路径的盘算互不打搅,增强输出多样性。

2、盘算层:并行前向撒播

并行执行:将P个差别化输入同时输入模子,使用GPU的并行盘算能力,一次性完成P路前向撒播,天生P个输出流。效率优势:通过批量矩阵运算实现P路并行,盘算效率随P线性增添,共享模子主体参数,仅增添前缀嵌入等少量可训练参数。

3、输出层:动态加权聚合

通过多层感知机(MLP)动态盘算各路径输出的聚合权重,替换 CFG 的牢靠权重机制:若某路径输出与目今输入语义匹配度高,MLP 会为其分派更高权重。

PARSCALE更高效

PARSCALE vs. 参数扩展

当P=8时,1.6B参数模子在HumanEval的性能(Pass@1=39.1%)靠近4.4B参数模子(Pass@1=45.4%),但内存占用仅为后者的1/22,延迟增添量为1/6。

在GSM8K数学推理使命中,P=8使1.8B模子性能提升34%(相对基准),显著高于参数扩展的增益。

两阶段训练战略

阶段1:用古板要领预训练模子至收敛(1Ttokens)。

阶段2:冻结主体参数,仅训练前缀嵌入和聚合权重(20Btokens,占总数据的 2%)。

P=8模子在GSM8K上提升34%,且与重新训练效果相当,证实少量数据即可激活并行路径的有用性。且该战略使训练本钱降低约 98%

适配现有模子

研究团队在Qwen-2.5-3B模子上举行一连预训练和参数高效微调(PEFT),仅调解前缀和聚合权重。

效果显示,在代码天生使命(HumanEval+)中PEFT 要领使Pass@1提升15%,且冻结主体参数时仍有用,证实动态调解 P 的可行性。

PARSCALE通过可学习的多路径输入、动态聚合权重、全流程并行优化,将CFG的 “双路径启发” 升级为一种通用的盘算缩放范式。

感兴趣的朋侪可到官方审查更多细节~

论文链接:https://arxiv.org/abs/2505.10475代码地点:https://github.com/QwenLM/ParScale参考链接:https://x.com/iScienceLuvr/status/1923262107845525660

— 完 —

相关推荐:一女被多人伦轩的4P文视频 黑卡蒂裸体无打码 孟子义扒开让我c了一夜

分享: 2025-06-05 09:36:34 共81款

电脑

安卓

苹果

相关合集

网友谈论 审查所有谈论>>

揭晓谈论

(您的谈论需要经由审核才华显示) 网友粉丝QQ群号:766969941

审查所有0条谈论>>

【网站地图】【sitemap】