训练MoE足足提速70%！华为只用了3招

训练MoE足足提速70%！华为只用了3招

允中发自凹非寺量子位 | 公众号 QbitAI

Scaling Law之下，MoE（混淆专家）现在已经成为各大模子厂商扩展模子能力的制胜法宝。

不过，在高效实现模子参数规；耐，MoE的训练难题也日益凸显：

训练效率缺乏，甚至一半以上训练时间都铺张在“期待”上。

现在，为了突破MoE的训练瓶颈，华为脱手了：

构建了一套名为Adaptive Pipe & EDPB的优化计划，开启“天主视角”，让MoE面临“交通拥堵”的训练集群，实现无期待流通运行。

MoE大规模训练难题：一半以上的训练时间在期待？

实践已经批注，MoE模子训练集群的效率面临两方面挑战：

首先，是专家并行引入了盘算和通讯期待。

当模子规模较大时，需要切分专家到差别装备形成并行（EP），这就引入特殊All-to-All通讯。

与此同时，MoE层绝大部分EP通讯与盘算保存时序依赖关系，一样平常的串行执行模式会导致大宗盘算单位空闲，期待通讯。

其次，负载不均会引入盘算和盘算期待。

MoE算法焦点是“有能者居之”，在训练历程中会泛起部分热专家被频仍挪用，而冷专家使用率较低的情形。

同时，真实训练数据的长度纷歧，差别的模子层（如希罕层、嵌入层等）的盘算量也保存显着差别，造成差别卡之间盘算也在相互期待。

用一个形象点的说法就是，MoE训练系统就像一个保存局部交通壅闭的城区，面临两大焦点问题：

人车混行壅闭：所有车辆（盘算）与行人（通讯）在红绿灯交替通行，相互期待。车道分派僵化：牢靠划分的直行、左转车道就像静态的专家分派，导致热门车道（热专家）大排长龙，而冷门车道（冷专家）闲置。

针对以上问题，华为团队打造了“智慧化交通”设施：

首先，制作“行人地下通道”（通讯掩饰手艺），彻底疏散人车动线，使盘算不再期待通讯。

其次，安排“智能可变车道”（动态专家路由），凭证实时车流（数据漫衍）动态调解车道功效，让闲置的左转车道也能分担直行压力，实现负载平衡。

这套组合计划既解决了资源分派不均的问题，又消除了通讯壅闭的瓶颈，就像为都会交通装上了“智慧大脑”，让每个偏向的通行效率都获得最大化提升。

DeployMind仿真平台，小时级自动并行寻优

详细来说，华为首先构建了名为DeployMind的仿真平台，它是一个基于昇腾硬件训练系统的“数字孪生”平台，通过盘算/通讯/内存三维度的多层级建模、昇腾硬件系统的高精度映射、全局化算法加速运行等手艺，能在1小时内模拟百万次训练场景，实现MoE模子多样化训练负载的快速剖析和自动找到与集群硬件规格匹配的最优战略选择。

在训练实践验证中，该建？蚣芸傻执90%精度指标，实现低本钱且高效的最优并行选择。

针对Pangu Ultra MoE 718B模子，在单卡内存使用约束下，华为通过DeployMind以训练性能为目的找到了TP8/PP16/VPP2/EP32（其中TP只作用于Attention），这一最适合昇腾集群硬件规格的并行计划，综合实现盘算、通讯、内存的最佳平衡。

通讯掩饰>98%，让盘算不再期待通讯

华为还提出了一套名为Adaptive Pipe的通讯掩饰框架。在DeployMind仿真平台自动求解最优并行的基础上，接纳条理化All-to-All降低机间通讯和自顺应细粒度前反向掩饰，实现通讯险些“零袒露”。

条理化专家并行通讯

针对差别效劳器之间通讯带宽低，但机内通讯带宽高的特点，华为立异地将通讯历程拆成了两步走：

第一步，让各个机械上“位置相同”的盘算单位联手，快速地从所有机械上网络完整的数据块（Token）；

第二步，每台机械内部先对数据块举行整理，然后使用机械内部的高速通道，快速完成相互交流。

这种分层设计的巧妙之处在于，它把每个数据块最多的复制分发操作都限制在单台机械内部的高速网络上完成，而在跨机械传输时，每个数据块只需要发送一份拷贝，相比古板All-to-All通讯加速1倍。

也就是说，有用通过镌汰跨机通讯，提升了集群的通讯速率。

自顺应细粒度前反向掩饰

在DualPipe掩饰框架的基础上，华为基于虚拟流水线并行手艺，实现了更细密的调理，即Adaptive Pipe。

相比DualPipe，Adaptive Pipe仅使用一份权重，不但将流水线并行所需的内存占用减半，有用降低了盘算“空泡”，释放了流水线的峰值性能潜力；同时，该战略能够特殊实现与分层通讯的完善协同，无缝笼罩机间与机内两层通讯的掩饰。

在这种条理化通讯和细粒度盘算通讯切分调理优化下，Adaptive Pipe可实现98%以上的EP通讯掩饰，让盘算引擎不受通讯期待的约束。

战胜负载不均，训练再加速25%

由于MoE模子训练历程中自然保存的负载不均问题，集群训练效率时高时低，华为团队还提出了EDPB全局负载平衡，实现专家平衡调理。

在最优并行和通讯掩饰基础上，EDPB再取得了25.5%的吞吐提升收益。

△集群P2P通讯剖析比照

所谓EDPB，E是专家展望动态迁徙。

MoE模子训练中，装备间的专家负载不平衡犹如“跷跷板”——部分装备满载运行，另一些却处于“半休眠”状态。团队提出了基于多目的优化的专家动态迁徙手艺，让专家在漫衍式装备间“智能流动”。

该手艺主要有三个特点：

展望先行，让专家负载“看得见未来”：展望负载趋势，实现“盘算零存储开销，展望毫秒级响应”；双层优化，盘算与通讯的黄金支解点：提出节点-装备双层贪心优化架构，在让盘算资源“齐步走”的同时，给通讯链路“减负”；智能触发，给专家迁徙装上“红绿灯”：设计分层迁徙阈值机制，通过预评估迁徙收益动态决议，实现专家迁徙的智能触发。

△基于专家动态迁徙的EP间负载平衡整体框架图

D是数据重排Attention盘算平衡。

在模子预训练中普遍接纳数据拼接牢靠长度的战略，但跨数据的希罕Attention盘算量差别显著，会引入负载不平衡问题，导致DP间泛起“快等慢”的资源铺张。

为解决这一问题，华为团队提出了一种精度无损的动态数据重排计划，其焦点在于：通过线性模子量化单样本盘算耗时，在严酷坚持训练精度无损下，批次内接纳贪心算法构建最小化耗时的数据重排，实现负载平衡。

P是虚拟流水线层间负载平衡。

MoE模子通常接纳混淆结构，Dense层、MTP层、输出层所在的Stage与纯MoE层所在的Stage负载不均，会造成的Stage间期待。

华为团队提出虚拟流水线层间负载平衡手艺，将MTP层与输出层疏散，同时将MTP Layer的 Embedding盘算前移至首个Stage，有用规避Stage间期待问题，实现负载平衡。

△基于异构？樯杓频腣PP并行负载平衡

系统端到端72.6%训练吞吐提升

在Pangu Ultra MoE 718B模子的训练实践中，华为团队在8K序列上测试了Adaptive Pipe & EDPB吞吐收益情形。

实验效果显示，在最优并行战略的初始性能基础上，华为这套“通讯掩饰+动态专家迁徙”的优化计划，能实现系统端到端72.6%的训练吞吐提升。

总而言之，华为的这套打法可以说是为大模子训练优化提供了要害路径。感兴趣的小同伴可以再通过完整手艺报告深入相识——