再见,恩维迪亚!华为NPU已运行了准亿万参数模
栏目:成功案例 发布时间:2025-05-09 09:49
Aofeisi量子位的Jin Lei |今天的Qbitai官方帐户,具有万亿美元参数的大型模型可以与Nvidia完全匹配,以说再见。正是华为实现了这一举动!技术报告:arxiv.org/abs/2505.04519您应该知道,在此之前,在培训万亿美元的参数模型中,有许多“绊脚石”。例如,很难加载平衡,大型沟通,低训练效率等。通过成功系统的许多技术来提高性能。这些创新大大提高了培训效率,并支持行业顶级模型的发展!应该说,大型硬件模型中“国内”一词的价值仍在上升。纯净的国内NPU,淫秽运行的准亿万参数大型模型。在拆卸Shuawei的“黑色技术”眼睛之前,我们需要对训练大型MOE模型的困难有更深入的了解。总体而言,t这是守卫这条路的“四个大国王”。首先是优化体系结构参数的问题。有必要探索许多参数组合中的最佳配置,设计适合NPU ASTENG的大型MOE体系结构,并充分利用计算资源。第二个是动态启动的挑战。路由机制需要明智的任务分配,以防止提供不均匀的专家资源。这种不平衡不仅会降低由于“枪管撞击”而导致的训练效率,而且还会导致PAG启动模型异常,并影响最终性能。扩展全文 还有一系列共同的交流。凭借近万亿美元的参数量表,不同计算节点之间令牌之间的专家转移将导致巨大的通信开销,而“通信墙”问题已成为限制培训效率的主要因素。 FinaLly,这是硬件改编的复杂性,并意识到MOE算法与特殊AI加速器(例如Ascend NPU)之间的深入合作关系,有必要打开算法设计,软件框架和硬件属性的全堆栈优化,以完全释放硬件计算潜力。 为了应对这些问题,华为的技术报告介绍了如何从模型体系结构,MoE培训评论,系统优化等方面处理问题。 首先是选择MOE结构并爬到积累结构。 该团队与飞行员进行了实验,并确定了诸如精致专家和共享专家之类的范式。后来,选择模型时,考虑了许多因素。 在计算和访问方面,通过将隐藏的大小(隐藏的层大小)增加到模型并减少激活参数,这不仅增加了模型计算的量,还增加了降低访问值,以提高模型训练和吞吐量期间计算强度使用速率。 就多维并行相关性而言,采用了2个指数数的指数数量,以实现TP8×EP4超融合并行化方法。 借助TP-Expinan避免使用TERD-EP技术,由于TP破坏了专业专家,并使用Alltoall alltoall通信技术来减少EP Communication所获得的高间接费用。 就Davinci的会员体系结构而言,根据256对齐,因此它完全对应于16×16矩阵计算单元,该计算单元完全释放了NPU Asteng的计算能力。 在管道编排亲和力方面CE闲置计算源(真空)。 在模型结构的模拟方面,团队非常适合基于硬件适应属性选择模型参数的范围,将原始的大参数搜索空间降低到约10,000。 为了更好地了解不同模型的性能局限性,团队开发了一组特殊的建模和仿真工具。该工具非常强大。它将模型结构,运行时间期间采用的技术和硬件系统分为小参数。 通过限制计算,数据传输和读取操作,例如操作员,块和层,可以计算模型的整体性能。将其与实际测试数据进行了比较后,发现该模拟工具的准确性可能超过85%。 该团队使用了该工具,该工具是建模和仿真来测试满足硬件适应要求的所有参数,仔细评估了他们在培训和理解过程中的数据处理速度,并最终发现了一个模型结构,其性能更好。有关详细信息,请参阅下图。 接下来,让我们看一下MUE培训评论。 与普通密集模型相比,MOE模型练习时,存在一个特殊的头痛问题,这是不平衡的。 例如,这就像一群工作的人,有些人很忙,而另一些人则无助和无助,因此效率肯定不会很高。 为了解决这个问题,科学研究界从算法的角度考虑了许多解决方案,并提出了辅助损失的不同功能,重点是平衡范围。 例如,在早期,对于秩序的水平,平衡平衡的平衡平衡平衡,并且有一个DP组(即全球批次的大小)的平衡平衡损失损失。 辅助功能功能就像Setting路由模块的规则(负责将任务分配给MOE模型的部分),并且通过不同级别的障碍,它可以更均匀地提供任务。特定的障碍之后是下表。 △BSZ余额表示用于计算专家选择频率的令牌数量 该团队还开发了一种新的EP组负载平衡损失算法。 与传统的微批量助手丧失相比,它并没有超出分配本地工作的全部平衡,避免了“过度纠正”;与DP组平衡的损失相比,数据传递。时间消耗较少的资源,可以节省许多通信成本。 此外,就专家活动数量的障碍而言,它之间是一个更妥协的解决方案。 为了验证这种新算法的影响,该团队通过MoE Pilot模型进行了消融实验,该模型的总参数为200亿(20B)。特定的情况n如下: 为了应对不均匀负荷对专家的“桶撞击”,MoE可以使用滴纸板通过培训来改善训练。 Inihambing Muna ng Koponan Ang Pagganap Ng在Walang Drop sa Isang 20b Pilot Moe上掉落:结果表明,无滴总是比滴剂和pad方案更好。 随着专家数量的增加和模型参数的增加,该性能差距将进一步加强。 因此,在Pangu Ultra MoE进行培训时,采用了无滴方案,并且在这种方法下的培训效率将集中在优化上。 具体而言,该团队正在全面地从四个主要方向上进行Pangu Ultra MoE模型,包括并行改进折衷的技术,以优化数据传输效率,提高使用视频记忆的效果以及进行任务分配更多。 在由6,000多个NPU组成的大型计算集群中,模型的计算速率(MFU,尤其是拖船模型的使用)高达30.0%,与先前的优化相比,增加速率的高度为58.7%。 该团队使用了模拟系统模型,该模型可以模仿整个过程,并反复尝试并找到了最佳的计算解决方案。 最终解决方案是:16通道管道并行性,8通道张量并行性,4通道专家并行性,2渠道虚拟管道并行性和48通道数据并行性。 在专门的并行性中,该团队使用TP扩大了EP策略。 简而言之,将TP组划分以划分专家的数量。在处理小型专家数据时,这将避免GMM效率的问题,因为TP团队会划分专家参数。 在整个系统中,专业组的总数为32(由TP和EP组合计算,总共256名专家分为256名专家。 VirtualPipeline并行方法具有特别重大的效果。上一条闲置的计算资源(真空利率)成本为18.98%。使用新方法后,它直接下降至10.49%。 同时,通过MTP层的合理分配和损失的损失,由工作不平衡奉献所引起的负载的负载在5%之内得到控制,从而大大降低了工作不平衡的负面影响。 为了满足并行扩展的通信瓶颈,该团队还设计了两种关键技术。 第一个是分层EP通信分层EP通信。 与机器内通信相比,跨机器带宽的通信较低。该团队采用了层次EP沟通,以减少跨机流量。 具体来说,跨机器Allgang他的通信同步了机器上的所有令牌,然后使用机器内通信讨论机器令牌并重新组装令牌。 机内通信和机间通信离子可以被前反向通信掩蔽技术掩盖。从将流量的数量比较下面的图,我们将看到分层EP通信对跨机器通信的减少的影响。 第二个是反向掩蔽方法前面的自适应管重叠机制。 尽管采用了EP通信的层次结构方法,但EP通信的每小时比例仍然很高。 EP前面的大多数通信都具有计算依赖性,并且自然掩蔽方法将暴露于EP的大多数通信。 如果采用了Pagmamarka自我作为一般融合融合操作员的方法,那么计算效率是不可避免的。 因此,该团队采用了基于VPP计划的自适应前向反向掩蔽方法,以实现以下过程中掩盖反向通信的远期计算,并逆转掩盖前向通信的计算。 基本设计包括:使用机器间和机内链路的独立带宽特性,以实现机器内通信之间的相同掩盖,使用有效的维修操作员减轻宿主的结合,并分离专门的反向计算和DX计算,以使更精致的谷物掩盖。 优化视频记忆时,团队采用了一种新的计算方式。 在使用传统的整个重量计算中,重新粒度的模块(例如MLA)重新计算了同意和激活功能,从而阻止了进一步的计算消耗。 同时,使用张量替换技术,应首先将激活成本降低到CPU,然后在需要反向计算时提前进行,以便可以更好地使用NPU内存。 该团队还正在研究新的视频记忆方法和准备工作,以结合多种技术技术以找到最合适的com基于各种设备调整的bination,这不仅可以改善视频记忆的使用,而不会在模型的沮丧模型性能的情况下进行。 执行专家在每个设备上持有的任务数量(代币数)是可能的,这可以提高训练效率。 直到今天,团队设计了一个动态设备平衡机制。 首先,计划者就像一个“小管家”。通过在一段时间内观察专家的工作量,可以预测未来的活动数量,然后使用贪婪的算法来计划如何重新分配专家,以使设备之间的任务更加平衡。 然后,执行器定期工作以移动设备之间不同变压器层的专用参数和优化器状态。通过这种动态调整,模型的MFU提高了10%。 除上述外,团队还开发了一些专门适用于攀爬设备的技术,包括对宿主端的选择,计算卸载和数据SHAring和Fusion操作员。 运营商发行优化:为了解决宿主端性能的瓶颈瓶颈问题,该团队减少了需要频繁的重合操作以防止不必要的等待的操作员。同时,使用CPU结合核心技术使CPU,NPU和NPU合作更好。 计算卸载和数据共享:当数据计算对NPU处理无效或TP区域的数据传输无效时,来自基本计算过程中不适合NPU的计算速度很慢,并且在上载数据时将提供给CPU进行处理。结合数据共享技术,在同一节点内计算交付速度和数据已得到很大改进。 融合操作员:除了Pangu密集模型中现有的Flashhattention和RMSNORM融合操作员外,该团队还将GMMADD,允许和COMPERMUTE FUSIOTUTE FUSION OTARES添加到MOE模型中。 gmmadd融合操作员位置他逆转计算和组合的梯度积累,并使用管道的平行和技术来减少调度时间。允许和解开融合操作员包括多个操作,以更快地读取和写入内存。 运营商发行优化:为了解决宿主端性能的瓶颈瓶颈问题,该团队减少了需要频繁的重合操作以防止不必要的等待的操作员。同时,绑定CPU核心的技术用于使CPU和NPU更好,并且问题是工作的更好。 计算卸载和数据共享:当数据计算对NPU处理无效或TP区域的数据传输无效时,来自基本计算过程中不适合NPU的计算速度很慢,并且在上载数据时将提供给CPU进行处理。结合数据共享技术,同一节点内的计算和数据传输速度已成为GREAtly改进。 融合操作员:除了Pangu密集模型中现有的Flashhattention和RMSNORM融合操作员外,该团队还将GMMADD,允许和COMPERMUTE FUSIOTUTE FUSION OTARES添加到MOE模型中。 GMMADD融合操作员放置了组合的反向计算和梯度积累,并使用管道的并行技术来减少调度时间。允许和解开融合操作员Isama有许多操作可以更快地读取和写内存。 结果实验 在培训数据集的构建过程中,团队实施了严格的数据质量控制,并强调了语料库的差异,复杂性和完整性。 引入了特殊标记符号,以供长链思考样本构建推理轨迹和最终答案。 在训练后阶段采用了组织适当指导的方法,数据涵盖了广泛的领域,包括一般问题D答案,文本生成,语义分类,代码编程,数学推理推理和工具使用等。 特别是,非征收采样的推理之比。 实验表明,Ultra Moe的对话版本显示了许多领域的剩余竞争,并且与DeepSeek-R1的表现与大多数基准相当。例如,一般理解活动(例如ClueWSC 94.8点,MMLU 91.5分)显示出很好的理解,在高难度测试中表现良好,例如数学推理和代码生成(例如AIME2024 81.3点,MBPP+ 81.2点),并且还有剩余的代码技能和数学。 该团队还对Pangu Ultra Moe进行了专家和专业评论。 在各种任务中,同一网络层中的令牌将首先提高到不同的专家,并且专家级别的工作存在显着差异。 它证实了pangu ultra Moe是由专家的重大对比度更新而形成的Y提高了模型能力的表达,但也为其出色的性能提供了基本支持。 Pangu Ultra Moe的Moe层的输出由共享专家和常规专家贡献的总重量组成。 因此,重要的是要在两者的输出之间保持平衡。 下图表明,常规专家保持了与所有网络层的共享专家相媲美的贡献强度。这种平衡的协同作用有效地提高了模型表示的整体能力。 该团队还审查了专家的共同激活现象。激活评分越高,两个专家之间的关系越强。 在下图中,除了一些例外,TAT专家层之间没有明确的共同激活,这反映了Pangu Ultra Moe的低专家。 以上是华为的国内NPU国内NPU背后的奥秘,该国内NPU运行了数万亿美元的参数模型。 哇WEI的慢速 - 国内计算能力平台的股份不仅进入了AI大型模型培训领域的世界领先等级,而且还显示了中国在独立的现代技术方面的强大力量。 这证明了中国公司有能力从并排跟随跑步,甚至导致全球AI竞争。回到Sohu看看更多
服务热线
400-123-4567