Alter聊科技 9小时前
MoE大模型迎来“原生战友”:昇腾超节点重构AI基础设施
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

训练系统的可用性,决定着智能化的速度。无法解决资源利用率低、系统稳定性差、通信带宽瓶颈的传统 AI 集群,已经不符合大模型的创新趋势,亲和 MoE 的昇腾超节点给出了新解法。

撰文张贺飞

编辑沈菲菲

对 AI 比较关注的话,大概率会听到下面两个 " 时髦 " 的概念:

一个是 Scaling Law,通常被翻译为 " 规模定律 ",得出了一个通俗易懂的结论—— " 模型越大,性能越好。"

另一个是 MoE 架构,中文名称是混合专家模型,相对应的概念是稠密(Dense)模型。如果说稠密模型一个 " 通才 ",由一个 " 专家 " 处理多种不同的任务,MoE 则是将任务分门别类,分给多个 " 专家 " 进行解决。

Scaling Law 和 MoE 的出镜率越来越高,意味着大模型的参数量将越来越大,同时开始提升 " 能力密度 "。直接相关的就是大模型的训练和推理,正在从粗放烧钱到精细调优,从堆算力转向算力利用率最大化。

站在大模型工程化创新的十字路口,恰逢鲲鹏昇腾开发者大会 2025 前夕," 昇腾超节点 " 迅速成为技术圈的热门话题。

由此产生的一个问题是:MoE 架构大模型的训练都遇到了哪些挑战,昇腾给出了什么新解法?

01.

MoE 架构成主流,

大模型训练遇到 " 三座大山 "

Mixtral、DeepSeek R1、Llama 4、Qwen3 ……近一年现象级刷屏的大模型,清一色地采用了 MoE 架构。

原因离不开 MoE 的架构创新。

每个专家负责任务的一部分,极大地提升了模型的可扩展性;每个专家都能针对整个问题的特定方面进行微调,进一步提升了模型的专业化和准确性;每次请求只激活部分专家,显著减少了每次推理的计算负荷……

当 MoE 架构演变为大模型的主流范式,由服务器、存储、网络等设备堆叠而成的传统集群,在大模型训练上遇到了 " 三座大山 "。

一是资源利用率低。

MoE 架构对负载均衡非常敏感,路由机制如果分布不均,某些专家会频繁被调用,而其他专家几乎闲置。

传统 AI 集群部署 MoE 模型时,每台服务器只部署部分专家,缺乏全局调度能力。由于路由机制无法感知底层资源状态,可能导致部分服务器的使用率大于 90%,部分服务器几乎不参与计算。结果就是,GPU 的利用率远低于理论峰值,直接拉长了模型的训练周期,提升了能耗与成本。

二是系统稳定性差。

MoE 架构依赖动态路由 + 专家选择,对系统的持续稳定性要求远高于传统 Dense 模型,让工程的复杂度陡升。

在传统 AI 集群上训练 MoE 模型,任何一个节点的故障,都可能导致整个训练任务失败。比如某 MoE 大模型的训练过程,由于集群规模超过 1000 张加速卡,平均无故障运行时间不足 6 小时,每 24 小时需重新调度两次以上,单次训练需要数天乃至数周,运维人员长期处于高强度监控状态。

三是通信带宽瓶颈。

MoE 架构的 " 小专家 ",理论上可以节省计算资源,前提是能灵活高效地选择和调度,对通信带宽提出了极高要求。

在传统 AI 集群中,GPU 之间通过 PCle 或 InfiniBand 通信,激活路由涉及大量跨卡、跨节点访问,导致在 All-to-All 通信模式下,MoE 架构的通信压力远大于 Dense 架构,训练速度甚至比 Dense 更慢。当 GPU 资源被通信 " 拖死 ",哪怕是业界主流的高带宽 GPU,训练效率也难以线性提升。

以上还只是大模型训练时的常见痛点。

倘若推理阶段依然部署在传统 AI 集群上,在不支持高频动态路由和异构推理请求的环境下,用户请求要触发不同专家组合,再加上请求跳转至跨节点专家时时延大,有些请求的延迟高达 200ms 以上。

训练系统的可用性,决定着智能化的速度。无法解决资源利用率低、系统稳定性差、通信带宽瓶颈的传统 AI 集群,已经不符合大模型的创新趋势。

02.

更亲和 MoE 架构,

" 昇腾超节点 " 有何不同?

传统 AI 集群的本质是做加法,即通过硬件堆叠的方式提升算力,在大模型早期确实奏效,短板也很明显。

被技术圈追捧的昇腾超节点,可以看作是算力集群走向 " 乘法 " 式增长的标志,不仅仅是计算,进一步结合了存储、通信等能力,计算性能倍增的同时,实现了时延、吞吐、负载均衡等能力的整体跃迁。

用一句话总结的话,昇腾超节点实现了让 384 张卡像一台计算机一样工作,更亲和 MoE 架构。

根源是昇腾的四个针对性创新。

第一个是自研高速互联协议,能够将成百上千个 NPU 以 TB 级带宽超高速互联,大幅提升了并行计算的通信效率。

相较于传统集群,实现超低延迟、高带宽通信的昇腾超节点,大模型训练的 All-to-All 通信性能可提升 5 倍,send/recv 集合通信性能可提升 7 倍,进而大幅降低了整体通信占比,让计算少等待、不等待。打破了通信上存在的瓶颈,整体训练效率提升了 3 倍、推理吞吐提升了 6 倍。

第二个是软硬件协同调度,通过异构计算平台 CANN 的协同,支持专家调度感知训练负载与 NPU 负载实时状态。

针对 MoE 模型训练中专家热点分布造成部分计算节点过载的问题,昇腾 " 超节点架构 " 能够依据 MoE 结构中专家分布以及每层的计算需求,精细地将个模型切分至不同节点,更合理分配资源,提高整体资源利用率,同时可运行多种并行策略并动态调整,针对实时的负载情况精准分配计算资源。

第三个是全局内存统一编址,所有的节点共享一套全局内存体系,数据无需频繁搬移,以此来提高训练的效率。

DeepSeek R1 已经有 288 个专家,不排除大模型专家数量越来越多的可能。支持全局内存统一编址的昇腾超节点,具备更高效的内存语义通信能力,通过更低时延指令级内存语义通信,可满足大模型训练 / 推理中的小包通信需求,提升专家网络小包数据传输及离散随机访存通信效率。

第四个是系统稳定性的提升,保证训练不中断、推理更可靠,大幅降低了 MoE 大模型的部署和运维门槛。

比如 MoE 训练过程一旦某专家节点异常,可能导致全局失败的问题。昇腾超节点采用了 7 平面的链路设计、链路故障秒级切换、算子级重传等可靠性能力,确保大模型训练不中断,平均无故障运行时长从几小时提升到几天。同时支持更敏捷的断点续训,故障恢复时长从小时级降低至 15 分钟。

可以佐证的是,基于超节点设计的 AI 集群 Atlas 900 A3 SuperCluster,在测试中突破了 Scale Up 物理节点计算瓶颈,平均无故障运行时长达到数天,训练效率提升了 2.7 倍;由于所有专家集中部署在一个超节点,在推理过程中实现了 15ms 超低延迟和高吞吐能力,对推荐系统、搜索排序、智能客服等对延迟极敏感的应用场景更加友好。

03.

算力创新蝶变:

从 " 硬件堆叠 " 到 " 系统级协同 "

除了性能上的提升,MoE 架构创新的另一个深远影响,在于降低了推理阶段的综合成本。

过去,大模型的强大性能往往伴随着极高的算力消耗,导致部署门槛极高。MoE 通过 " 按需激活 " 的专家机制,在保证精度的同时大幅节省了计算资源,为企业级、行业级 AI 应用的落地打通了路径。

昇腾在算力底层架构上的实干式创新,向外界揭示了一个新的趋势:当大模型走出实验室,走向生产一线,走向规模化应用,为 AI 提供源动力的基础设施,不再是 " 硬件堆叠 ",而是计算、存储、网络的 " 系统级协同 "。

不单单是亲和 MoE 模型,搬走了大模型训练的 " 三座大山 ",还预示着 AI 基础设施的 " 工程可控性 " 和 " 业务适配性 ",更好地支持大模型在工业、能源、交通、金融等领域的规模化部署。

如果你也对昇腾超节点感兴趣,想要了解更多技术细节和创新方案,推荐关注 5 月 19 日的鲲鹏昇腾创享周直播活动,技术直播的第一场就将深度讲解基于昇腾的超节点架构,如何助力 MoE 模型的训练和推理,带来 15ms 超低时延和高吞吐量。

主理人 | 张贺飞(Alter)

前媒体人、公关,现专职科技自媒体

钛媒体、36kr、创业邦、福布斯中国等专栏作者

转载、商务、开白以及读者交流,请联系个人微信「imhefei」

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 开发者大会 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论