雷锋网 2025-12-30
昇思MindSpore实现超节点的「类单机开发体验」的三项关键能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当大模型进入十万亿参数、长序列、稀疏化和非规则结构并行发展的阶段,AI 算力基础设施正在发生一次根本性变化:从传统服务器集群,演进为以高速互联为核心的超节点架构

2025 年 12 月 25 日,昇思人工智能框架峰会在杭州召开。大会以 " 昇思 MindSpore 为超节点而生的 AI 框架 " 为主题,来自产业界、学术界和开源社区的多位嘉宾,从不同角度给出了一个共同判断:AI 基础设施已经进入超节点时代,而 AI 框架正站在范式切换的临界点上。

超节点不再只是多台服务器的简单堆叠,而是通过高速互联,在逻辑层面 " 像一台机器一样学习、思考和推理 ",具备资源池化、对等架构与网络拓扑分层多样的特征。

昇思 MindSpore 开源社区技术委员会主席金雪锋在演讲中指出,大模型的演进正在同时带来三重挑战:

  一是模型规模持续增长,片上内存压力急剧上升;

  二是模型结构从单一语言模型走向全模态,子模型组合更加复杂、不规则;

  三是训推范式趋于异构,训练、推理与 Agent 运行需要协同编排。

金雪锋说,正是这些变化,推动 AI 基础设施从 " 服务器集群时代 " 迈入 " 超节点时代 ",AI 框架将迎来新的架构范式。

昇思 MindSpore 给出的答案是,把超节点当作一台 " 超级计算机 ",在框架层面统一编程和调度,而不是让开发者直接面对复杂的集群拓扑和并行细节。

这一判断,也成为昇思 MindSpore 提出 " 为超节点而生 " 的核心逻辑起点。

HyperParallel 架构:把复杂并行留给框架

" 很多人听过超节点,但并不真正理解超节点。"

在峰会之后的媒体沟通会上,现任昇思 MindSpore 开源社区理事长王紫东强调这一点。

在他的解释中,超节点并不是简单地把更多 NPU 卡堆在一起,而是通过超高带宽互联,让大量计算单元在逻辑层面形成一个高度耦合的整体。卡与卡之间不再是 " 慢速通信的邻居 ",而是随时可调度的数据通路。

这一变化,直接服务于一个现实需求:模型太大了,大到必须极致并行。

当模型被切分到数百、数千张卡上时,真正的瓶颈已经不再是算力本身,而是:

•   数据什么时候该在哪一张卡上

•   状态何时迁移

•   通信与计算如何重叠

•   并行策略如何随模型结构变化而调整

" 硬件的性能上限提高了,但如果软件跟不上,性能是用不出来的。" 王紫东直言,超节点越强,对 AI 框架的要求反而越高。

昇思 MindSpore 提出了一个清晰而激进的定位——

把复杂留给自己,把简单留给开发者。

在传统集群时代,开发者往往需要手动理解并行策略、通信模式和硬件拓扑,而在超节点时代,这种模式已经不可持续。集群拓扑越来越复杂,节点规模越来越大,如果复杂性继续外溢到开发层,开发效率和稳定性将迅速崩塌。

MindSpore 的选择,是让 AI 框架本身承担更多系统级责任,其目标,是让开发者在超节点复杂算力环境中仍能保持 " 类单机 " 的开发体验,而 HyperParallel 架构正是实现这一目标的关键。

金雪锋在峰会上系统拆解了 HyperParallel 的三项关键能力。

首先是 HyperOffload。

随着模型规模持续扩大,片上内存容量成为制约训练和推理的重要瓶颈。HyperOffload 通过实现计算与状态分离,利用超节点的池化存储能力,将模型状态卸载到远端内存中,从而释放片上资源。在实际应用中,MindSpore 给出的数据是:训练性能提升 20% 以上,推理支持的序列长度提升 70% 以上,这不是简单的 " 搬数据 ",而是对计算时序的精确调度。

其次是 HyperMPMD

SPMD 曾经是 AI 并行的黄金标准,但在多模态、强化学习、Agent 等场景下,它开始显得僵硬。HyperMPMD 推动并行从 " 所有节点做同一件事 ",走向 " 不同节点做不同任务 ",这种 MPMD 模式,充分利用了超节点对等互联的优势,让通算并发成为常态,在相关场景中,算力利用率可提升 15% 以上。

第三是 HyperShard

在传统命令式并行编程中,算法、并行策略与集群架构高度耦合,新模型一旦出现,往往需要对并行方案进行大规模重构。HyperShard 引入声明式并行编程方式,将算法与并行策略解耦,同时屏蔽底层超节点网络拓扑的复杂性。金雪锋表示,在这一模式下,新算法的并行化改造时间可以压缩到 1 天以内,并行策略调优从 " 天级 " 缩短至 " 小时级 "。

从 HyperOffload 到 HyperMPMD,再到 HyperShard,昇思 MindSpore 的目标并非单点性能提升,而是让超节点的复杂性由框架消化,而不是由开发者承担。

五年开源积累:超节点能力为何离不开社区

MindSpore 为什么 " 突然变好用了 "?

现任昇思 MindSpore 开源社区理事长王紫东并没有从性能参数或功能列表切入,而是给出了一个并不 " 市场化 " 的判断标准——社区 Issue 的自闭环率。

在他看来,一个健康的 AI 框架社区,并不是依赖官方不断 " 救火 ",而是开发者之间能够围绕问题展开讨论,自主定位原因、提交修复,并通过 PR 形成持续正反馈。" 问题能不能在社区内部被解决,往往比解决得有多快更重要。" 王紫东说。

也正是在这一意义上,他将 MindSpore 五年来最重要的成果,归结为两个字:社区。

华为于 2020 年 3 月 28 日正式开源昇思 MindSpore。五年来,这一社区逐步形成规模效应:覆盖全球 156 个国家和地区,累计下载量超过 1300 万次,代码合入量超过 12 万次,核心贡献开发者超过 5.2 万人,并联合 2000 多家社区伙伴,孵化出 3100 多个行业应用。

这些数字本身并不新鲜,但它们背后所指向的,是一条已经被反复验证的路径——自主 AI 框架并非封闭体系,而可以通过开放协作,形成持续演进的技术能力。

时任昇思 MindSpore 开源社区理事长丁诚在峰会上表示,昇思始终坚持开放治理,践行 " 共建、共治、共享 " 的社区理念。一方面持续推进框架技术演进,另一方面也通过课程、竞赛和工程实践,支持 AI 人才从入门到深度参与开源生态,逐步成长为产业中的中坚力量。

当这种社区能力与超节点架构结合时,其价值开始在真实工程场景中显现。

中国工程院院士、中国商飞首席科学家吴光辉在演讲中介绍,中国商飞上海飞机设计研究院基于昇思 MindSpore 框架,推出了民机超临界翼型气动设计智能体 " 御风 · 智翼 ",构建了基于工程经验的超临界翼型智能一站式解决方案。

吴光辉指出,大飞机是 " 工业皇冠上的明珠 ",而飞机气动设计直接决定民用飞机的关键性能,通过将 AI 框架与工程经验深度结合,相关设计研发正在向更加智能化、一体化的方向演进。这一实践,也成为昇思 MindSpore 在复杂工程领域落地的一个缩影。

从服务器集群到超节点,从单一模型训练到多任务并行运行,AI 算力形态正在发生根本性变化。在这条变化曲线上,AI 框架的角色也随之转变——它不再只是 " 让模型跑起来 " 的工具,而正在演变为连接算力、模型与应用的组织者。

昇思 MindSpore 给出的选择,是将超节点带来的复杂性尽可能收敛到框架内部,让开发者不必直接面对集群拓扑与并行细节,也不必在模型结构变化时反复推倒重来。

这种选择并不轻松。它意味着更重的系统工程投入、更长周期的技术积累,也意味着必须依托一个真实活跃的开源社区,在实践中不断校正方向。

但在超节点逐渐成为主流算力形态、Agent 与多任务运行走向常态的背景下,AI 框架是否具备 " 消化复杂性 " 的能力,正在成为新的分水岭。

或许正是在这个意义上,昇思 MindSpore 围绕超节点与开源展开的探索,并不是一次孤立的技术发布,而是一种关于 AI 框架如何参与下一轮算力演进的现实回答。

雷峰网(雷峰网)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 基础设施 开源 超级计算机 人工智能
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论