如何迎接大型超节点建设时代?
文|赵艳秋 周享玥
编|牛慧
偌大的会场座无虚席,连过道上的转播屏前都站满了人。屏幕上闪动着算力曲线与架构图……在人潮如织的 2025 开放计算技术大会上,从中国移动到阿里云,从字节跳动到 OCP 组织,发言者口中都不约而同跳出同一个热词——超节点。
这个被视为下一代智算中心核心的 Scale-Up 架构,正在迎来建设年。大模型与多智能体协作,将算力需求逼到单芯片的物理极限:业界正在把几十甚至上百颗芯片,通过高速互联 " 缝 " 成一台超大号的 " 电脑 ",在物理极限与工程可行性之间找到平衡。
浪潮信息在此次大会上带来了面向万亿参数大模型的 " 元脑 SD200",这是一款可商用、可快速落地、价位普惠的产品,支持 64 路本土 GPU 芯片,并宣布开放架构来拉动产业链。浪潮信息副总经理赵帅说,超节点的竞争核心不止于硬件,更关乎软硬协同、生态与开放,而这正是浪潮信息十余年沉淀的结果。
建设热来袭,企业需要怎样的超节点
" 我们很快就要进入大型超节点建设时代。" 中国移动研究院副院长段晓东在 2025 年开放计算技术大会上说。超节点建设热来袭,国内外厂商 " 百花齐放 "。
所谓 " 超节点 ",虽然业界尚未形成严格统一的定义,但达成的共识是,它是一种极致的 Scale-Up 架构,把几十、上百颗加速芯片,通过内部高速互联整合成一个逻辑统一的计算单元——既像一台超大号的 " 单机 ",又可以作为数据中心的核心模块存在。
为什么业界会选择 Scale-Up 路线?这背后,正是大模型的发展将其推向台前。
在这一背景下,资本与基础设施建设热潮加剧。麦肯锡预计未来 5 年全球 AI 数据中心总投资将达到 5.2 万亿美元,到 2030 年 AI 数据中心的算力容量将达到 2025 年的 3.5 倍。
而在技术层面,这股浪潮已把单芯片推到了极限,就像 " 用一张桌子承载整栋楼的重量 ",单芯片的显存与带宽都已无法支撑万亿参数大模型,必须用多颗芯片协同计算;大模型推理对延迟又非常敏感,多卡互联长链路带来高延迟,成为性能瓶颈。
这使得 Scale-Up 架构成为业界亟需攻克的关键方向。Scale Up 在内部以高速总线连接多个芯片,实现并行计算和数据同步,用极简网络架构,把芯片尽可能 " 挤 " 在高速通信的极限范围内,构建统一寻址的 Scale-Up 域。赵帅称,这是物理极限与工程现实的双重选择。
然而,这并不意味着算力架构会单向朝着 Scale Up 路线演进。赵帅总结," 未来 3 到 5 年,Scale Up 和 Scale Out 会同步推进,Scale Up 域会越做越大,Scale Out 的规模也会持续增长。这是大家的一个必然选择。"
在这样的趋势下,企业对超节点的期待也变得务实而具体:它需要能尽快投入业务。
浪潮信息的调研显示,许多客户的难点在于部署,一些方案对基础设施要求过高,需要液冷、高压供电和复杂的互联配置,与客户已有的成熟基础设施难以兼容,落地难度很大。此外,互联网及运营商等超节点客户还面临一个突出问题,光模块故障率甚至超过了 GPU,不仅增加维护成本,还直接威胁业务稳定性。
在选择超节点时,企业还要同时权衡多方面因素:性能要可以支撑万亿参数级大模型和多智能体应用;成本要顾及全生命周期,涵盖 Capex(资本支出)和 Opex(运营支出);系统还必须稳定可靠,经得起高强度推理和训练的考验。
针对这些现实需求,浪潮信息推出的 " 元脑 SD200" 超节点,特意采用了相对成熟稳定的底层技术,如电互联和风冷,以此换取最快部署速度。它可直接落地客户现有机房,客户不必改造基础设施。
在性能方面,SD200 选择 64 路本土 GPU 芯片,可运行 1.2 万亿参数的 Kimi K2,并支持 DeepSeek、Qwen、Kimi、GLM 等多模型并行,以及多智能体实时协作与按需调用,且各任务不会出现互相资源争抢。
值得注意的是,超节点复杂度很高,传统系统管理软件 " 不够用 " 了,这要求超节点供应商在硬件创新之外,还必须在系统管理、监控、诊断、profiling 等软件方面深耕,实现系统级优化。
还有一个关键考量是应用迁移的难易程度。很多客户在使用本土芯片时,常面临软件生态适配难题,底层通信库要重构、架构要重新适配,导致迁移成本居高不下。对此,元脑 SD200 全面支持业界主流开源大模型计算框架,如 PyTorch 算子支持 2200+,新模型可实现无缝迁移与 Day0 上线。客户反馈,这对他们来说极具价值。
那么," 元脑 SD200" 究竟带来了哪些核心创新?
在系统架构上,它采用了多主机三维网格(3D Mesh)设计,将 64 路本土 GPU 芯片高速互连,把原本局限在单机 8 卡的互联能力扩展到跨主机域。配合远端 GPU 虚拟映射技术,突破了多主机统一编址的难题,使显存地址空间扩展到 8 倍,单机可提供高达 4TB 显存与 64TB 内存,为万亿参数、超长序列的大模型运行预留了充足的 KV Cache 空间。
在延迟控制上,元脑 SD200 针对推理任务 " 小数据包、延迟敏感 " 的特性,选择了物理延迟最低的互联协议,并配合自研 Smart Fabric Manager 系统,在软硬件协同下将延迟进一步压缩至百纳秒级。
它还在 PD 分离框架上走出了更开放的一步。为了让计算逻辑与物理资源解耦,实现更灵活的算力调度,业界都在开发 PD 分离框架,以最大化芯片算力利用率。但目前来看,PD 分离仍是定制化方案。浪潮信息投入大量研发资源,开发了开放式 PD 分离框架,使计算与通信架构深度协同,在客户的 PoC 测试中显著提升了性能。
目前,元脑 SD200 已投入商用,服务于大模型部署、行业应用以及 AI for Science 等多个领域。新用户群体持续扩大,有些甚至是此前未预料到的。赵帅说:" 以应用为导向,以系统为核心,在技术、生态、成本与性能之间找到最优平衡,才是真正的价值所在。"
开放和开源也是贯穿始终的理念,元脑 SD200 的加速芯片基于 OAM 架构,相关 PD 分离框架也将对外开放,推动更多产业合作,让更大的模型、更复杂的智能体,不再是少数企业的专属能力。
" 我们不是一家纯硬件公司 "
浪潮信息能快速推出面向万亿参数大模型的商用超节点,并非临时突进,而是公司多年软硬协同的结果。
" 超节点的技术突破源于 K1 和融合架构的传承。" 赵帅告诉数智前线。
2013 年,浪潮信息完成了 K1 研发,当时团队面临的核心技术挑战之一是高速缓存一致性、性能线性扩展难题。CPU 单一系统原生只能扩展 8 路,团队基于自研 Node Controller,实现 32 路、64 路扩展,满足缓存一致性的算力单元(CPU)纵向扩展,系统全局高速缓存一致性,让它们像 " 一个大脑 " 一样运行。
同时,为解决线性扩展难题,团队优化互连网络和内存层次结构,优化处理器本地访存、跨处理器访存和跨节点访存延迟,使系统规模从 8 路扩展到 64 路时保持性能线性增长。这为超节点的多主机统一编址、超线性扩展奠定了技术基础。
2014 年,团队提出 " 融合架构 " 概念,尝试将计算、内存、I/O、存储等服务器资源解耦、池化、重构,变成可灵活调度的 " 资源池 ",通过软件定义实现按需调配与弹性扩展。
在融合架构的研发过程中,浪潮信息实现多项技术突破。从最初供电、散热等非 IT 资源的整合,到存储、网络等资源池化,再到最新融合架构 3.0 系统实现了计算、存储、内存、异构加速等核心 IT 资源彻底解耦和池化,基于计算域总线建立池化资源 fabric 网络,解决 I/O 总线跨域通信以及 I/O 资源动态分配问题,实现单系统 32 GPU 卡扩展及 8 主机共享 GPU 资源池,支持在线动态分配;实现 GPU 跨域 P2P 通信,支持 GPU 资源池跨域扩展。
2023 年,融合架构 3.0 发布
在管理方面,完成资源池化管理引擎 fabric manager 设计,池化管理引擎以 fabric 网络为核心,建立全局地址路由,通过协同管理自动发现拓扑、设置最优路由方案,实现池化资源的高效通信。
这些为超节点的研发积累了深厚的技术基础。同时,整体供应链逐步被 " 拉起来 ",也为此次新架构快速落地,提供了有力支撑。
值得注意的是,超节点并不是简单的硬件堆砌,要让它跑出几倍甚至超线性的能力,必须 " 以系统为核心 "。浪潮信息也不是一家 " 靠硬件吃饭 " 的公司。" 我们一直是一家软硬协同的企业。" 赵帅强调,多年在系统上的积累,才使得这次能迅速推出如 PD 分离框架、Fabric Manager 等关键组件,加速超节点的落地和实用。
软硬协同一直是浪潮信息的技术特色。2015 年,贾扬清在伯克利研发的深度学习框架 Caffe 问世时,整个行业的软硬件环境还极不成熟,部署一台服务器就需要一整天。浪潮信息研发推出了 Caffe-MPI,实现了深度学习计算框架 Caffe 能 " 跑 " 在多台机器上。同期,英特尔等多个团队都在解决类似问题。
深度学习推动语音、图像识别等技术从实验室走向商用,人工智能迈入以 " 小模型 " 为标志的 AI 1.0 时代,浪潮信息深度参与了这波演进。
2015 年,浪潮信息帮助国内一家头部 AI 企业,将语音识别算法迁移至 GPU 平台,加速业务落地。同期,新兴计算机视觉公司布局大规模 GPU 算力中心,资源管理和调度难题逐渐暴露。" 我们决定在 Infra 上再下探一层,启动集群管理和调度平台 AIStation 的开发。" 浪潮信息 AI 架构师 OWEN ZHU 博士说。
2019 年,AIStation 正式发布,将客户的 AI 算力管理从 " 人拉肩扛 " 升级为智能调度。那几年,浪潮信息与头部计算机视觉企业紧密合作,持续打磨该平台,最终覆盖金融、政府、互联网等 400 多家客户,成为软硬一体解决方案的一大支点。
2024 年,AIStation V5 发布
解决方案的核心是 " 懂客户 ",这让浪潮信息对各行业需求的渗透不断加深。" 与客户协同,最好的方法就是自己有算法团队。" 浪潮信息 AI 架构师 OWEN ZHU 博士说。
进入大模型时代,这种软硬协同能力也释放出更大势能。
当谷歌发布 Transformer 模型 BERT、OpenAI 推出 GPT3 后,国内领先科技企业紧随其后,开始布局大模型。这些模型的规模比视觉模型大一个或几个数量级,浪潮信息团队也随之摸索大模型的机理,攻坚更大规模算力的 Infra 系统。
2021 年,浪潮信息推出 " 源 1.0" 大模型,成功验证了 GPT3 级别的 Infra。" 源 1.0" 参数量达 2457 亿,需占用数 TB 的 GPU 显存,部署在 2000 多张 GPU 组成的千卡集群上,团队在算法、分布式计算、大规模集群层面完成了协同设计和优化。
彼时国内千卡集群尚属罕见,团队编写了千亿参数大模型 Infra 白皮书。而当时互联网上几乎也没有清洗好的数据集,浪潮信息开源了自己清洗的数据集,为日后国内近一半大模型企业提供了关键资源。这些实践成为后续服务客户的技术底座。
同年,浪潮信息在全球权威的 MLPerf ™评测中,拿下 44 项冠军成绩,位列榜首。这项由全球巨头共建的测试体系,评估的是 AI Infra 在真实任务下的性能表现,这些任务包括图像识别、自然语言理解、智能推荐等热门应用。在硬件趋同的情况下,胜负取决于算法理解深度与系统调优能力。这些成绩也正是团队服务客户中解决实际问题、积累实战经验的结果。
2023 年,ChatGPT 引爆大模型竞赛,浪潮信息迎来大模型 Infra 需求潮。让 OWEN ZHU 印象深刻的是,客户决策果断。一家互联网招聘企业老板拍板入局大模型,但也给企业团队带来挑战,算力集群从数十卡一下跳跃到千卡。如何构建、管理和运营这样的集群?他们找到浪潮信息。在与客户密切互动中,浪潮信息不断刷新 "Infra 平台指南 ",为业界企业构建、部署和管理大规模 AI 集群提供一线支持。
浪潮信息一边为客户提供 AI Infra 系统,一边重新训练 " 源 2.0"。当年年底," 源 2.0" 发布,变成了一个 " 文理兼修 " 的大模型,并全面开源,逐步应用于智能客服、投标助手、编程助手等多个场景。
同时,在全球开始了大算力、大数据的军备比拼中,团队将目光投向高效 Scaling 方向,在 2024 推出基于 MoE 架构的 " 源 2.0-M32",这与 Deepseek 的模型架构一致。团队引入全新 Attention Router 门控机制后,进一步提升算力应用效率。
十多年的软硬协同,从融合架构、GPU 并行基础软件,到资源管理调度平台,大模型系统 Infra,这些积累的经验能力如今聚力于超节点系统的快速落地。
开放架构,拉动产业
这次超节点,浪潮信息选择在开放计算技术大会上发布,并明确表示架构将全面开放给产业链。" 我们要拉动整个产业链往里做投入。" 赵帅说,统一的开放架构带来的不仅是技术共享,更是成本的降低与效率的跃升。预估规模效应可将制造成本降至原先的五分之一甚至二十分之一,同时让生态各方都能获益。
数智前线获悉,浪潮信息正与上游厂商、客户协同制定硬件、互联、管理等标准,延续其在 OAM 等国际标准上的推动经验。依托内部元器件测试实验室的企业级标准,以高于行业标准的严苛测试,将合格产品纳入开放生态。" 我们的开放战略立足全球,旨在推动 IT 产业链的创新融合与协同发展 " 赵帅说。
开源开放理念一直贯穿浪潮信息技术体系。2021 年 " 源 1.0" 发布后两个月,公司即上线开源平台,开放中文数据集、训练代码等资源," 让强大的技术成为普惠能力,而不是少数人的特权 "。
浪潮信息内部也在研发多种路线的超节点架构。当前元脑 SD200 采用电互联与风冷等成熟技术实现快速商用,未来面向更高密度部署时,将推进高压直流供电、液冷散热等方案,并将架构从 Rack as a Computer 提升到 Data Center as a Computer。
" 不是围绕一个节点做产品,而是围绕整个数据中心做系统架构。" 赵帅强调,开放架构与软硬协同将成为构建下一代算力底座的关键。
© 本文为数智前线(szqx1991)原创内容
进群、转载或商务合作联系后台
文章精选
登录后才可以发布评论哦
打开小程序可以发布评论哦