量子位 昨天
华为云再掀算力风暴:CloudMatrix384超节点将升级,Tokens服务性能最大可超H20四倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

华为云算力再迎重大突破!

刚刚落幕的华为全联接大会 2025,一系列新进展发布——

AI 算力云服务升级,基于华为云刚刚发布的最新 AI 服务器规划,CloudMatrix 的云上超节点规格将从 384 卡升级到未来的 8192 卡。依托 MatrixLink 高速对等互联网络结合多网合一技术,实现百万卡的超大集群,为智能时代提供更澎湃的 AI 算力。

首创 EMS 弹性内存存储服务,大幅降低多轮对话时延。

华为云 Tokens 服务正式接入 CloudMatrix384 超节点,打造极致性能的 Tokens 服务体验。

这距离 CloudMatrix384 超节点 2025 年 4 月正式发布仅半年,期间其能力持续进化

2025 年 4 月,CloudMatrix384 超节点发布并商用,在芜湖数据中心规模化上线;

2025 年 6 月,基于 CloudMatrix384 超节点的新一代昇腾 AI 云服务全面上线;

2025 年 9 月,Tokens 服务全面接入 CloudMatrix384 超节点,有效屏蔽复杂的底层技术实现,直接为用户提供最终的 AI 计算结果。

现阶段,AI 行业内依旧被算力焦虑笼罩。硅谷大厂近期在算力、芯片领域动作频频:

OpenAI 一边和博通自研 AI 芯片,一边向甲骨文抛出 3000 亿美元买算力;马斯克百天建成万卡超算集群,还计划向百万卡规模冲击,同时悄悄布局芯片;Meta、AWS 等企业也在积极获取更多算力资源……但算力的发展并非一蹴而就,它需要在单点技术上极致突破,还涉及芯片、硬件、架构、软件、网络、能源乃至整个产业生态的协同演进。

放眼全球,能够输出澎湃算力的供应商,都离不开十数年、数十年的沉淀积累。

华为云作为其中一员,探索路径因所处产业阶段而显得尤为深刻:不仅需要在技术 " 无人区 " 重新定义算力运行规则;还需把握 AI 发展时机,通过快速迭代响应产业海量需求。一步步成长为今天的 " 算力黑土地 "。

黑土地是极其适合农业的土质,天然含有大量腐植质,在此耕种的庄稼产量高,能够茁壮成长。

华为云 " 算力黑土地 " 理念核心是,华为云向行业提供一块肥沃且精心开垦的 " 土壤 ",企业、开发者可根据自身需求,在这片 " 土壤 " 上开展 AI 创新实践。同时,华为云通过框架创新、软硬协同等一系列能力积累作为养料,让这片黑土地越来越肥沃。

正因如此,在大模型浪潮爆发的当下,华为云才能持续向产业输送澎湃算力,做最坚实的底座。其背后的研发、行动、理念与认知,也成为中国算力产业发展的重要参考。

智算 + 通算,覆盖全产业算力需求

想要快速前进,纲领是第一要务。

华为云的策略是智算(智能计算)+ 通算(通用计算)协同推进:

智算:聚焦 AI 前沿,提供极致性能与弹性服务,助力 AI 更快更好落地千行百业。

通算:依托鲲鹏云服务,从核心到边缘全场景赋能,提供安全可信的云上通用算力。

智算部分的核心服务模式是 Tokens 服务,同时也可以提供HCS 混合云、华为云液冷云数据中心以及昇腾专属云服务。开头提到的 CloudMatrix384 超节点能力升级和首创 EMS 弹性内存存储服务,就属于智算领域成果。

图片为 AI 生成

通算部分主要是鲲鹏云业务,基于华为云自研的鲲鹏处理器(ARM 架构),提供一系列面向通用计算场景的云服务产品,推动产业智能创新。

鲲鹏云实现了软硬协同的全面创新,从多核高并发的芯片设计、软硬一体的 " 擎天 " 架构,到华为云智能调度平台与操作系统的深度优化,鲲鹏云服务释放出 " 开箱即用 " 的强劲算力。目前云上鲲鹏核数从 900 多万核增长到 1500 万核,增幅达到 67%。同时全面兼容主流应用软件,已适配超过 25000 个应用,为 ARM 生态繁荣提供坚实支撑。

以上就是华为云 " 算力黑土地 " 的大致架构。在这一体系下,大模型时代中的华为云能够更清晰、更针对性根据 AI 落地需求进行升级,为产业提供更高效、易用、可靠的算力。

AI 时代,用 Tokens 定义计算

针对 AI 时代需求,华为云今年正式推出基于 CloudMatrix384 超节点的 Tokens 服务。这是一种面向 AI 大模型推理场景、按实际 Token 消耗量计费的云服务模式,与传统云计算计费方式不同,可显著降低 AI 推理成本。

这种模式调整背后,是对大模型落地的细致洞察。Token 是将文本分割转换成数字向量,大模型吞吐内容的规模以 Tokens 计算,它是大模型时代天然的计量单位。随着 AI 落地进程推进,Tokens 消耗量呈爆发式增长。

数据显示,2024 年初中国日均 Token 消耗量为 1000 亿,截至今年 6 月底,日均 Token 消耗量已突破 30 万亿,一年半的时间增长 300 多倍。显然,Token 不再只是技术领域的计算单位,更是大模型消耗的实际体现,是衡量大模型落地情况的关键参考,也能直接反映背后 GPU 算力、内存、计算时间的使用量。

用 Tokens 作为计费单位逐渐成为行业共识:一方面,能更精准计算企业使用的资源,让用户仅为实际消耗付费,同时通过实际消耗了解费用构成,进一步优化成本;另一方面,可解决不同场景 Tokens 消耗量差距大导致的收费不公问题,为云厂商动态调节计算资源提供参考。

比如我们常遇到的在线、近线、离线等场景:长文本生成任务适用于日常办公等场景,白天调用量大、夜间几乎静默,按量计费比按时 / 按卡计费更合理;智能客服、AI 助手等场景中,不同细分情况的会话轮次和深度不确定,Tokens 服务模式可以更精准计算每次交互成本。

另一方面,Token 服务可以有效屏蔽复杂的底层技术实现,用户不必关心芯片的工艺、服务器的代次等复杂的硬件技术栈,也不必关心推理框架、模型部署等复杂的软件技术栈,可以高效地直接获得 "AI 的最终结果 "。

在本次 HC2025 上,华为云宣布 CloudMatrix384 AI Token 推理服务全面上线。这意味着 AI 算力进入以 " 极致性能、极致效率 " 为特征的新阶段,性能超越英伟达 H20 3-4 倍。其底层技术主要依托 CloudMatrix384 超节点及 xDeepServe 分布式推理框架等。

第一,CloudMatrix384 超节点使用全对等互联架构与高速通信技术,在计算通信等方面优势显著,能释放更极致算力

CloudMatrix384 超节点通过华为云自研的 MatrixLink 高速对等互联网络,将 384 颗昇腾 NPU 和 192 颗鲲鹏 CPU 紧密耦合,形成逻辑统一的超级 "AI 服务器 "。通过 Scale Out 方式,还可以组成一个超 16 万卡的 AI 集群,同时支持 1300 个千亿参数大模型训练或者上万个模型的推理。

未来,基于华为刚刚发布的最新 AI 服务器规划,CloudMatrix 超节点的规格将进一步升级到 8192 颗,组成百万卡的 AI 集群。

第二,基于 " 一切可池化 " 理念,华为云通过首创的 EMS 弹性内存存储服务将 NPU 显存、CPU 内存和存储资源解耦,形成统一资源池。NPU 可直接远程访问池化内存,实现显存独立扩容,多轮对话 Token 时延大幅降低。同时,计算、存储和网络资源可根据负载需求动态组合,提升资源利用率。

这一技术对多轮次问答场景提升显著。大模型进行多轮问答时,通常响应会随轮次增加而变慢,原因是大模型需 " 记住 " 之前每一轮产生的数据以保证回答连贯性,当问答轮次增加,计算量成倍增长,导致响应延迟。而 EMS 服务能有效解决这一问题。

第三,PDC 分离及动态 PD:PDC( Prefill-Decode-Caching)分离是将 Prefill、Decode 固化在各自集群、同时利用 MatrixLink 高速对等互联网络可以全局寻址的特点而另设立独立的 KV 缓存集群,这样不论是 Prefill 集群还是 Decode 集群的 NPU 都能够直接访问独立 KV 缓存集群的共享内存缓存,突破数据的物理位置限制,显著提高负载均衡、NPU 利用率以及内存利用率,同时提供更大的弹性。同时,系统能够准确实时地分析或预测推理业务负载。

第四,CloudMatrix384 超节点专为主流 MoE 架构设计,支持 " 一卡一专家 " 的分布式推理模式,将 MoE 模型的专家模块分布到不同 NPU 卡上并行处理,如 256 个专家对应 256 张卡,减少通信延迟导致的算力浪费,减少每张卡权重加载的时延,同时减少权重的显存占用,显著提升单卡并行的路数。

当 Tokens 服务全面接入 CloudMatrix384 超节点后,企业用户能以优的性能、好的服务、高的质量,获得各行各业所需的 " 最终 AI 计算结果 ",更专注于应用和业务创新。

千行百业 AI 底座:支撑互联网应用、高精尖科研任务

360 推出的纳米 AI 是全球唯一已经进化到 L4 级别的多智能体蜂群平台。

纳米 AI 的单任务执行步骤可达 1000 步,消耗 500 万至 3000 万 Tokens,其多个专家智能体可以灵活拉群、多层嵌套、组队协作完成复杂任务,还能异步并行运行,大幅缩短超级任务执行时长。在无限上下文长度方面,有用户实测可以连续工作两小时,消耗 Token 2000 万,超过 1000 步的复杂任务不中断、不卡壳,能顺滑完成。

这对底层 AI 算力的实时推理性能和并发吞吐能力提出极高要求,且业务场景复杂,涉及多轮对话、文档分析等,要求算力平台具备高灵活性和适应性,同时随着用户规模增长,Tokens 消耗量成倍增加,进一步加大了算力需求。

华为云将纳米 AI 中调用量最大的模型部署在 CloudMatrix384 昇腾 AI 云服务上,进行全面调优,并提供 Tokens 服务。基于 CloudMatrix384 超节点全新高速网络对等互联,384 颗昇腾 NPU、192 颗鲲鹏 CPU 组成一台超级 "AI 服务器 ",算力和资源互联带宽提升数十倍以上;同时依托 xDeepServe 分布式推理框架打造 Tokens" 超高速流水线 ",结合 EMS 弹性内存存储打破 AI 内存墙,实现 " 以存强算 ",最终帮助企业客户更灵活、低成本地调用优质算力,高效发展 AI Agent 应用。

另一边,华为云也能满足国家级科研机构对高精度、高专业性和安全可信的算力需求。

今年,中国科学院自动化研究所牵头打造并发布 " 磐石 · 科学基础大模型 ",旨在为科学研究提供智能底座,推动生物、化学等领域专业大模型开发。

作为国家级科研机构,中国科学院多个研究所都对算力有国产化、自主可控的要求,且科学模型需要高精度、高专业性,比如航天航空、医疗、气象预测等领域,低精度训练可能影响实验结果。同时中国科学院涉及的科研场景多样,上百个研究所都将基于科学基础大模型开展研究工作,需要算力平台既能匹配高效算力,又能满足长期演进及专业化服务需求。

华为云为磐石提供基于国产化昇腾芯片的昇腾 AI 云服务,实现软硬件、计算框架、开发平台全链路自主可控。基于 CloudMatrix384 超节点高速互联框架优化融合算子,性能可对标甚至超越英伟达。

以高能物理应用为例,北京正负电子对撞机基于磐石实现粒子轨迹重建等任务的自动化。借助华为云 CloudMatrix384 昇腾 AI 云服务,基于磐石发展粒子物理领域大模型,模拟速度提升 1 个量级,物理分析周期缩短 1 个量级,进一步助力加速新物理现象发现。

除此之外,科大讯飞星火大模型推理、面壁小钢炮 MiniCPM 端侧模型训练、美的 " 双活 " 资源底座构建、高教社智能内容服务平台等,均以华为云 CloudMatrix384 昇腾 AI 云服务为底座,实现效率提升与创新加速。

十年积累孕育黑土地

以上,是对华为云 " 算力黑土地 " 的剖析。

过去十年,华为云在软硬协同、数据中心、算法框架、模型服务、生态建设方面的积累与付出,组成了如今肥沃 " 算力黑土地 " 中的养料,成为其能够持续输出澎湃算力的关键。

华为云的全栈研发体系与长期高额研发投入,如同 " 地核 " 一样,为一切提供持续热量和磁场保护,确保 " 生命 " 得以存在、成长。如今,大模型爆发如同寒武纪生命大爆发般,推动 AI 应用快速普及,华为云打造的 " 算力黑土地 ",也迎来了播种与收获的时刻。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

华为云 ai 芯片 云服务 浪潮
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论