智东西 06-18
黄仁勋夸爆的华为AI超节点,技术秘籍披露!昇腾910C跑DeepSeek,效率超英伟达
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 李水青

编辑 | 心缘

智东西 6 月 18 日报道,6 月 15 日,华为联合硅基流动发布论文《在华为 CloudMatrix384 上提供大语言模型(Serving Large Language Models on Huawei CloudMatrix384)》。据论文报告,在 DeepSeek-R1 模型的评估中,应用于华为 AI 超级节点 CloudMatrix384 的昇腾 910C NPU 可实现赶超英伟达 H800 GPU 的计算效率。

论文截图

论文地址:

https://arxiv.org/pdf/2506.12708

CloudMatrix384 是华为于 2025 年 4 月发布的 AI 超级节点,是其下一代 AI 数据中心架构 CloudMatrix 的首次生产级落地。CloudMatrix384 集成 384 颗昇腾 910C NPU 和 192 个鲲鹏 CPU,通过超高带宽、低延迟的统一总线(UB)网络互连,从而有效解决传统数据中心架构中常见的可扩展性和效率挑战。

基于 CloudMatrix384,华为推出了 CloudMatrix-Infer 服务解决方案。对 DeepSeek-R1 模型的广泛评估表明,华为 CloudMatrix-Infer 的计算效率可超过英伟达 H800 的表现。

CloudMatrix-Infer 在预填充阶段为每颗 NPU 提供 6688tokens/s 吞吐,在解码期间为每颗 NPU 提供 1943tokens/s 吞吐,同时始终保持每个输出 token 低于 50ms 的低延迟。对应的预填充阶段计算效率达 4.45 tokens/s/TFLOPS,解码阶段 1.29 tokens/s/TFLOPS,这超过了 NVIDIA H100 上的 SGLang 和 H800 上的 DeepSeek 等领先框架的公布效率。

这样的成绩,也印证了前不久英伟达 CEO 黄仁勋的判断:虽然(如任正非所说)美国芯片技术比华为领先一代,但人工智能是一个并行问题,如果每台计算机的性能不够强,那就用更多的计算机,华为可以满足中国乃至更多市场的大模型需求。

华为的 CloudMatrix 架构愿景从零开始重新构想 AI 数据中心基础设施。通过拆除传统的孤立设计,它支持通过统一的超高性能网络实现 CPU、NPU、内存、NIC 和其他资源的完全点对点分解和池化,从而为可扩展的 AI 原生数据中心奠定基础。

华为 CloudMatrix 架构愿景概述

一、集群设计:统一总线直连所有 NPU 和 CPU,高速互连

当下,传统的 AI 集群越来越受到计算强度、内存带宽限制、芯片间通信开销和严格的延迟要求的限制。在实际部署中,人们需要处理各种突发工作负载、可变长度输入和不平衡的专家激活,同时满足严格的服务级别目标,从而进一步加剧了这些挑战。

克服这些限制需要从根本上重新架构、共同设计的硬件和软件堆栈。华为推出了下一代 AI 数据中心架构 CloudMatrix 为应对这些挑战提供了解法。

CloudMatrix 超越传统的以 CPU 为中心的分层设计。它促进了所有异构系统组件之间的直接、高性能通信,包括 NPU、CPU、DR、SDS、NIC 和特定于域的加速器,特别是不需 CPU 中介。

此架构的核心是超高带宽、低延迟的统一总线(UB)网络,它促进了高效的系统范围数据迁移和协调。CloudMatrix 基于此互连基板构建,提供 TP/EP 的可扩展通信、适用于异构工作负载的灵活资源组合、适用于融合工作负载的统一基础设施、通过分解内存池实现内存类存储四项基本功能,共同定义了 AI 原生基础设施的新范式。

CloudMatrix384 超级节点的点对点硬件架构

CloudMatrix384 将 384 颗昇腾 910C NPU、192 个鲲鹏 CPU 和其他硬件组件集成到一个统一的超级节点中,通过超高带宽、低延迟的统一总线(UB)网络互连,从而实现接近节点内水平的节点间通信性能。

与传统的分层设计不同,这种架构支持通过 UB 进行直接的多对多通信,从而允许计算、内存和网络资源动态池化、统一访问和独立扩展。这些架构特性特别有利于通信密集型作,例如大规模 MoE 专家并行和分布式键值(KV)缓存访问,使 CloudMatrix384 成为下一代大语言模型服务的可扩展和高性能基础。

为了支持不同的流量模式并保持与传统数据中心网络的兼容性,CloudMatrix384 整合了三个不同但互补的网络平面:UB 平面、RDMA 平面和 VPC(虚拟私有云)平面。

但 CloudMatrix 的长期愿景是将 RDMA 和 VPC 平面融合到一个统一的平面中。当前的 CloudMatrix384 将它们分开,是为了确保与传统数据中心基础设施的向后兼容性。

二、384 颗昇腾 910C、48 个节点,CANN 软件栈加持

在硬件组件方面,CloudMatrix384 的核心是海思昇腾 910C NPU。作为昇腾 910B 的后续产品,昇腾 910C 是一种双 die 封装:两个相同的计算 die 被共同封装,共享 8 个封装上的内存堆栈,并通过高带宽交叉 die 结构连接。

昇腾 910C 芯片的逻辑概述突出双 die 架构

计算方面,每颗芯片可维持大约 376TFLOPS 的密集 BF16/FP16 吞吐量,每个封装的总吞吐量为 752TFLOPS;存储方面,昇腾 910C 封装集成了 8 个内存堆栈(每个堆栈 16GB),提供总共 128GB 的封装内存(每个芯片 64GB)。网络接口方面,每颗昇腾 910C 裸片与 UB 平面和 DMA 平面两个不同的网络平面接口。

聚焦计算节点,CloudMatrix384 中的每个计算节点都集成了 8 个昇腾 910C NPU、4 个鲲鹏 CPU 和 7 个 UB 交换芯片。

如下图所示,12 个处理器(8 个 NPU 和 4 个 CPU)通过 UB 链路连接到这些板载交换机,在节点内创建一个单层 UB 平面。每个 NPU 配置高达 392GB/s 的单向 UB 带宽,而每个鲲鹏 CPU 插槽提供大约 160GB/s 的单向 UB 带宽。板载单个 UB 交换机芯片为超级节点结构中的下一个交换层提供 448GB/s 的上行链路容量。

CloudMatrix384 中昇腾 910C 节点的逻辑概述

只有 NPU 参与辅助 RDMA 平面。每个 NPU 设备为横向扩展 RDMA 流量提供额外的 400Gbps 单向链路,每个节点总共产生 3.2Tbps 的 RDMA 带宽。

在 CPU 复合体中,四个鲲鹏 CPU 插槽通过全网状 NUMA 拓扑互连,从而在所有 CPU 连接的 DRAM 上实现统一的内存访问。其中一个 CPU 托管节点的擎天卡,这是一个专用的数据处理单元(DPU),不仅集成了高速网络接口,还执行基本的节点级资源管理功能。此擎天卡用作节点的主要南北向出口点,与第三个不同的网络平面(数据中心的 VPC 平面)接口。

再来看 UB 交换机系统,CloudMatrix384 超级节点跨越 16 个机架:12 个计算机机架,共同托管 48 个昇腾 910C 节点(共 384 个 NPU)和 4 个通信机架。这些通信机架容纳了第二层(L2)UB 交换机,用于互连超级节点内的所有节点。

下图说明了板载第一层(L1)UB 交换机和机架级 L2 UB 交换机之间的拓扑结构。该网络设计为无阻塞网络,这意味着在 L2 交换层没有带宽超额订阅。L2 交换机分为 7 个独立的子平面。每个子平面包含 16 个 L2 UB 交换机芯片,每个 L2 交换机芯片提供 48×28GB/s 端口。

CloudMatrix384 中的 UB 交换机系统

在每个节点内部,7 个板载 L1 UB 交换机芯片一对一映射到这 7 个 L2 子平面上。每个 L1 交换机芯片通过 16 个链路扇出(一个链路连接到其相应子平面中的每个 L2 交换机芯片)。此配置可确保节点到 L2 交换矩阵的聚合上行链路带宽与其内部 UB 容量精确匹配,从而保持整个超级节点的无阻塞特性。

在软件堆栈方面,华为为昇腾 NPU 开发了一个全面的软件生态系统,称为神经网络计算架构(CANN)。CANN 作为中间软件层,实现了高级 AI 框架(如 PyTorch 和 TensorFlow)与昇腾 NPU 的底层硬件接口之间的高效集成。通过将这些框架生成的抽象计算图转换为优化的硬件可执行指令,CANN 简化了开发人员与昇腾硬件的交互,促进了软硬件协同设计,并旨在最大限度地提高昇腾架构上的应用程序性能。

CANN 软件堆栈由三个主要层组成:驱动程序、运行时和库,这种架构类似于 NVIDIA 的 CUDA 生态系统。

华为昇腾 NPU 的 CANN 软件栈

为了实现云环境中的 CloudMatrix384 部署,华为云提供了一套复杂的基础设施软件,包括 MatrixResource、MatrixLink、MatrixCompute 和 MatrixContainer,旨在通过标准的云 API 抽象出硬件复杂性并实现无缝的资源编排。

用于部署 CloudMatrix384 的云基础设施软件堆栈

总之,CloudMatrix384 专为提高互连带宽和通信效率而构建,这是扩展大型训练和推理工作负载所必需的核心功能。DeepSeek-R1 等大规模 MoE 模型的出现验证了这一点。

论文展示了 DeepSeek 模型的适用性分析,主要关注 MoE 通信、内存可扩展性、高速缓存重用和量化支持四个关键维度。

分析可得,CloudMatrix384 的架构,包括其大规模 NPU 计算、广泛的内存容量、高带宽 UB 互连和基于 DRAM 池的缓存,与 DeepSeek 这样的大语言模型服务的需求紧密结合。这些协同作用为后续部分中介绍的优化推理架构提供了坚实的基础。

三、部署带飞 DeepSeek-R1,计算效率可超英伟达

为了充分利用 CloudMatrix384 的能力,华为提出了 CloudMatrix-Infer,这是一个全面的大语言模型服务解决方案,为部署 DeepSeek-R1 等大规模 MoE 模型建立了实践参考。

跨 AI 软件堆栈的多个层提出的优化技术

CloudMatrix-Infer 包含三项核心创新:

首先,华为设计了一个点对点服务架构,将预填充、解码和缓存分解到独立可扩展的资源池中。与现有的以 KV cacheCentric 架构不同,这种设计支持通过 UB 网络对缓存数据进行高带宽、统一访问,从而减少数据局部性限制,简化任务调度,并提高缓存效率。

其次,华为设计了一个大规模的专家并行(LEP)策略,利用 UB 网络实现高效的 token 调度和专家输出组合。该策略支持非常大的 EP 度数,例如 EP320,使每个 NPU 芯片能够只托管一名专家,从而实现低解码延迟。

最后,华为提出了一套为 CloudMatrix384 量身定制的硬件感知优化,包括高度优化的算子、基于微批处理的流水线和 INT8 量化,以提高执行效率和资源利用率。

对 DeepSeek-R1 模型的广泛评估表明,CloudMatrix-Infer 实现了卓越的吞吐量。

其在预填充阶段为每个 NPU 提供 6688tokens/s,在解码期间为每个 NPU 提供 1943tokens/s,同时始终保持每个输出 token 低于 50ms 的低延迟。这些结果对应的计算效率为:预填充阶段计算效率达 4.45 tokens/s/TFLOPS,解码阶段 1.29 tokens/s/TFLOPS,这两者都超过了 NVIDIA H100 上的 SGLang 和 H800 上的 DeepSeek 等领先框架的公布效率。

此外,CloudMatrix-Infer 有效地管理了吞吐量 - 延迟的权衡,即使在更严格的低于 15ms 的 TPOT 约束下,也能够维持 538tokens/s 的吞吐量。

INT8 量化策略在各种基准测试中进一步保持了与 DeepSeek 的官方 API 相当的准确性。

结语:部署大规模 AI 工作负载,树立 AI 基础设施新标杆

在参数规模增加、混合专家(MoE)架构采用和上下文长度扩展的推动下,大语言模型的快速发展对 AI 基础设施提出了前所未有的要求。

作为一个高效、可扩展且性能优化的平台,华为 CloudMatrix 可用于部署大规模 AI 工作负载。CloudMatrix384 的一个根本性特征是其点对点、完全互连、超高带宽网络,通过 UB 协议连接所有 NPU 和 CPU,为未来的 AI 数据中心基础设施树立了标杆。

展望未来,CloudMatrix384 有几个令人兴奋的增强方向。未来的工作包括集成和统一 VPC 和 RDMA 网络平面以实现更简化的互连、扩展到更大的超级节点配置,以及追求更深入的 CPU 资源分解和池化。

此外,更精细的组件级分解和自适应部署策略为在 AI 数据中心基础设施中实现更高的灵活性、效率和可扩展性提供了有前途的途径。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

华为 ai 英伟达 昇腾910 数据中心
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论