雷锋网 03-18
成本下探30%,中科曙光IB产品冲击RoCE性价比「护城河」
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智算集群的建设瓶颈,正在经历转移。

过去两年,行业还聚焦在算力规模上,仿佛谁拿到了更多 GPU,谁就掌握了 AI 竞争的入场券。但当万卡集群逐渐落地,一个更隐蔽的瓶颈浮出水面:网络

中科曙光高级副总裁李斌算了这样一笔账:" 原来以 CPU 为中心的计算单元,双路的计算节点插一张网卡就够了;现在以 GPU 为中心的计算节点,一台机器要配八张甚至更多的网卡。"

由此算下来,如今网络的用量相比以往的数据中心,提高了十到二十倍。

数量膨胀背后,智算集群也对网络性能提出更苛刻的要求:

万卡集群的训练,需要网络时延在纳秒级内,且传输精度做到无损。而现实是,无论选择英伟达主导的 IB(InfiniBand)路线,还是运维复杂的 RoCE 路线,国内用户都一定程度上 " 受制于人 "

正是这样的背景下,中科曙光历时三年推出国产原生 IB 架构高速网络产品 scaleFabric,试图在智算网络的咽喉要道上,占据一席之地。

IB 和 RoCE,二分天下?

随着 AI 需求飙涨,行业已经逐渐发现,大规模计算系统的效率不等于系统的峰值算力,在集群实际运行中,接近一半的算力会被浪费掉。

也就是说,单卡算力再强,如果网络无法在规定时间内完成数据交换,大部分算力只能在等待中被浪费。MFU(模型算力利用率)的天花板,很大程度上是由网络决定的。

目前,万卡集群高速互联需求下,市场能满足的技术路线主要有两条:IB(InfiniBand)和 RoCE(RDMA over Converged Ethernet)。前者是专为高性能计算设计的原生 RDMA 架构,后者则是基于以太网的 RDMA 技术方案。

过往,二者的场景和区别还比较泾渭分明:

IB 性能卓越但价格昂贵,是超算和顶级 AI 集群的首选;RoCE 成本较低,且互联网厂商在 CPU 云时代便以以太网为基础,成熟的运维体系也让他们在智算时代更倾向于继续沿用以太网路线。

然而,AI 带来算力需求爆发的当下,随着智算集群规模从千卡迈向万卡甚至十万卡,RoCE 的先天短板开始显现——

IB 交换机采用 VCT 交换,可实现 " 边收边转 ",交换时延可控制在 300 纳秒以内;而 RoCE 交换机则采用 " 存储 - 转发 " 交换,需完整接收数据包后再转发,时延普遍在 500 纳秒以上

在流量控制机制上,IB 采用基于信用的精细化流控,发送前会确认接收端资源,从根源避免丢包;RoCE 依赖的 PFC(Priority Flow Control)暂停机制则是粗粒度流控,容易出现丢包、PFC 死锁或风暴,必须依赖拥塞控制且需人工调优水线。

尽管 RoCE 厂商在追赶 IB 的性能,但用户也已经在 " 用脚投票 "。例如,在感受到 IB 的性能优势后,微软如今已开始将部分核心 AI 训练业务从以太转向了 IB

然而,对于国内智算用户而言,选择 IB 同样面临困境:

英伟达一家独大,采购价格高昂,且供货周期和产品迭代并不稳定。并且,英伟达在 B300 等最新芯片中已标配 CX8 网络模块,这意味着采购其芯片,往往就被强制绑定使用英伟达自家的 IB 网络产品。

面对性能较逊色的 RoCE 与高价垄断的 IB,国产算力高速网络需要一条新出路。

国产 IB 的正式突围

中科曙光 scaleFabric,试图打破这一僵局。

这是国内首款全栈自研原生 IB 架构高速网络产品:从底层的 112G SerDes IP、交换芯片、网卡,到上层的交换机硬件和管理软件,全是自主研发产品,历时三年研发。

从公开的性能数据看,scaleFabric 对标的是英伟达目前主流的 NDR(指 400Gb/s InfiniBand 网络)产品

性能层面,中国科学院计算技术研究所王展表示,通信层面上,曙光的产品基本上和英伟达在同一水平。其端到端通信时延在 0.93 微秒,交换机转发时延 260 纳秒,与英伟达 NDR 持平;单端口带宽达到 800G,较 RoCE 主流交换机领先一到两代,整机交换容量 64T;在典型 AI 训练任务中,实测网络效率提升 40% 以上。

可靠性层面,由于采用了原生 IB 的信用流控机制,scaleFabric 实现了真无损网络,避免了 RoCE 方案中常见的 PFC 风暴风险。曙光透露,该产品已在近万卡规模的集群中持续稳定运行超过 10 个月

当然,对用户而言,最敏感的变量依然是成本。曙光透露,在同等规模集群中,scaleFabric 的整体网络成本较进口 IB 方案可降低约 30%

这一价格优势一旦被验证,RoCE 赖以生存的 " 性价比护身符 " 将受到巨大冲击

不过,这套国产 IB 产品的诞生也并非坦途。

中科曙光高速网络互联产品部总工程师万伟直言,研发中的第一个难点是链路技术:起初大家想买现成的 IB 方案,但是根本不符合要求,最后只能招团队从零做起。

其次,在目标设定上,团队并非简单对标英伟达 IB,而是立志在关键规格上实现超越,这也带来了巨大的技术挑战。万伟感慨,所幸团队最终在国家的支持下得以攻克难关、取得成功。

李斌补充说,当前业界存在 RoCE、ScaleOut、ScaleUP 等多种技术路线,百花齐放,而曙光的选择是在原生 RDMA 架构基础上,为超大规模系统上的性能和扩展性做深度考量。

他对市场竞争格局有清醒的判断:" 目前这个市场的主要玩家还是英伟达。我们对于产品的定位,是期待在 IB 的技术路线能实现技术上的国产化替代,实现业务上真正的市场占比替代。我们希望打破一家独大的局面,把整个技术做开放,市场的蛋糕大家共享。"

尽管英伟达的领先地位短期难以撼动,但国产 IB 的突破,已为智算网络自主之路点亮希望。

雷峰网雷峰网

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

中科曙光 ai 以太网 gpu 李斌
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论