量子位 08-05
英伟达阉割版B200A曝光,最强芯片架构Blackwell难产:产能不够,刀法来凑
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

内存带宽缩水一半

英伟达最强芯片 B200 被迫推迟三个月,传闻闹的沸沸扬扬。

老黄的对策来了:阉割版芯片B200A曝光。

这难道就是" 产能不够,刀法来凑 "

没错,根据 SemiAnalysis 分析,B200 遇到的主要问题正是产能不足,更具体来说是台积电的新封装工艺 CoWoS-L 产能不足

阉割版的 B200A 将先用于满足中低端 AI 系统的需求。

阉割版 B200A,内存带宽缩水‍‍‍‍

为什么说 B200A 是阉割版?

指标上主要体现在内存带宽,4TB/s,比年初发布会上 B200 宣传的 8TB/s 直接缩水一半

这背后就是封装工艺由 CoWoS-L退回 CoWoS-S 了,甚至 B200A 据称也兼容三星等其他非台积电的 2.5D 封装技术。

总的来说 CoWoS 先进封装目前有三个变体,CoWoS-S、CoWoS-R和 CoWoS-L,主要区别在中介层(interposer)的方案。

中介层介于芯片晶圆和印刷电路板之间,实现芯片与封装基板之间的信息交换,同时提供机械支撑和散热能力。

CoWoS-S 结构最简单,中介层就相当于一片硅板。

CoWoS-R 使用了RDL 技术(Redistribution layer,再分布层),中介层是多层结构的薄金属材料。

CoWoS-L 最复杂,在 RDL 中介层中加入了一种LSI 芯片(Local Silicon Interconnect,局部硅互联),可以实现更高布线密度,也可以做成更大尺寸。

台积电推出 CoWoS-L,是出于旧版技术在尺寸和性能继续增长上面临困难。

比如在 AMD 的 AI 加速芯片 MI300 上,CoWoS-S 中介层已经扩大到了原标准的 3.5 倍,但仍难以满足未来 AI 芯片性能增长需求。

但现在,有消息称 CoWoS-L 在产能攀升中遇到一些问题,可能出现硅、中介层和基片之间的热膨胀系数不匹配,从而导致弯曲,需要重新设计。

过去台积电建立了大量的 CoWoS-S 产能,英伟达占据了最大份额。现在英伟达的需求可以迅速转向 CoWoS-L,但台积电需要时间才能把产能转换到新工艺。

另外有消息称,B200A 的核心(内部型号 B102)将来也会用来造特别版 B20,具体不展开了,懂得都懂。

B200 训大模型,还面临其他挑战

Blackwell 主推的规格是 " 新一代计算单元 "GB200 NVL72,一个机柜就有 36 块 CPU+72 块 GPU。

算力很到位,一个机柜在 FP8 精度的训练算力就高达 720PFlops,直逼 H100 时代一个 DGX SuperPod 超级计算机集群(1000 PFlops)。

但耗电也很到位,据 Semianalysis 估算,功率密度约为每个机柜125kW,前所未有。在供电、散热、网络设计、并行、可靠性等方面带来挑战。

事实上,已经用于大模型训练的 H100 万卡集群,业界也还没有完全驯服好。

比如 Llama 3.1 系列的技术报告就指出,训练期间平均 3 小时故障一次,其中 GPU 导致的问题占了 58.7%。

总计 419 次故障中,148 次是由各种 GPU 故障(包括 NVLink 故障)引起,72 次可以具体到是由 HBM3 内存故障引起。

所以总的来看,就算老黄最终发货了 B200,AI 巨头真正建好 B200 集群投入大模型训练,也还需要更多时间。

目前已经开始训练或接近完成的 GPT-5、Claude 3.5 Opus、Llama 4 等怕是用不上了,要到下下代模型才能见证 Blackwell 的威力。

One More Thing

针对 B200 推迟的传闻,英伟达给出了官方回应:

Hopper 的需求强劲,Blackwell 的样品试用已广泛开始,产量有望下半年增加

具体会不会延迟三个月,不做具体答复。

不过摩根士丹利在最新报告中比较乐观,认为生产仅会暂停约两周。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

英伟达 台积电 ai amd 芯片
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论