英伟达将 Groq LPU 技术纳入 Rubin 平台,正在引发一场供应链层面的深刻变革。
在英伟达 GTC 大会上,CEO 黄仁勋宣布推出 Nvidia Groq 3 LPU 芯片,将其正式纳入 Vera Rubin 平台体系,作为下一代 AI 数据中心的核心推理加速组件。
知名苹果供应链分析师郭明錤随即发布供应链调查报告,指出在英伟达入股 Groq 之后,LPU 出货量预测已大幅上调,2026 至 2027 年合计出货量预计达 400 至 500 万台,较历史年产量实现约 10 倍以上的数量级增长。
郭明錤认为,这一爆发式增长背后有两大核心驱动力:一是 LPU 与英伟达 CUDA 生态的深度整合大幅降低了开发门槛,二是 AI 代理、实时消费端及物理 AI 等超低延迟推理场景需求的快速扩张。他同时指出,LPU/LPX 机架的规模化量产将对 PCB 供应链产生重大影响,WUS 印制电路(WUS Printed Circuit)有望成为关键受益标的。

黄仁勋 GTC 发布:LPU 正式成为 Rubin 平台第七块基石
在本届 GTC 主题演讲中,黄仁勋披露了英伟达如何将去年收购 Groq 所获得的 IP 技术融入 Rubin 平台。Nvidia Groq 3 LPU 作为一款推理加速芯片,成为 Rubin 平台继 Rubin GPU、Vera CPU、NVLink 6 扩展交换机、ConnectX 9 智能网卡、Bluefield 4 数据处理单元以及 Spectrum-X 扩展交换机之后的第七个核心构建模块。
从技术架构看,Groq 3 LPU 与主流 AI 加速器的差异化路线鲜明。大多数 AI 加速器依赖 HBM 作为工作内存,而每颗 Groq 3 LPU 内置 500MB SRAM ——与 CPU 和 GPU 超高速缓存所用内存类型相同。尽管这一容量远低于 Rubin GPU 所配备的 288GB HBM4,但其带宽高达 150TB/s,远超后者 22TB/s 的 HBM 带宽。
对于对带宽高度敏感的 AI 解码操作而言,Groq 3 的超高带宽在推理应用场景中具有显著优势,尤其适用于需要大批量、低延迟、高交互性输出的前沿 AI 模型部署。
供应链调查:2026 至 2027 年出货量预计达 400 至 500 万台
据郭明錤最新供应链调查,英伟达入股 Groq 后,LPU 出货量预测已出现实质性上调。他预计 2026 至 2027 年 LPU 总出货量为 400 至 500 万台,其中 2026 年占 30% 至 40%,2027 年占 60% 至 70%。与历史年产量相比,这一规模意味着约 10 倍以上的数量级跃升。
在机架层面,英伟达计划将每机架 LPU 密度从 64 个单元提升至 256 个单元,以在推理解码阶段维持超低延迟,同时应对长上下文推理所带来的 KV 缓存需求扩张。
郭明錤预计,新机架架构将于 2026 年第四季度至 2027 年第一季度进入大规模量产,机架出货量预计从 2026 年的 300 至 500 台跃升至 2027 年的 15,000 至 20,000 台。
生态整合是关键:三大技术节点决定落地速度
郭明錤指出,LPU 需求的快速增长,根本上源于其与英伟达生态系统的深度绑定。与英伟达 CUDA 的整合显著降低了应用开发与部署门槛,使开发者无需重构现有工作流即可调用 LPU 算力。与此同时,AI 代理(如编程代理)、实时消费端应用及物理 AI 等超低延迟推理场景的快速扩张,进一步拉动了 LPU 的需求曲线。
他同时列出三个需要重点跟踪的技术整合节点:其一,网络架构层面,机架级互连能否通过 NVLink Fusion 和 RealScale 实现顺畅对接;其二,开发者接口层面,Nvidia NIM 是否能让开发者在无需区分 GPU 与 LPU 的情况下直接部署工作负载;其三,编译器层面,TensorRT-LLM 能否支持 LPU 的 " 先编译 " 架构。郭明錤认为,上述三项整合的推进节奏,将直接决定 LPU 规模化落地的速度与深度。
PCB 供应链迎来新周期:WUS 印制电路或成核心受益方
郭明錤特别强调,LPU/LPX 机架的规模化量产对 PCB 供应链具有重大意义。他指出,LPU/LPX 机架代表了 M9 级 CCL(覆铜板)材料的首次大规模商业部署,而 WUS 印制电路在这一供应链中扮演关键角色。
M9 级 CCL 材料对制造工艺要求极高,涉及石英玻璃织物处理高层数板的技术突破。郭明錤认为,若 LPU/LPX 机架顺利放量,不仅将对 WUS 2027 年业绩产生实质性贡献,更将验证该公司在上述高端制造领域的技术能力,进而可能催化整个 PCB 行业开启新一轮增长周期。


登录后才可以发布评论哦
打开小程序可以发布评论哦