快科技 12 月 29 日消息,虽然 NVIDIA 目前在 AI 训练领域无可匹敌,但面对日益增长的即时推理需求,其正筹划一项足以改变行业格局的 " 秘密武器 "。
据 AGF 透露,NVIDIA 计划在 2028 年推出的 Feynman(费曼)架构 GPU 中,整合来自 Groq 公司的 LPU(语言处理单元),以大幅提升 AI 推理性能。
Feynman 架构将接替 Rubin 架构,采用台积电最先进的 A16(1.6nm)制程,为了突破半导体物理限制,NVIDIA 计划利用台积电的 SoIC 混合键合技术,将专为推理加速设计的 LPU 单元直接堆叠在 GPU 之上。

这种设计类似于 AMD 的 3D V-Cache 技术,但 NVIDIA 堆叠的不是普通缓存,而是专为推理加速设计的 LPU 单元。
设计的核心逻辑在于解决 SRAM 的微缩困境,在 1.6nm 这种极致工艺下,直接在主芯片集成大量 SRAM 成本极高且占用空间。
通过堆叠技术,NVIDIA 可以将运算核心留在主芯片,而将需要大量面积的 SRAM 独立成另一层芯片堆叠上去。
台积电的 A16 制程一大特色是支持背面供电技术,这项技术可以腾出芯片正面的空间,专供垂直信号连接,确保堆叠的 LPU 能以极低功耗进行高速数据交换。
结合 LPU 的 " 确定性 " 执行逻辑,未来的 NVIDIA GPU 在处理即时 AI 响应(如语音对话、实时翻译)时,速度将实现质的飞跃。
不过这也存在两大潜在挑战,分别是散热问题和 CUDA 兼容性难题,在运算密度极高的 GPU 再加盖一层芯片,如何避免 " 热当机 " 是工程团队的头号难题。
同时 LPU 强调 " 确定性 " 执行顺序,需要精确的内存配置,而 CUDA 生态则是基于硬件抽象化设计的,要让这两者完美协同,需要顶级的软件优化。



登录后才可以发布评论哦
打开小程序可以发布评论哦