AMD 大招逆袭,最强 AI 芯片号称大模型推理比英伟达 B200 快 30%!
CEO 苏姿丰与 OpenAI 奥特曼共同登台发布。
这次 AMD 发布了 MI350X 和 MI355X 两款 GPU,采用 3nm 工艺,包含 1850 亿晶体管,配备 HBM3E 内存。
相比前代的 MI300X,MI350 系列的算力提升了 4 倍,推理速度快了 35 倍。
MI350 系列也是叫板英伟达 B200,内存是 B200 的 1.6 倍,训练推理速度相当或更快。
并且由于芯片功耗低于英伟达,在 MI355X 上每花费 1 美元,可以比 B200 多跑 40% 的 tokens。
同时,AMD 还预告明年将会发 MI400 系列,并且奥特曼也来给苏妈站台,透露 OpenAI 参与了 MI400 系列的联合研发。
大模型运行更快,MI350 系列叫板英伟达
MI350X 和 MI355X 在核心设计上是相同的,二者的区别是针对不同的散热方式设计,前者采用风冷,后者则和 B200 一样采用了更先进的液冷。
它们都基于第四代 Instinct 架构(CDNA 4),并配备 288GB 的 HBM3E 内存和 8TB 每秒的内存带宽,这一容量是英伟达 GB200 和 B200 GPU 的 1.6 倍。
功耗上,风冷的 MI350X 最高 TBP 为 1000W,液冷的 MI355X 则达到了 1400W,更高的 TBP 之下,MI355X 的性能也高于同架构的 MI350X。
在精度较高的 FP64 上,MI350X 和 MI355X 的算力分别是 72 和 78.6TFLOPs,据介绍是英伟达的 2 倍。
而在低精度格式(例如 FP16、FP8 和 FP4)上,MI350 系列的性能则与英伟达相当或略胜一筹。
值得注意的是,MI350 系列上,FP6 性能的运算可以以 FP4 的速率运行,这被 AMD 认为是一个差异化特征。
搭配 AMD 第五代 EPYC(Turin)芯片,8 个 GPU 通过 153.6 GB/s 的双向 Infinity Fabric 链路进行通信,可以组成一个节点。
这些节点还将继续组合成风冷或液冷机柜,形成最高 128GPU 的集群,FP8 算力达到 1.3EFLOPs。
除了列性能数据,AMD 还直观地介绍了 MI350 系列运行大模型应用的性能,并分别与自家前代产品和英伟达进行了对比。
相比于 MI300X(FP8),MI355X(FP4)运行 Llama 3.1 405B 的速度达到了 35 倍。
运行 DeepSeek R1、Llama 4 Maverick 和 Llama 3.3 70B 的推理性能也均达到了 3 倍。
和英伟达的 B200 或 GB200 相比,MI355X 也能达到相当或更高的性能(均为 FP4 精度,使用不同框架),DeepSeek R1 和 Llama 3.1 405B 的性能分别比 B200 高 20% 和 30%。
训练和微调上,也是相比 MI300X 大幅提升,并拥有和 B200/GB200 相当或更高的性能。
成本方面,MI350 系列也拥有较高的性能密度,同样花费 1 美元,在 MI355X 上可以比 B200 上多处理 40% 的 token。
AMD 表示,MI350 系列在本月初已经批量出货,云服务商正在进行安装。
微软、Meta、xAI 等正在使用 AMD 产品的 AI 大厂,也均对 MI350 表示了期待。
另外,为了搭配 MI350 系列,AMD 还发布了全新的 ROCm 7 软件栈,相比 ROCm 6 带来了 3.5 倍的推理性能提升和 3 倍的训练性能提升,同时引入了分布式推理支持。
ROCm 7 还与 VLM 和 SGLang 等开源推理框架深度集成,并且支持超过 180 万个 Hugging Face 模型的开箱即用。
AMD 公布路线图,MI400 明年亮相
发布 MI350 系列的同时,苏妈也公布了 AMD 在 AI 芯片上新的路线图。
根据这张路线图,AMD 的下一代 GPU,也就是 MI400 系列,将于明年亮相。
MI400 系列由 AMD 和 OpenAI 联合研发,OpenAI 为 MI400 系列的训练和推理需求提供了重要反馈。
奥特曼也来到现场为 AMD 站台,表示 MI400 非常适合推理,并且也可能是训练的绝佳选择。
MI400 系列将采用下一代 CDNA 架构,预计速度比 MI300 系列快 10 倍,FP4 运行速度将达到 40PFLOPs。
还将配备高达 432GB 的 HBM4 内存和 19.6TB/s 的内存带宽,这个数字让现场的奥特曼也为之一震。
搭配 2nm 的 Venice CPU 和 Vulcano 网卡,MI400 可以组装成完整的 Helios AI 机架。
Venice 拥有多达 256 个 Zen6 高性能核心,计算性能预计比当前的 Turin CPU 提升 70%。
代号为 "Vulcano" 的下一代扩展 AI 网卡,支持 PCIe 和 UAL 接口,并提供 800GB/s 的线速吞吐量。
整体上,Helios 机架将连接多达 72 个 GPU,拥有 260TB/s 的扩展带宽。
另外,AMD 还计划到 2027 年推出 MI500 系列 GPU 和 Verono CPU,将 " 进一步突破性能、效率和可扩展性的极限 "。
那么你认为,AMD 这次 Yes 了吗?
发布会回放:
https://www.youtube.com/watch?v=5dmFa9iXPWI
参考链接:
[ 1 ] https://www.tomshardware.com/pc-components/gpus/amd-announces-mi350x-and-mi355x-ai-gpus-claims-up-to-4x-generational-gain-up-to-35x-faster-inference-performance
[ 2 ] https://www.amd.com/en/blogs/2025/amd-instinct-mi350-series-and-beyond-accelerating-the-future-of-ai-and-hpc.html
— 完 —
量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应用,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向。
也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~
一键关注 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
登录后才可以发布评论哦
打开小程序可以发布评论哦