超越英伟达B200！AMD最强AI芯：1.6倍大内存、大模型推理快30%，奥特曼都来站台_ZAKER新闻

量子位 06-13

超越英伟达B200！AMD最强AI芯：1.6倍大内存、大模型推理快30%，奥特曼都来站台

AMD 大招逆袭，最强 AI 芯片号称大模型推理比英伟达 B200 快 30%！

CEO 苏姿丰与 OpenAI 奥特曼共同登台发布。

这次 AMD 发布了 MI350X 和 MI355X 两款 GPU，采用 3nm 工艺，包含 1850 亿晶体管，配备 HBM3E 内存。

相比前代的 MI300X，MI350 系列的算力提升了 4 倍，推理速度快了 35 倍。

MI350 系列也是叫板英伟达 B200，内存是 B200 的 1.6 倍，训练推理速度相当或更快。

并且由于芯片功耗低于英伟达，在 MI355X 上每花费 1 美元，可以比 B200 多跑 40% 的 tokens。

同时，AMD 还预告明年将会发 MI400 系列，并且奥特曼也来给苏妈站台，透露 OpenAI 参与了 MI400 系列的联合研发。

大模型运行更快，MI350 系列叫板英伟达

MI350X 和 MI355X 在核心设计上是相同的，二者的区别是针对不同的散热方式设计，前者采用风冷，后者则和 B200 一样采用了更先进的液冷。

它们都基于第四代 Instinct 架构（CDNA 4），并配备 288GB 的 HBM3E 内存和 8TB 每秒的内存带宽，这一容量是英伟达 GB200 和 B200 GPU 的 1.6 倍。

功耗上，风冷的 MI350X 最高 TBP 为 1000W，液冷的 MI355X 则达到了 1400W，更高的 TBP 之下，MI355X 的性能也高于同架构的 MI350X。

在精度较高的 FP64 上，MI350X 和 MI355X 的算力分别是 72 和 78.6TFLOPs，据介绍是英伟达的 2 倍。

而在低精度格式（例如 FP16、FP8 和 FP4）上，MI350 系列的性能则与英伟达相当或略胜一筹。

值得注意的是，MI350 系列上，FP6 性能的运算可以以 FP4 的速率运行，这被 AMD 认为是一个差异化特征。

搭配 AMD 第五代 EPYC（Turin）芯片，8 个 GPU 通过 153.6 GB/s 的双向 Infinity Fabric 链路进行通信，可以组成一个节点。

这些节点还将继续组合成风冷或液冷机柜，形成最高 128GPU 的集群，FP8 算力达到 1.3EFLOPs。

除了列性能数据，AMD 还直观地介绍了 MI350 系列运行大模型应用的性能，并分别与自家前代产品和英伟达进行了对比。

相比于 MI300X（FP8），MI355X（FP4）运行 Llama 3.1 405B 的速度达到了 35 倍。

运行 DeepSeek R1、Llama 4 Maverick 和 Llama 3.3 70B 的推理性能也均达到了 3 倍。

和英伟达的 B200 或 GB200 相比，MI355X 也能达到相当或更高的性能（均为 FP4 精度，使用不同框架），DeepSeek R1 和 Llama 3.1 405B 的性能分别比 B200 高 20% 和 30%。

训练和微调上，也是相比 MI300X 大幅提升，并拥有和 B200/GB200 相当或更高的性能。

成本方面，MI350 系列也拥有较高的性能密度，同样花费 1 美元，在 MI355X 上可以比 B200 上多处理 40% 的 token。

AMD 表示，MI350 系列在本月初已经批量出货，云服务商正在进行安装。

微软、Meta、xAI 等正在使用 AMD 产品的 AI 大厂，也均对 MI350 表示了期待。

另外，为了搭配 MI350 系列，AMD 还发布了全新的 ROCm 7 软件栈，相比 ROCm 6 带来了 3.5 倍的推理性能提升和 3 倍的训练性能提升，同时引入了分布式推理支持。

ROCm 7 还与 VLM 和 SGLang 等开源推理框架深度集成，并且支持超过 180 万个 Hugging Face 模型的开箱即用。

AMD 公布路线图，MI400 明年亮相

发布 MI350 系列的同时，苏妈也公布了 AMD 在 AI 芯片上新的路线图。

根据这张路线图，AMD 的下一代 GPU，也就是 MI400 系列，将于明年亮相。

MI400 系列由 AMD 和 OpenAI 联合研发，OpenAI 为 MI400 系列的训练和推理需求提供了重要反馈。

奥特曼也来到现场为 AMD 站台，表示 MI400 非常适合推理，并且也可能是训练的绝佳选择。

MI400 系列将采用下一代 CDNA 架构，预计速度比 MI300 系列快 10 倍，FP4 运行速度将达到 40PFLOPs。

还将配备高达 432GB 的 HBM4 内存和 19.6TB/s 的内存带宽，这个数字让现场的奥特曼也为之一震。

搭配 2nm 的 Venice CPU 和 Vulcano 网卡，MI400 可以组装成完整的 Helios AI 机架。

Venice 拥有多达 256 个 Zen6 高性能核心，计算性能预计比当前的 Turin CPU 提升 70%。

代号为 "Vulcano" 的下一代扩展 AI 网卡，支持 PCIe 和 UAL 接口，并提供 800GB/s 的线速吞吐量。

整体上，Helios 机架将连接多达 72 个 GPU，拥有 260TB/s 的扩展带宽。

另外，AMD 还计划到 2027 年推出 MI500 系列 GPU 和 Verono CPU，将 " 进一步突破性能、效率和可扩展性的极限 "。

那么你认为，AMD 这次 Yes 了吗？

发布会回放：

https://www.youtube.com/watch?v=5dmFa9iXPWI

参考链接：

[ 1 ] https://www.tomshardware.com/pc-components/gpus/amd-announces-mi350x-and-mi355x-ai-gpus-claims-up-to-4x-generational-gain-up-to-35x-faster-inference-performance

[ 2 ] https://www.amd.com/en/blogs/2025/amd-instinct-mi350-series-and-beyond-accelerating-the-future-of-ai-and-hpc.html

— 完 —

量子位 AI 主题策划正在征集中！欢迎参与专题365 行 AI 落地方案，一千零一个 AI 应用，或与我们分享你在寻找的 AI 产品，或发现的AI 新动向。

也欢迎你加入量子位每日 AI 交流群，一起来畅聊 AI 吧～

一键关注点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英伟达 amd 奥特曼芯片 gpu

相关文章

评论

没有更多评论了

12 我来说两句…

打开 ZAKER 参与讨论