在英伟达的这场发布会上，老黄开始推销 CPU 了。。。

今天早上，老黄再次穿着皮衣，在中国台湾省带来了一场 GTC （ GPU 技术大会）。

和之前不一样的是，这次老黄先上来感谢了一波合作伙伴。

比如什么王记府城肉粽啊、花娘小馆啊、肉霸王猪脚啊。。。

？

你这是什么合作伙伴？

老黄干饭的合作伙伴吗？

直接大中午给屏幕前的给托尼看饿了。

当然了这次 GTC 也不是全是吃货，托尼听完了整个演讲后，发现老黄今年给大家憋了两波大的。

>/ 微软和英伟达正在重新定义整个 PC 产业

这次，老黄没有忘了咱们这些臭打游戏的。

话不多说，直接掏出了 RTX Spark，也就是之前传闻许久的 N1X 处理器。

作为 NVIDIA 与微软、联发科（ MediaTek ）深度协作的结晶，RTX Spark 一出手，就是想打破 40 年以来传统电脑的架构局限。

等会，哪儿局限了？是冯诺依曼架构不行了，还是制程工艺发展到极限了？

其实都不是。要托尼说啊，PC 现在面临的真正问题是：

传统 PC 架构和本地 AI 的需求产生了严重冲突。

大家还是想跑本地大模型的，但是本地大模型想跑起来却不太可能。

简单点来说，就是现在的电脑根本不适合跑本地 AI。

显卡里的显存虽然能跑 AI，但是显存的容量实在是太小了，即使是最旗舰的 5090 显卡，也只能给到 32GB 的显存，你想跑的模型稍微大一点，那就直接打出 GG。

而电脑里常用的内存虽然容量够大，但是读写的速度又太慢了，让它来跑大模型，确实有些难为人。

所以在传统 PC 上跑 AI，一直是个大问题。

直到苹果 M 系列处理器的出现。M1 芯片把 CPU、GPU、NPU 和高带宽内存全部封装在一颗 SoC 里，搞了套统一内存架构出来，才让大家发现 AI 原来可以这样搞。

不分什么内存，显存，CPU 和 GPU 共用同一个内存池。没有所谓显存的桎梏，能给 AI 用的内存可就多太多了。

所以这两年我们能看到，果果的 Mac Studio 靠着最高 8 通道、512G 内存，跑 AI 实在太香了；AMD 这边也推出了 AI Max+ 395，虽然性能稍逊，但采用了类似的架构，在 128G 内存的加持下，分一部分给显卡也足以跑动中等参数量的模型。

这些能跑 AI 没错，但他们对 AI 的支持，始终差了点意思。要说 AI 生态最好的，不是苹果，也不是 AMD，而是深耕 CUDA 生态这么多年的英伟达。

或许是不愿眼看着本地 AI 这块市场拱手让人，又或许是看到了智能体（ Agent ）时代大爆发，总之老黄是真坐不住了。

凭什么你苹果和 AMD 能做统一内存架构，我老黄就不能做呢？

于是，RTX Spark 来了。这玩意的 CPU 部分是英伟达与联发科合作定制的 Grace CPU，由 20 个 Arm 核心组成。根据目前爆料的跑分，大概是和几年前苹果的 M3 Max 差不多的水平。

而 GPU 方面则是塞进去了 48 个流处理器，共计 6144 个 CUDA 核心，性能相当于桌面端的 5070 显卡。这个规模可一点都不小。如果论 AI 更关注的算力来看，在 NVFP4 精度下，可达 1P，也就是 1000 TOPS 的水平。

作为 AI 时代的处理器，RTX Spark 也吃上了统一内存，最高 128G 的容量，可以跑不少模型了。

只是这个统一内存的读取速度只有 273 GB/s 的速率，和 AMD 的 AI Max+ 395 在一个水平，比果果低了一些。不过 CPU 和 GPU 之间倒是直接用上了服务器端的 NVLink，最大 600 GB/s 的带宽，完爆了传统 PC 上的 PCIe 互联。

所以这玩意实际跑起来是个什么水平，还得等正式到手了再试试看才知道。

当然，英伟达最大的杀手锏，还是 CUDA 生态能让各种 AI 应用快速跑起来。

在现场老黄就演示了这么一个场景：通过 Agent 串联 ComfyUI、Blender 等工具，在一台个人电脑上就能完成房间绘图、建模、渲染、AI 生成预览图的全套流程。

哎，我当时装修要有这玩意该多好。

咳咳，扯远了哈，在 AI 之外，英伟达曾经的老本行——游戏，在 RTX Spark 上也没忘掉。以 RTX Spark 的规模，跑个 2K 游戏没什么问题。

而且在之前的 Windows on Arm 上头疼的反作弊问题，老黄和微软也做了努力，打通了 Easy Anti-Cheat 和 BattlEye 等主流 PC 网游反作弊底层组件的 ARM 原生兼容。

老黄还当场端出来两台笔记本，一台跑着最新的《007》，另一边也跑着最新的《地平线 6》，托尼还挺好奇实机的兼容性到底怎么样。

要是有机会的话自然是要给差友们测试一波的。

>/ 造一块不给人用的 CPU：

当然，除了照顾我们这些普通消费者之外。

真正能给英伟达赚大钱的服务器行业，老黄也没落下。

这次，它们已经不满足于把 CPU 卖给人类了。

在英伟达的眼里，现在的 CPU，已经跟不上 GPU 的思必得了。

在现场老黄打了个比方，说如果 GPU 是一个乐团的话，那么 CPU 就是这个乐团的指挥家。

乐团想要演奏出合适的音乐，那指挥的手速必须得跟上。

而现在，随着 Claude Code、龙虾这样的 Agent 工具越来越火， CPU 干活的速度，已经满足不了 GPU 了。

举个例子，我们让 Agent 随便干点活，让它帮我去总结一下英伟达最新一季的财报。

这时候，CPU 就要负责去网上找点资料，先确认最新的财报是哪一季的，然后再去网上搜索，找到目标后，再跑个下载脚本把财报给下过来。

把这些活都给干完了之后，才会正式开始财报分析。

回顾整个流程，你会发现 Agent 它没办法一次性把活给干完。

都是先让 GPU 干点活，然后让 CPU 接力再干点活，接着再让 GPU 来干活的连环交替类型。

如果 CPU 性能不够高的话，那么 GPU 直接开始在原地空等，那不是纯纯浪费么。

老黄直接摊牌了，说现在的 CPU 已经成了 GPU 利用率的瓶颈。

所以这次，他们专门造了一款给 Agent 工具用的 CPU —— NVIDIA Vera。

这玩意可以说从头到尾都是盯着这一件事延迟来优化的。

过去，绝大多数的服务器 CPU，其实都是由好几个小芯片给拼起来的，这样做的好处是你做芯片时的良率更高，成本更低。

坏处就是核心和核心之间的通讯速度就没那么快了，核心和核心之间想发条消息，得去外头绕一圈路。

而 Vera 就没这么麻烦了，为了让它干活干的更快，老黄直接把 88 个计算核心给做在了一块芯片上。

这就让这些核心之间的通讯速度直接提升了 50%，双车道变三车道了属于是。

而且老黄还给人保留了一条额外的高速公路，Vera CPU 可以通过 NVlink 直接和 GPU，或者是另一枚 CPU 来沟通数据。

这样几板斧下来之后，Vera 干活的速度已经被老黄调教的有些夸张了。

老黄拿 Starburst 的 SQL 分析测试举了个例子，在同样的分析数据的基准测试里，Vera 的运行速度是 X86 CPU 的 3 倍。

在纽约交所的实时流测试里，Vera CPU 更是硬生生把计算延迟给压到了原来的六分之一。

要是有这机房来让我炒股，那可能巴菲特来了都得叫托尼一句股神了。

>/ 被 AI 再次塞满的英伟达

当然，除了这两颗 CPU 之外，老黄这次的 GTC 还分享了不少好玩东西。

其中有教你怎么建数据中心的赛博攻略 DSX。

让你在真正破土动工之前，用模拟软件先把工厂的电力、冷却、网络环境给模拟测试一遍。

还有一整套给 Agent 用的大礼包，有面向企业的 Agent 工具套件，还有让 AI 注意安全的 OpenShell 框架。。。

最后还拿出了一个给机器人和自动驾驶准备的世界模型：Cosmos 3 .

总而言之，这次的老黄，再次给我们规划了一个被 AI 给塞满了的世界。

这些东西都很酷，不过对托尼来说，可能最关注的，还是前面提到的 Spark。

毕竟我只是个臭打游戏的。

在过去四十年里，PC 市场始终被 Intel 和 AMD 组成的 " 双雄联盟 " 牢牢把持。高通虽然率先进军 Windows ARM 生态，但无论是 GPU 硬件实力，还是 Windows 上的 DirectX 生态，都总透着一股水土不服的味道。

而且全新平台的起步，往往伴随着软件开发商与 OEM 厂商对于平台 " 浅尝辄止 " 的担忧。这也是 Windows 笔记本在目前为止，仍然以传统的 X86 为主的原因之一。

好在英伟达也是知道新平台的推广难度的。一方面，老黄宣布了未来直到 2030 年的技术路线图，现在是 Blackwell Spark，未来则是 Rubin Spark 和 Rosa Feynman Spark。

换句话说，RTX Spark 这条路，老黄是做好了打持久战的心理准备。。。

再说了，有着 RTX 和 CUDA 这两块金字招牌的号召力，就算要搞软件和游戏的底层适配，那速度和积极性，也绝对不是曾经的高通 × 微软联盟能比的。

现在球已经传出去了，老黄这边可以说是尽了人事，下一步，压力全给到了微软这边。

不论如何，RTX Spark 能否推广出去，一方面取决于产品定价，另一方面取决于 Windows on ARM 本身能否支棱起来。

撰文：洛洛 & 早起

编辑：江江 & 面线

美编：素描

图片、资料来源：英伟达官网

宙世代

一起剪

相关标签