当黄仁勋和吴泳铭喊出同一个英文单词

文｜邱晓芬

编辑｜苏建勋

美国旧金山当地时间 3 月 16 日，英伟达 GTC 2026 大会正式开幕。在英伟达创始人兼 CEO 黄仁勋两个小时慷慨激昂的主题演讲中，贯穿的一个关键词是—— Token。

△ 黄仁勋，图源：发布会截图

无独有偶，在 GTC 2026 的前一天，阿里巴巴宣布成立 Token 事业群——这是地位与淘天电商、阿里云一般的核心独立事业群。这个新事业群里，阿里也明确了 " 创造 Token、输送 Token、应用 Token" 链路。

Token，是大模型处理文本信息时的基本语义单位。当你输入一段文本时，模型会先通过分词器，将文本切割成一系列 Token。这些 Token 随即被转换为数值向量，被输送到 GPU 里进行大规模矩阵计算。

在过去，AI 产业链上的不同角色，有各自关注的指标和评价标准——底层大模型团队关注模型参数规模、上层的应用团队则用户增长和日活跃度，云服务团队关注算力的利用率和实际收入。

阿里巴巴 CEO 吴泳铭在内部指出，AI Agent 极度依赖 Token，未来将进入一个 " 需求大爆炸 " 的时期。

而阿里和英伟达此次前后脚强调 token，传递的讯号是，在 Agent 时代来临时，两家巨头希望从技术、产品和商业维度，先行统一度量衡。

或许到不远未来，AI 领域的一切指标都要加上一个后缀："/ 1M tokens"。

万亿叙事：从数据中心到 token 工厂

" 推理拐点已然到来 "，黄仁勋在 GTC 演讲中指出。过去两年，推理计算量增长了约一万倍，使用量增长了约 100 倍。百万倍的增长，背后实际可感的变化是，AI 的作用逐渐从原来的感知、到生成、到推理，再到能工作。

在这个变化下，黄仁勋在演讲中指出，token 与 AI 企业收入的相关性也越来越清晰——一个企业能获得更多算力，就能生成更多 token，收入就能提升，同时反哺 AI 变得更加智能。

这条传递链路下，英伟达是背后最大的受益者，目标也日渐激进。

2025 年的 GTC 上，黄仁勋预测，Blackwell 和 Rubin 平台在 2026 年之前采购订单规模预期是 5000 亿美元。而此次 GTC 上，他给出明年的新目标是，这一数字将翻倍到 1 万亿美元以上。这一雄心，很快得到二级市场的反应，一度推动英伟达的股价上涨 4.3%。

为了支撑这一万亿增长目标，黄仁勋提出了英伟达的全新叙事——从数据中心到 token 工厂。

△英伟达的收入构成，图源：发布会截图

黄仁勋认为，在未来，每一家 AI 公司、云服务商，都应该以 token 工厂的效率作为核心经营指标。

甚至，未来的 token 还将成为全新的 " 大宗商品 "，并将以吞吐量、交互速度为分类标准重新定价。

黄仁勋在演讲中，将 token 分为四个价格区间——

免费层：高吞吐、低交互速度区域，主要以广告模式变现；

中级层（每百万 token=3 美元）、高级层（每百万 token=6 美元）：吞吐量和交互速度平衡，主要是主流付费领域；

高速层（每百万 token=45 美元）、超高速层（每百万 token=150 美元）：高溢价且高交互领域，也是 Rubin 架构和未来架构主攻的新市场。

黄仁勋强调，英伟达的三大架构都将让客户在免费层，实现极高的吞吐量，而在最高价值的推理层级上，英伟达的新架构吞吐量效率将提升 35 倍。

△黄仁勋的 token 经济学，图源：发布会截图

英伟达不再只是 GPU 芯片公司

不过，要实现万亿美金 token 工厂的雄心壮志，英伟达就不能和以前一样只是一家 GPU 公司。

英伟达显然也在改变自己的产品路线，不再简单粗暴堆算力，而是更关注整个平台的综合能力，尤其是推理表现。

此次 GTC 上，黄仁勋交出了新答卷：专门为智能体推理设计了计算系统 Vera Rubin ——由 7 款新芯片、5 个机架系统、1 台超级计算机构成。

据介绍，Vera Rubin 主要有以下几项亮点：

① GPU 部分：72 块 GPU 通过 NVLink 高速互联，不仅加速前填充（Prefill）的计算速度，同时保证生成 Token 时的响应速度（KV Cache）；

② Vera CPU：当智能体调用工具时，往往涉及大量重复逻辑的操作、条件判断的操作，这都是 GPU 不擅长的。因此，英伟达设计了全新的 Vera CPU，充当 " 调度员 "，处理控制任务，解放 GPU。Vera CPU还是全球唯一用 LPDDR5 的数据中心 CPU。（作者注：低功耗的 LPDDR5 内存一般用于旗舰手机上）

△ Vera CPU，图源：发布会截图

③ BlueField 4 + CX 9 存储平台：AI 工厂需要大量数据处理，为此，英伟达重新构建了一个专为 AI 数据流优化的存储网络。

④ CPO Spectrum-X 交换机：将光引擎与交换机芯片封装在一起，是全球首款光封装光学以太网交换机，改变了过去传统的可插拔模块。

⑤完全使用液冷方案，安装时间从两天缩短到两个小时

据黄仁勋介绍，Vera Rubin 将在 2026 年下半年开始出货，在具体使用时，Vera Rubin 系统的优势表现在，推理速度将比上一代 Blackwell Ultra 快 5 倍，同时 Token 成本降低 10 倍，且在 MoE 模型里只需过去 1/4 的 GPU。

值得注意的是，英伟达不久前收购了 Groq LPU 平台，并将其融入了英伟达的计算体系当中。

不过，大而全的 Vera Rubin 要与短小精悍的 Groq LPU 融合，必然会产生芯片调度问题。为此，英伟达专门为其打造了一个操作系统 Dynamo。

可以把 Dynamo 操作系统理解为一个指挥家，将不同的特性的计算任务，分配给更合适的硬件执行，实现效率最大化。

黄仁勋建议，若工作负载以高吞吐为主，建议 100% Vera Rubin；若大量工作负载为代码生成等高价值 token 生成诉求，可引入部分 Groq 芯片运用，比如 25%。

△ Groq 3 LPU，图源：发布会截图

目前，Groq LP30 已进入量产，由三星代工，预计 Q3 出货。据介绍，这种异构协同设计，将使得数据中心在单位功耗下实现了35 倍的性能飞跃，并且同时兼顾超低延迟、高价值推理服务。

除了 Vera Rubin 之外，英伟达方面还预告了下一代的 GPU 架构 Vera Rubin Ultra（2028 年推出）、Feynman 架构。

概括而言，3D 堆叠、LPU 集成、异构存储、CPO（共封装光学）、铜互联都是未来英伟达平台的核心技术点。

△英伟达的平台路线构成（Blackwell、Rubin、Feynamn），图源：发布会截图

英伟达版 OpenClaw，来了

此次演讲中，黄仁勋除了阐述野心，还把篇幅留给了当前大热的 OpenClaw ——作为人类历史上最受欢迎的开源项目，OpenClaw 用几周的时间就超过了 Linux 过去三十年的成绩。

他认为，OpenClaw 有着三大功能：能够解决管理资源（工具、大语言模型）、分解问题且调用智能体、多模态输出并执行，为此，OpenClaw 本质上是一个智能体操作系统，地位和 HTML、Linux 一样重要。

在黄仁勋看来，未来，OpenClaw 将重塑企业 IT。未来，每一家 SaaS 公司将成为 AaaS 公司，在提供工具之外，还将提供每一个特定领域的 AI 智能体，" 一个原本 2 万亿美元规模的产业，即将成长为数万亿美元规模 "。

不过，黄仁勋也提出警示，当智能体可以自由调用企业的敏感数据和代码，OpenClaw 将衍生安全风险。因此，英伟达也与 OpenClaw 的开发者 Peter Steinberger 合作，推出了企业版本 NeMo Claw。

据介绍，NeMo Claw 不仅集成了英伟达完整的智能体工具包，还提供了一系列的措施（网络护栏、隐私路由等），保证企业方的数据安全。

△ 英伟达版本 OpenClaw，图源：发布会截图

黄仁勋甚至表示，在未来的硅谷的求职场景中，token 可能会成为工程师们年薪总包的一部分，" 入职附带 token 配额 "，成为硅谷的新晋招聘话题。

图形学的 "GPT 时刻 "

发布会开场，黄仁勋首先发布了神经渲染（Neural Rendering）技术 DLSS 5，他将其称之为下一代图形计算技术、" 图形学的 GPT 时刻 "。

具体而言，在 DLSS 5 中，英伟达由两部分构成：在 3D 图形和结构化数据的基础上，融入生成式 AI 和概率计算。

两个部分各有贡献—— 3D 图形和结构化数据，负责提供一个确定性的、符合物理规律的虚拟世界框架；生成式 AI 和概率计算，则用于填充这个 " 框架 "，在原有的基础上，补充逼真的细节和动态变化。

黄仁勋称，这两种理念的融合，将使得制作的内容美观、经验、且可控。不过，要把这种新的范式推广到游戏之外的行业，比如金融、医疗、制造，首先要解决数据海量、异构的问题。

黄仁勋在演讲中也发表了他对于目前数据的看法。

当前，世界上大部分的数据形态存在形式是数据库、PDF、音频、视频。其中，有九成都是非结构化数据，在多模态感知与理解技术出现前，数据很难被高效查询和检索。

为此，英伟达推出了两个全新的数据工具，黄仁勋称其为全网最复杂的数据处理系统：

cuDF ——处理确定性的结构化数据，比如表格、日志等。（对应前述 DLSS 5 中的 "3D 图形和结构化数据 " 部分）

cuVS ——处理概率性的非结构化数据，比如通过 AI 模型把文本、图像、音视频等数据转换成语义向量。（对应前述 DLSS 5 中的 " 生成式 AI 和概率计算 " 部分）

目前，这两个数据平台已经被整合进 IBM、戴尔、谷歌云等云服务和 OEM 体系中。

黄仁勋两个小时的演讲，提示了一个趋势，当 AI 的竞争从 " 模型竞赛 " 进入 " 生产力竞赛 "，大家将不会像几年前一样抢 GPU、抢算力，而是要抢夺 token 生产的主导权。

具体到行动上，英伟达提供的是从底层芯片（Rubin/Feynman）、异构架构（GPU+LPU+CPU）、系统设计（全液冷机柜）、再上层操作系统（OpenClaw、NemoClaw）、工具（DLSS5、cuDF、cuVS）的生产力套件，希望让 token 生产过程也像制造业一般，效率化、批量化。

end

宙世代

一起剪

相关标签