下一个智能服务风口：Token工厂行业模式解析

核心观点：

Token 工厂的提出，引发了学术界和产业界极大的关注。当前，对 AI 基础设施的讨论仍沿用 " 数据中心 "" 算力中心 " 这样的传统概念。但是这些概念是无法精准的描述 token 工厂的。事实上，token 工厂正在成为 AI 世界的基础货币。但围绕它的生产、定价、交易、消耗等内容都处于初期阶段，尚未成型。

Token 的生产是 token 工厂的核心目标，不再是泛泛的计算或存储，而是聚焦于 AI 模型推理与训练所产生 Token。

Token 工厂的运营成本中，电力占比可达 50-70%，其次是芯片折旧、液冷散热、网络互联和运维人力。与功耗产出对应，单位 Token 成本与单位功耗产出成反比——功耗产出越高，单位 Token 成本越低。

现实层面看，token 工厂的能源策略对于电力能源的要求极高，传统研究视角将算力和电力视为独立的两个问题，但是 token 工厂的运行模式，两者必须作为一个耦合系统来研究。电力系统如何配合与供应成为了当前的关注点。

（1）行业定义概念界定

Token 工厂（token factory）是指大规模、高效率、低成本生产 token 为核心目标，通过算—电—热—网深度协同的技术架构，电力、芯片、数据等输入要素转化为标准化智能服务输出（token）的新型基础设施。

Token 的生产是 token 工厂的核心目标，不再是泛泛的计算或存储，而是聚焦于 AI 模型推理与训练所产生 Token。它更强调工业化的规模经济效应，实现高效率、低成本的生产模式。将计算、电力、散热、网络视为一个有机整体进行优化，而非割裂的子系统。对于 Token 工厂来说，电力、芯片和数据才是他的原材料，产出可计量、可定价、具有交易属性的 Token 则是它的产出物，也就是为客户提供标准化的智能服务（Token）。

相较于传统的数据中心、算力中心，Token 工厂的核心是 " 生产 token" 这个工业化过程，而不仅仅是提供计算资源。

具体区别如下：

表格 1 Token 工厂与传统数据中心、算力中心的对比

数据来源：公开资料，融中研究

（2）市场规模及竞争格局

1）行业市场规模

Token 工厂目前还没有官方统计口径，这一概念是英伟达在 2026 年的 GTC 大会上正式提出的。因此，融中研究根据 Token 消耗量、AI 推理市场、AI 数据中心市场等不同口径来进行市场规模推测。

消耗端：根据国家数据局披露的数据，中国日均 Token 调用量从 2024 年初的 1000 亿增长到 2026 年 3 月的 140 万亿，两年增长超过 1000 倍。

产业端：2026 年 3 月，阿里云、百度智能云、腾讯云等相继上调 AI 算力相关产品价格，部分模型 Token 计费涨幅超过 400%。英伟达预测 2026-2027 年全球 AI 算力采购订单积压规模将突破 1 万亿美元。阿里宣布未来三年投入超千亿元用于云和 AI 硬件基础设施建设。

2）竞争格局

作为 2026 年 3 月英伟达 GTC 大会上正式提出的新概念，token 工厂的竞争格局正在快速形成中。英伟达 CEO 黄仁勋在 GTC 2026 大会上明确指出，AI 竞争的核心已从模型训练转向 Token 生产效率（即推理）。衡量标准不再是 " 峰值算力 "，而是 " 每瓦 token 吞吐量 " 和 " 每百万 token 成本 "。

从全球来看，中美走向两条侧重不同的发展道路。美国侧重于前沿突破，驱动力来自资本与顶尖研发的良性循环。目前，英伟达 Vera Rubin 平台七颗芯片全部投产，从 3nm 走向 1.6nm，从地面延伸至太空，从 GPU 扩展至 LPU。

中国则更重视向深处扎根，驱动力来自国家战略和产业升级的现实需求。应用空间广阔，工业场景和商业链路完整，要优先解决算力如何真正用起来。

Token 工厂概念的提出，使得 AI 行业内的企业更加清晰了自己的行业定位，同时也开始了进一步的行业布局。英伟达的角色不再是单纯的芯片供应商，而是 token 工厂的全栈方案提供商。芯片层的竞争正在从单性能芯片转向系统解决方案。从云服务和模型层来看，调用量排名前十中，中国模型占据四席并包揽前三名：MiniMax M2.5、阶跃星辰 Step 3.5 Flash、DeepSeek V3.2，Kimi K2.5 位列第九，中国模型的核心竞争力在于极致性价比—— Token 价格仅为国外竞品的 1/6 至 1/10。

（3）产业链图谱

Token 工厂产业链的传导逻辑是：下游应用爆发，大模型、AI 智能体等的大规模应用，使得 Token 需求激增，从而导致算力开始涨价，上游硬件开始扩产。

表格 2 Token 工厂产业链梳理

数据来源：公开资料，融中研究

注：电力供应环节因企业较为分散（如核电、绿电、电网调度等），且此前未列出具体代表企业，故暂未纳入表格。如有需要，可补充国家电网、南方电网、中广核等。

（4）影响与意义

Token 工厂的出现，标志着 AI 产业从 " 模型竞赛 " 转向 " 生产竞赛 "，价值锚点从模型智能水平转移至 Token 的生产效率与成本。模型正从稀缺品变为大宗商品，竞争焦点变为 " 谁生产 Token 更快、更便宜、更稳定 "，AI 由此从实验室经济走向工厂经济。同时，能源与算力深度耦合，" 算电协同 " 成为新范式：电力从成本项升级为战略资源，占比高达 50-70%，Token 工厂通过柔性负载调度、自建微电网甚至捆绑核电，将算力从 " 云 " 变为与地理、能源、电网绑定的重资产，彻底改写了数据中心选址与运营逻辑。

全球竞争格局正被重塑，Token 成为新型战略商品。中国凭借极致性价比，在 Token 调用量上已反超美国，形成 "Token 出海 " 这一智能服务出口模式，中美分化出自主可控与前沿技术两条路径。经济模式上，Token 演变为可计价、可交易的 " 智能货币 "，黄仁勋提出五级定价模型，商业模式从 " 卖资源 "（按卡时）升级为 " 卖产品 "（按 Token），2026 年集体涨价潮宣告卖方市场来临。垂直整合与重资产化成为巨头战略，Token 工厂使 AI 真正成为千行百业的生产力工具，开启了智能的工业化大生产时代。

（1）生产核心：芯片与集群

1）芯片

从 " 单芯片性能竞赛 " 转向 " 全栈系统级协同 "。芯片不再是孤立元件，而是与互联、存储、网络深度绑定的平台化解决方案。

表格 3 关键玩家与策略

数据来源：融中研究

2）集群

当集群从千卡迈向万卡 / 十万卡，芯片间通信效率成为整体算力利用率的关键瓶颈。供电、散热、网络拓扑、与电网协同共同决定系统上限。

表格 4 集群架构分层

数据来源：融中研究

（2）生产流程

1）输入阶段

Token 工厂的输入主要包括三类核心资源：电力、数据、算力基础设施。

表格 5 Token 工厂的输入

数据来源：融中研究

输入环节的竞争已从 " 单纯堆砌算力 " 升级为 " 算 - 电 - 热 - 网 " 四位一体的资源整合能力。谁能以更低成本获得稳定电力和高质量数据，谁就占据 Token 生产的成本优势。

2）加工阶段

加工环节是将输入转化为 Token 的核心过程，分为训练和推理两大阶段，目前重心正从训练向推理迁移。

表格 6 Token 的加工环节

数据来源：融中研究

最新架构趋势：

Prefill-Decode 分离：英伟达将推理拆分为预填充（GPU 负责）和解码（Groq LPU 负责），延迟降至 0.1 毫秒以下，性能提升 35 倍。

MoE（混合专家模型）：仅激活部分参数，大幅降低推理成本。DeepSeek 等模型已广泛应用。

投机解码：用小模型快速生成候选 Token，大模型并行验证，显著提升推理速度。

加工环节正从 " 通用计算 " 走向 " 场景化分工 "。不同模型架构、不同任务类型需要定制化的计算流水线，单一芯片难以包揽全局。

3）输出阶段

输出环节是将加工产生的 Token 封装为可交付、可计价的标准化产品，并通过 API 或应用层送达用户。

表格 7 Token 的输出环节

数据来源：融中研究

输出环节的本质是将无形的 " 智能 " 转化为可交易的商品。Token 作为标准化计量单位，使 AI 服务能够像水电一样按需付费，极大地降低了应用门槛。

（3）核心生产效率指标

Token 工厂的核心生产效率指标是衡量其竞争力的关键标尺。与传统数据中心看重资源利用率（如 CPU 利用率、存储利用率）不同，Token 工厂的价值产出完全围绕 "Token" 展开——评价标准已从 " 拥有多少芯片 " 转变为 " 每瓦能耗能产出多少高质量 Token"。

1）单位功耗产出

核心指标定义：Tokens per second per watt（每秒每瓦产出的 Token 数），或更宏观的 Tokens per second per megawatt（每兆瓦每秒产出的 Token 数）。这一指标直接反映了 Token 工厂将电力转化为智能产品的核心生产效率。

背景与意义：AI 数据中心的能耗正以惊人的速度攀升，供电能力、散热可持续性、网络拓扑效率乃至与公共电网的协同能力，开始共同决定整个系统的上限。因此，" 每瓦 Token 产出效率（Token per Watt）" 正取代传统的峰值算力与单卡性能，成为新的核心 KPI。这意味着评价对象已经从 " 芯片 " 转向 " 系统 " ——供电、冷却、网络、调度乃至建筑交付周期，都会被纳入同一个经济模型进行统一优化。

提升单位功耗产出的核心路径已从芯片优化扩展到 " 算 - 电 - 热 - 网 " 四位一体的协同优化。英伟达在 GTC 2026 上推出了 Vera Rubin DSX AI Factory 参考设计，其核心目标就是实现 " 每瓦最大 Token 产出 "。该参考设计覆盖计算、网络与存储，并配套开放、模块化、可组合的软件栈，将集群硬件与供电、冷却系统联动起来，从而在整体层面获取更高的 Token per watt。

2）单位成本产出

核心指标定义：Cost per million tokens（每百万 Token 的成本），以及 Token 吞吐量带来的每 GPU 每秒 Token 数（TPS per GPU）所对应的总拥有成本（TCO）。它直接决定了 Token 工厂的盈利能力和市场竞争力。

成本构成：Token 工厂的运营成本中，电力占比可达 50-70%，其次是芯片折旧、液冷散热、网络互联和运维人力。与功耗产出对应，单位 Token 成本与单位功耗产出成反比——功耗产出越高，单位 Token 成本越低。

表格 8 定价体系：Token 作为 " 智能货币 "

数据来源：融中研究

单位成本产出是 Token 工厂的 " 利润核心 "。在固定功耗下，谁的每瓦 Token 产出更高，谁的 Token 成本就更低，谁就能获得更高的利润空间。分级定价体系将 Token 从技术术语转变为可计价、可交易的商品，使 AI 服务能够像水电一样按需付费，极大地降低了应用门槛。

3）时间效率

核心指标定义：Token 吞吐量（Tokens per second，TPS）、首 Token 延迟（Time To First Token，TTFT）、每 Token 生成时间（Time Per Output Token，TPOT）。这些指标直接决定了用户体验和 AI 系统的可用性。

吞吐量基准（Tokens per Second）

吞吐量是 Token 工厂在单位时间内能够生成的 Token 总数，决定了系统能同时服务多少用户请求。

AMD MLPerf 突破：2026 年 4 月，AMD 在 MLPerf Inference v6.0 基准测试中首次突破每秒 100 万 Token 的吞吐量里程碑，在 Llama 2 70B 和 GPT-OSS-120B 等模型上均达到百万级 Token/ 秒的性能。AMD MI355X 单 GPU 在 Llama 2 70B 上实现 100,282 Token/ 秒，是上一代 MI325X 的 3.1 倍。

英伟达 Blackwell Ultra：GB300 NVL72 的最大单 GPU 吞吐量达到 226.2 Token/ 秒，比上一代 GB200 有显著提升。GB300 在延迟敏感型工作负载上的性能提升约 1.4-1.5 倍，延迟改善约 1.58 倍。

极致案例：字节跳动豆包的日均 Token 消耗量已达 120 万亿 Token，折合每秒并发处理约 13.9 亿 Token。这已不是实验室压力测试，而是真实生产环境的持续负载，代表了 Token 工厂吞吐能力的极限边界。

延迟指标（TTFT 与 TPOT）

首 Token 延迟（TTFT）：从用户发送请求到收到第一个 Token 的时间。对于交互式应用（如聊天机器人），这是最关键的体验指标。Lambda 等厂商通过 Smart Expert Routing 技术将 TTFT 的 P99 延迟降低了 31%。

Prefill-Decode 分离：英伟达将推理拆分为预填充（Prefill，GPU 负责）和解码（Decode，Groq LPU 负责），通过分工协作将延迟降至 0.1 毫秒以下，推理性能提升 35 倍。

表格 9 三大指标的联动关系

数据来源：融中研究

（1）成本结构

表格 10 Token 工厂成本结构

数据来源：融中研究

电力成本是 Token 工厂最大的单项支出，占比过半且持续上升。控制 Token 成本的核心在于提升 " 每瓦 Token 产出效率 "，而非单纯压降电价。自建微电网、捆绑核电、液冷普及是主要降本手段。

（2）收入模式（定价方式）

表格 11 Token 工厂收入模式

数据来源：融中研究

Token 已成为可计价的 " 智能货币 "，收入模式从单一按量计费走向分层定价。头部云厂商通过涨价（2026 年 3 月涨幅 30%-400%）掌握了定价权，市场进入卖方市场。未来收入增长依赖智能体驱动的 Token 消耗量指数级上升。

（3）商业模式

表格 12 Token 工厂商业模式

数据来源：融中研究

Token 工厂推动商业模式从 " 卖资源 " 向 " 卖智能 " 升级，垂直整合成为巨头首选。英伟达从芯片商转型为 "AI 工厂架构师 "，阿里、字节则打通从生产到应用的全链条。未来可能出现专业化的 Token 生产商与交易平台，进一步细化分工。

Token 工厂的经济本质是将电力、芯片、数据转化为可交易的智能商品。成本端以电力为核心瓶颈，收入端依赖 Token 分层定价与消耗量增长，商业模式正从资源出租走向智能产品交付。三者协同决定了 Token 工厂的盈利能力和竞争壁垒。

（1）电力供应侧

电力供给侧的挑战：从 " 成本项 " 到 " 产能瓶颈 " 的质变

Token 工厂的电力需求已从传统数据中心的数十兆瓦跃升至数百兆瓦乃至吉瓦级，电力不再是可替代的运营成本，而是决定 Token 总产量的 " 硬天花板 "。更严峻的是，AI 芯片对电压波动极度敏感，而风光绿电的间歇性与 Token 工厂 7×24 小时连续生产的要求形成根本矛盾。部分地区电网容量已耗尽，新建 Token 工厂面临 " 有 GPU、无供电 " 的尴尬。黄仁勋直言：" 数据中心受电力限制，1GW 工厂永远不会变成 2GW。" 电力供给侧正成为制约 AI 产业扩张的最短木板。

（2）解决方案：算电协同

算电协同的解决方案：从 " 被动用电 " 到 " 柔性共生 "

破解电力瓶颈的关键在于让 Token 工厂与电力系统深度协同，而非单向依赖。一方面，工厂作为 " 柔性负载 "，可根据电网电价和绿电波动动态调整算力分配——电价低时全力训练模型，电价高时仅维持推理服务；另一方面，头部企业正自建微电网，捆绑核电（微软重启三哩岛）、地热（谷歌）等稳定清洁能源，甚至部署小型模块化反应堆（SMR）实现 " 离网运行 "。液冷普及和余热回收进一步提升了能源利用效率，使 Token 工厂从 " 电老虎 " 转型为电网的 " 调峰伙伴 "。

（3）未来趋势

Token 工厂未来的发展趋势：从 " 算力堆砌 " 到 " 系统效率 " 的终极竞争

未来 Token 工厂的竞争将围绕三大趋势展开：一是推理主导，随着 AI 智能体爆发，推理算力占比将超 60%，低延迟、高吞吐的推理专用芯片（如 LPU）和 Prefill-Decode 分离架构成为新焦点；二是能效为王，每瓦 Token 产出（Token per Watt）取代峰值算力成为核心 KPI，液冷、CPO 互联、算电协同等系统级优化决定生死；三是垂直整合与分化并存，巨头自建全链条 Token 工厂（如阿里 ATH），而中小玩家转向专业化分工（算力租赁、Token 交易平台）。最终，Token 将像水电一样成为普惠智能服务，其生产成本无限逼近物理极限——电力转化效率。

宙世代

一起剪

相关标签