快Token生意浮出水面：Cerebras上市，华尔街重新给AI硬件定价

* 内容为转载编译，仅为呈现不同市场观点与研究视角，并不意味着本公众号对文中观点结论认可。

来源丨美股研究社

Cerebras 上市首日直接把 AI 硬件市场的情绪推到了一个新位置。

公司 IPO 定价 185 美元，首日开盘 350 美元，盘中最高触及 385 美元，按盘中价格计算，市值一度冲到 800 亿美元以上。Reuters 称，这是 2026 年以来规模最大的 IPO 之一，Cerebras 也因为晶圆级 AI 芯片、OpenAI 和亚马逊等客户关系，被市场放进 " 英伟达之外的 AI 基础设施资产 " 里重新定价。

Cerebras 2025 年营收约 5.1 亿美元，从上一年的大额亏损中转正，但它还远没有进入成熟芯片公司的利润兑现阶段。市场愿意给出高估值，交易的不是当下利润表，而是一个新的行业判断：AI 推理市场正在从 " 总吞吐竞争 "，进入 " 交互速度竞争 "。

过去两年，资金买的是 GPU 供给、HBM 瓶颈、云厂商 Capex 上修；现在，模型厂商和开发者开始为另一件事付费——单个用户能多快拿到 Token。

【如需和我们交流可扫码添加进社群】

Cerebras 不一定能在训练、大模型通用推理和生态完整度上挑战英伟达，也未必能成为所有 AI 算力场景里的最优解。但如果 " 快 Token" 成为大模型公司可以单独收费的产品层，它的晶圆级架构就从技术奇观变成了可交易资产。OpenAI 承诺购买 750MW Cerebras 高速 AI 推理算力，并且双方约定从 2026 年开始分阶段部署；公司招股文件也披露了与 OpenAI 相关的大规模算力协议和未来交付安排。

这就是 Cerebras 上市最值得看的地方：它不是在复制英伟达，而是在提示市场，AI 基础设施的下一轮重估，可能不再只看 " 谁拥有更多 GPU"，还要看 " 谁能在具体工作负载里交付更高价值的 Token"。

快 Token 开始有价格，

AI 推理市场正在拆出新的估值层

过去 AI 算力的定价逻辑很粗暴：训练模型需要更多 GPU，云厂商上调资本开支，HBM 和先进封装供不应求，英伟达继续拿走产业链最高利润。这个逻辑依然成立，但它已经逐渐成为一致预期。真正有预期差的地方，开始转向推理侧。

推理和训练最大的不同，是它直接贴着用户行为走。训练是阶段性投入，推理是持续性消耗；训练看大规模集群效率，推理看单位请求成本、响应速度、并发体验和产品分层能力。用户每天和 AI 交互多少次，每次请求消耗多少 Token，等待几秒能否接受，都会落到模型厂商的成本曲线和收入曲线上。

这里面最容易被低估的是速度。对普通问答，快一点慢一点只是体验差异；对代码生成、Agent 工作流、工具调用、多轮迭代，慢几秒会变成生产力损耗。开发者不只是要一个 " 更聪明 " 的模型，也要一个 " 更跟手 " 的模型。SemiAnalysis 在 Cerebras IPO 前发布的深度报告把这个变化说得很直接：过了某个智能阈值之后，开发者更偏好更快的 Token，而不是更聪明的 Token。

这句话可以解释 Cerebras 的估值弹性。Cerebras 押注的不是最大吞吐，而是 tokens/sec/user，也就是单个用户拿到输出的速度。OpenAI、Anthropic 等模型公司已经在把服务拆成 fast、priority、standard、batch 等不同档位，本质上是在测试速度能否成为独立 SKU。如果用户愿意为高速模式付溢价，推理硬件就会出现新的分层：一类负责低成本大吞吐，一类负责高价值低延迟。

这对资本市场很关键。英伟达的估值锚来自通用算力、生态壁垒和 GPU 供给；Cerebras 的估值锚更窄，但也更锋利。它赌的是开发者和企业客户愿意为更快响应支付溢价，尤其是在代码、Agent、实时协作、交互式 AI 应用里。它不是英伟达的镜像资产，更像一张 " 快推理期权 "。

训练资本开支已经被充分讨论，GPU 紧缺也被反复定价；快 Token 能不能形成稳定现金流，仍然处在预期差阶段。这个阶段，市场最愿意给高估值的公司，往往不是利润最厚的公司，而是率先把新定价逻辑讲清楚的公司。

晶圆级芯片给了 Cerebras 速度，

也把它锁进一组很硬的工程约束

Cerebras 能讲快 Token 故事，不是因为营销口径足够激进，而是因为它的架构确实和 GPU 路线不同。WSE-3 没有把晶圆切成一颗颗芯片，而是把整片晶圆做成一个巨大的 AI 处理器。公开资料显示，WSE-3 采用台积电 5nm 工艺，拥有约 4 万亿晶体管、90 万个计算核心和 44GB 片上内存。

这套架构的核心取舍很清楚：用片上 SRAM 和超高片上带宽，换取低延迟 decode 能力。GPU、TPU、Trainium 等主流 AI 加速器更多依赖 HBM，优势是容量大、生态成熟、适用范围宽。Cerebras 把大量存储和计算放在同一片硅上，尽量减少数据离开芯片、离开封装。对低 batch、小并发、高交互的推理任务来说，这种设计有机会跑出传统 HBM 系统不容易达到的用户侧 Token 速度。

这也是它最像 " 跑车 " 的地方。GPU 像一套大规模运输系统，可以服务海量并发和复杂生态；Cerebras 更像为了少数高价值请求高速直达而设计的专用路线。它不追求在每个场景里赢，而是把一个场景打穿：低延迟、高交互、速度优先的推理 decode。

但资本市场不能只看速度指标。Cerebras 的护城河和硬伤来自同一个设计。

第一道硬约束是 SRAM 容量。44GB 片上 SRAM 放在单芯片世界里很大，但和高端 GPU 常见的 HBM 容量相比并不占优。更麻烦的是，SRAM scaling 正在放缓。WSE-1 到 WSE-2，SRAM 容量从 18GB 提升到 40GB；WSE-2 到 WSE-3，只从 40GB 提升到 44GB。逻辑晶体管还在继续变密，SRAM 却没有同步线性缩小。对 GPU 厂商来说，可以继续叠 HBM、扩先进封装、做内存池化；对整片晶圆路线来说，平面面积已经很满，再加 SRAM 就要挤压计算面积。

第二道硬约束是片外 I/O。Cerebras 强在片上带宽，弱在片外出口。只要模型能放进单片或少数几片 WSE，它的速度优势就很明显；模型一旦变大，上下文一旦拉长，就需要更多跨晶圆切分。流水线并行可以解决部分问题，但会带来 pipeline bubble、KV Cache 压力和阶段间延迟。Agentic coding 这类工作负载尤其麻烦，因为它天然需要长上下文、连续工具调用和多轮状态保持。模型越大，越偏离 Cerebras 最舒服的形态。

第三道硬约束是系统成本。Cerebras 不是把一颗便宜芯片插进服务器，而是交付一整套高复杂度系统。WSE-3 功耗高，液冷、供电、封装、连接器、数据中心管路都要定制。它的价值不是 " 更便宜的 GPU 替代品 "，而是在某些推理速度区间，用复杂系统换极致交互速度。

这也是投资者需要分清的地方。Cerebras 的技术足够有辨识度，但它的商业化不能靠 " 晶圆很大 " 来兑现。市场最后会盯三个指标：快 Token 能不能持续卖出溢价，系统成本能不能被规模化部署摊薄，模型演进会不会把它的 SRAM 和 I/O 短板放大。

OpenAI 订单给了估值锚，

也把客户集中度和交付风险推到台前

Cerebras 这次能被资本快速接受，OpenAI 是最大催化。按照双方协议，OpenAI 将部署 750MW Cerebras 高速 AI 推理算力，并且存在进一步扩展空间。部分第三方分析也把这项协议视为 AI 半导体初创公司历史上最重要的商业合同之一，因为它把 Cerebras 从 " 技术路线押注 " 变成了 " 有大客户、有长期订单、有交付节奏 " 的 AI 基础设施公司。

这笔订单给了市场一个新锚点。硬件公司最难的是订单能见度，尤其是像 Cerebras 这种非标准架构，客户验证周期长，部署门槛高，供应链和数据中心适配都更复杂。OpenAI 的 750MW 承诺，相当于帮它跨过了最关键的商业化验证门槛。市场愿意给高估值，交易的是 OpenAI 需求背书带来的盈利兑现可能。

但这不是没有代价的背书。OpenAI 既是 Cerebras 最大的机会，也会成为它最大的风险因子。招股文件披露，OpenAI 持有 Cerebras 相关认股权证，部分归属条件与市值门槛、付款门槛和算力交付挂钩；媒体和第三方分析还提到 OpenAI 相关贷款、认股权证和未来收入确认之间存在复杂绑定关系。

资本语言翻译一下：这不是一份简单的客户订单，而是一份深度绑定合同。它提升了 Cerebras 的订单能见度，也压低了公司经营自主性；它让市场看到了收入曲线，也放大了客户集中度；它让 Cerebras 获得工作资本支持，也把交付节奏、数据中心建设、电力和冷却能力变成了股价变量。

OpenAI 发布基于 Cerebras 运行的模型，也强化了这条主线。GPT-5.3-Codex-Spark 这种蒸馏模型，如果能在 120B 级别跑出极高 tok/sec/user，说明 Cerebras 可以承接一类很有价值的开发者工作负载。对写代码、改代码、连续调用工具的用户来说，模型不一定非要最大，但响应必须足够快。只要智能水平跨过可用门槛，速度就会变成付费理由。

问题在于，这条路的上限还没有被证明。120B 级别模型适合 Cerebras，不代表 1T 参数、1M 上下文窗口的大模型也适合。未来 Agent 工作负载如果继续拉长上下文、扩大模型规模、强化多工具协作，Cerebras 就要在速度、容量、成本之间继续做取舍。它最好的商业路径，可能不是承接所有前沿模型，而是在 120B 到数百 B 参数区间里，把高交互速度做到极致，服务愿意为效率付费的开发者和企业客户。

这会影响它后续的估值切换。上市首日，市场买的是主题升温和订单想象；中期，市场要看 OpenAI 算力部署能不能按节奏落地；长期，市场会要求 Cerebras 证明，快 Token 不是一次性热点，而是一条可持续的利润曲线。如果 750MW 顺利交付，额外扩展选项打开，公司可能从 AI 硬件新股切到推理基础设施平台；如果交付延迟、成本超支、速度溢价下降，估值会从 " 资产重估 " 切回 " 主题证伪 "。

接下来，市场看 Cerebras，要看三个变量：OpenAI 订单兑现速度、快 Token 付费能力、以及模型演进是否继续适配它的硬件边界。跑通了，它会成为 AI 推理时代最有辨识度的基础设施公司之一；跑不通，它也会成为这一轮 AI 硬件狂热里最典型的高估值样本。

宙世代

一起剪

相关标签