对话魔形智能CEO徐凌杰：token出海没考虑算力成本，当下不现实

文 | 电厂，作者 | 董温淑，编辑 | 高宇雷

在 AI 大模型的市场里，两年的时间足以重写一套共识。

2024 年初，壁仞科技联合创始人徐凌杰离开 GPU 市场，转身创办了魔形智能（Magik Compute），要做 "AI Token Factory"。彼时这对大众还是一个陌生的说法。

但当时间迈进 2026 年，伴随 OpenClaw、Seedance 等应用走向大众，"Token 经济学 " 在极短时间内完成了行业内外的迅速破圈。

刚刚过去的 3 月，中国 Token 日均调用量突破了 140 万亿。同月，黄仁勋在英伟达年度盛会 GTC 2026 上预言 " 未来的数据中心会变成一个生产 Token 的工厂 " ——与魔形的愿景不谋而合。

3 月底，我们在上海见到了徐凌杰，聊了聊魔形智能的目标愿景与业务模式；也试图借助他 " 局内人 " 的视角，一窥 Token 工厂、Token 经济学，以及电力出海等衍生概念的背后真相。

从超节点与 DeepSeek V2 讲起，Token 如何走入视野中央

2024 年 1 月 18 日，徐凌杰最后一次以壁仞科技总裁的身份发出内部信，宣布自己即将离职。信中谈及未来，他简单而神秘地写道：

"AGI is calling，江湖再见。"

徐凌杰曾任职于英伟达、AMD、三星北美研究院从事 GPU 研发、管理工作，并曾担任阿里巴巴阿里云智能事业群总监。

在 2019 年壁仞科技成立后，徐凌杰作为联合创始人之一，主要负责产品规划和市场拓展业务。

2024 年，正是壁仞多款拳头产品进入规模化量产、营收快速攀升的时间点；同年 9 月，壁仞还启动了上市辅导，即将开启国产 GPGPU 第一股的冲刺。

外界难免好奇，徐凌杰为什么会在这个 " 收获时节 " 选择转身。

3 月底，在上海漕河泾开发区的一栋共享办公空间里，我们见到了徐凌杰。从地图上看，魔形智能与位于浦江的壁仞科技大楼相距不到半小时的车程，但两家公司的使命已经不同。

对于创业的时间选择，他简单讲道：" 我和我的联合创始人金琛看到的趋势是，在 AI 大模型和芯片之间，会有许多的工作需要做。而 2024 年我 40 岁。人生的黄金年龄就这么几年，既然我们认为 Token 的大潮马上要来了，那就要抓住自己精力最好的这几年，敢于纵身。"

再具体一些，让他看清这个趋势的有两件事：

第一件是 2024 年的 GTC 大会上，英伟达发布了 GB200 NVL72。这是一个集成了 36 个 Grace CPU、72 个 Blackwell GPU、合计拥有 60 万个零件、重达 3000 磅的 " 超节点（SuperPod）" 机架系统。

NVL72 也是英伟达 " 超节点 " 产品路线的代表之作。" 超节点 " 顾名思义，是指通过高速互联技术将多台服务器、数十乃至上百块 GPU 紧密集成的高性能计算单元，堪称 " 算力巨兽 "。

第二件事，则是在 2024 年的 5 月，开源模型 DeepSeek V2 发布，凭借 MoE（混合专家模型）、MLA（多头潜注意力）等技术，一举将模型推理成本降至行业最低。

数据的直观对比尤为惊人，DeepSeek V2 的每百万 Token 成本相比同年发布的 GPT-5 降低了约 96%。

一端是算力以 " 超节点 " 的形式被极致堆叠，另一端是模型通过结构创新不断压缩单位 Token 成本——供给与效率，同时发生了跃迁。

Token 迎来了可以被工业化生产、精细化定价的可能性。这成了徐凌杰自己的 aha moment：" 当时我们觉得，V2 这样的开源模型模型和超节点将是市场的绝配啊。"

做软硬结合的 AI Infra，已完成新一轮融资

在写给壁仞同事的离职信中，徐凌杰还写道：" 虽然造芯之路告一段落，但还将坚守在智能算力的大赛道上 "。

在 2024 年，这种表述难免让外界感到困惑。

"AI 的三要素是算力、算法和数据 "。很长一段时间内，这句话都是大众理解一家 AI 公司市场定位的坐标系。

如同 "CV 四小龙 " 曾是算法的代名词，无论国际巨头英伟达还是壁仞等国产 GPU 玩家，都被等同于 " 算力 " 的代名词。

以数据中心、智算中心形式落地的算力租赁生意，只是这个链条中偏重资产、运维的一环。

如果芯片本身占据着算力价值链的顶端，一个新玩家在智能算力市场还能做些什么？

徐凌杰将其表述为 " 软硬件协同的 AI Infra"。在对魔形智能最初的媒体报道中，有人将其描述为一家 " 做算力优化 "" 服务器集群 " 的公司。在他看来，这并不贴切：

" 算力优化只是我们的能力，但不是我们的 mission statement。我们是一家生产高质量 Token 的公司。"

他进一步解释道，单纯说算力优化，更接近传统软件行业的发展逻辑：相对芯片公司、数据中心、模型厂商而言，算力优化方是乙方，每付出一次优化服务、卖出一个 License 授权，获得一次性付费。

而魔形 " 不想成为上一代的软件公司 "，而是直接租用服务器等硬件算力资源，进行模型部署、调优等系列工作后，直接向客户输出 Token。

这种业务模式聚焦于 " 广义的 AI Infra"，也就是将能源（电力）、芯片（算力）、Infra（推理和训练框架等技术底座）、大模型封装在一起，直接对外输出 Token。

" 小龙虾或是任何一个 Agent 的用户，不再需要在意服务器是哪里来的，只要在应用层去调用这个服务就可以了。" 他解释道。

4 月发布的东吴证券研报提供了类似的预判：算力租赁厂商业务模式正从单纯的裸算力出租升级为模型服务或 Token 分成模式，商业模式有望从 " 卖算力 " 转向 " 卖 Token"。

研报同时写道，这种商业模式将面对三大壁垒：稳定的拿卡能力；强力的交付、上线和后续运营能力；资金周转能力。

徐凌杰讲道，在过往能源、芯片、Infra、大模型各自分立的行业结构里，人才是分层的，想要形成软硬结合 Infra 的商业闭环就需要跨层次的人才，而 " 魔形的团队恰好有这样的人 "。

据了解，相较于徐凌杰过往深耕芯片硬件的从业经历，其合伙人金琛曾任 Graphcore 中国工程副总裁和算法科学家，拥有丰富的模型优化经验。

而在资金方面，「电厂」获悉，魔形智能刚刚于 4 月完成新一轮融资。

以下是与徐凌杰的对谈：

从 "Token 纳入薪酬体系 " 说起，当大模型开始产生经济效益

Q：魔形是国内比较早说要做 AI Token Factory 的公司。在 3 月落幕的英伟达 GTC 2026 上，老黄也讲道，未来的数据中心会变成一个生产 Token 的工厂。

你们语境中的 "Token 工厂 " 的概念，跟数据中心、智算中心有什么差别？

A：我们还是借用黄仁勋提出的五层蛋糕理论来看。根据这个理论来分析市场格局的话，Token 其实就是把下面四层的能源、芯片、infra、大模型给封装在一起了。你作为一个小龙虾或是任何一个 Agent 的用户，不再需要在意服务器是哪里来的，只要在应用层去调用这个服务就可以了。

所以另一个角度，如果谈论 Token 工厂和数据中心有什么不一样的话。前者的概念是更贴近于生活的。因为可能很多人都不知道 AI 芯片、服务器长什么样子，但 Token 作为购买智力的一个单元，许多消费者已经有所感知。

黄仁勋提出了 AI 的 " 五层蛋糕 " 理论，图 / 英伟达

Q：行业的叙事模式出现了变化？因为之前我们讲的数据中心、服务器，是以英伟达这样的芯片设计玩家为中心的，Token 工厂的讲法更强调系统工程层面的变革、容纳了更多环节？

A：不仅是叙事上的变化，而是整个行业在发展。

之前我们更多关注到的行业进展，是某地落成算力中心、打造了千卡 / 万卡集群。这主要还是因为那时产业正处在模型训练的阶段，也就是说模型还没有达到被老百姓广泛使用的阶段。

这种现状得到改变的一个标志性事件——至少对中国来讲的话，是 2025 年 DeepSeek V3 的爆发，让大家突然发现 " 哎，模型能用了 "。在那之后我们又看到了许多应用的爆发，比如今年春节爆火的 OpenClaw 小龙虾。

今天来看，推理 inference 相比训练 training 来讲，未来的成长性会高很多。

所以说这不只是叙事模式的改变，更是经济效益的再分配过程。

可以举个例子来看，现在很多公司已经在给工程师进行 Token 的配额，比较常见的是一个月一两千元价值的 Token，所以说模型已经在生产中真正地被用起来了。

Q：在这个过程里，魔形智能的位置是？

A：大家对于更快、智力更高、更大规模生产的 Token 有需求的。而这需要更大的集群。

今天在中国，包括 DeepSeek 在内，存在大量的优质开源模型。当模型统一面向所有人开源时，在未来一段时间内，大家要关注的就是怎么把硬件组织得更好、让模型跑得更好，这就是 Infra 要做的事情。

2026 年元旦之后，全球头部模型 Token 调用量大幅上升，数据 /OpenRouter，图 / 东吴证券

Q：您之前在交大的一个采访里提到，魔形智能对标的是 Nebius，但走得更深、全栈自研。该怎么理解这种底层自研？

（Nebius：美股上市的垂直整合云服务提供商，获英伟达投资，截至 2025 年 Q2 估值为约 160 亿美元）

A：Nebius 和其他很多 Infra 企业不同的是，它有一部分服务器是自研的。它们把采购来的服务器做了改配、进行统一化的配置，让服务更稳定。

这样带来的好处是什么呢？按照之前 Meta 训练 Llama 3 的数据，服务器可能每隔一段时间就会面临故障中断，为此训练团队频繁地进行 Checkpoint 保存训练数据、等待服务器恢复、再重新 reload 数据。

（注：在 Llama 3.1 训练的 54 天里，Meta 的 1.6 万块 H100 集群总共遇到了 419 次意外中断，相当于平均每 3 小时发生一次。）

但假设用 Nebius 的服务器来训练，即便它的单价更高，但是因为稳定性更好、故障中断率更低，模型也能更快训练出来。

今天我们讲对标 Nebius，更多地是想要强调软硬件都需要做，而不只是像上一代公司一样只聚焦软件、只聚焦芯片资源。但今天从全世界范围来看，绝大部分 Infra 企业还都是以软件的方式去做。

我们有一个对标的思维惯式。但其实很多选择并没有前路可循，再往后走，需要我们去进行第一性原理的判断，而不是跟随谁。

" 用多少电，产生多少 Token" 成为新的坐标系

Q：之前衡量一个数据中心的性能，我们会讲它是万卡还是千卡、单卡的 flops 是多少；现在当面对一个 Token 工厂时，我们应该用什么样的指标去衡量它？

A：用多少电，产生了多少 Token。

Q：这可以等同于黄仁勋说的 " 谁的每瓦 Token 吞吐量最高，谁的生产成本就最低 "?

A：今天当我们看到一个数据中心，第一个问题往往会去问 " 你是多少兆瓦的？"。而这个电力决定了你的装机量上限，进而再去谈每天生产了多少 Token。

黄仁勋这句话可以用来评价效率。毕竟不同品牌、卡与卡之间的性能并不均等——英伟达卡和 AMD 卡即便同样标称 1 万 PFLOPS，也是不能完全等同的，生产效率也并不同。但是电力是能够直观去做比较的、最好量化的。

当然，模型能力不同，产生的 Token 智力也会非常不一致。大体来讲，参数量越大的模型的 Token 越聪明。同样的数据中心用来生产 7B、13B 模型的 Token，和用来生产 Deepseek 671B 模型的 Token，生产效率也会非常不同。

Q：按照现在比较优质的智算工厂，Token 的单位电力吞吐量应该在多少？

黄仁勋说 "Vera Rubin 在同一座 1GW 数据中心里，让将 Token 的生成速率从 2200 万提升到了 7 亿 "。这是行业的最佳成绩吗？

A：具体的数字啊我们可以先放一放。单论产生多少 Token 的绝对数字，这是和一些限制条件有关系的，比如模型参数量、比如所谓的离线模式和在线模式——在线模式就是延时要很低，问题过来要在一两秒内回复；离线模式可能 30 分钟之后才有结果。

大厂在发布新的解决方案的时候，也会小字标注发挥最佳性能的各种前提条件。

总之我觉得我们可以先忽略绝对数字，来看和 Token 生产效率相关的变量条件。可以关注的点包括芯片本身的性能，比如从 Grace Blackwell 到 Vera Rubin 是一个升级；第二个是超节点的升级，从 NVL72 变成了 NVL144；第三个是 Format（格式）的不同，关注数据中心是用 8bits 还是用 4bits 去做计算。

Q：在 Token 工厂的范畴里，英伟达它还是一个天花板的存在吗？

A：当然，我在英伟达工作过。所有人到了那里之后，学会的第一个词叫 speed of light（光速）。

speed of light 代表着极限，考察你的工作是否做得足够好，就是用 speed of light 作为一个指标，公司的文化是推动每个人往 100% speed of light 去走。

毫无疑问，目前英伟达还是技术极限的追求者和定义者。

当前市场比拼的一个是绝对性能，第二个就是单位的性价比。我觉得对今天的中国公司来讲，更重要的是追求单位的性价比。

电力出海是伪命题，但 Token 市场大有可为

Q：魔形智能的公众号里有几篇文章，拆解过建立 Token 工厂的要素，分别是高压直流输电、液冷、高速互联、超节点架构下的推理优化和软硬协同。要形成这种高度系统化的解决方案，需要魔形做哪些准备和努力？

A：长期来看是要往超节点的路去走，它是一个系统化的工程，当前我们肯定还在路上，但在路上也可以 " 沿途下蛋 "。比如目前可以去努力优化运营成本，在能够获取到的硬件的基础上进行优化。

在现阶段，在硬件方面去下功夫是非常有必要的。今天来看 Token 的成本结构，里面有约 80% 是和服务器的采购成本相关的。所以一定要搞定硬件、掌握供应链的关键环节，才有可能达到理想的成本。

今天在中国市场的每秒钟产生的 Token（TPS，Tokens Per Second）大概是在 30 到 60 个，在美国这个数字可能是达到 100、200。这都是因为我们还受限于算力的供给。

Q：魔形智能会考虑自研芯片吗？

A：这个相对还比较遥远，不在我们的现在的 roadmap 里面。

魔形一定是面向提供 Token 出发，服务器、集群会是这个模式的副产品。

Q：当前国内还有硅基智能、清程极智这些公司，也在 AI Infra 的赛道里，那魔形智能的独特性体现在哪里？

A：今天的市场还没有到互相竞争的阶段。

就像当初的芯片市场，假如一家芯片公司在 2020 年融完资后，就觉得市场的钱都被吸完了、窗口期关闭了，那就错了；事实证明，2021 年又成立了好多芯片公司，很多也成长得不错。

AI Infra 的市场盘子会比芯片更大，但今天整个赛道的资本投入还远未达到芯片赛道的程度。大家在这个赛道里，面对的都是百倍千倍的成长机会。

三年之后，这个赛道里面肯定能跑出千亿级别人民币以上的公司，而且可能不止一家。如果我们今天只从竞争的角度来看市场，格局就小了。

Q：查资料可以看到，目前 AI Infra 比较常见的商业模式有两种，一种是和 IDC 运营商、GPU 云服务商、国产芯片厂商共同对外提供 Token 服务，另一种是为已有自建 GPU 集群算力消纳、优化服务。还有别的可能吗

A：这两种都是潜在的方向，我们现在做的更接近于是第一种，就是和算力中心合作。我们是甲方，他们是乙方，用他们的机器来生产 Token。

这也涉及到一个选择问题。既然我们认为自己的产品是 Token 本身，生产高质量的 Token、把这件事做到商业闭环就是我们最首要的任务。

第二种的算力消纳模式，可能会是未来我们扩大自己资源的一种方式。

Q：最近 "token 出海 "" 电力出海 " 的概念很火，强调的是国产能源优势的系统变现，这在商业模式上可行吗？

A：今天讲 token 出海的人，不知道是不是故意忽略了一个点。他只算了电力成本，但电力成本在 Token 成本里占不到 10%，算力成本才是最核心的。但中国的算力现在有优势吗？没优势。我们自己算力都不够用。

未来随着我们国家的芯片水平提高，这种愿景可能会实现，但显然不是当下的命题。

宙世代

一起剪

相关标签