从自动驾驶到物理AI，Momenta 在下多大一盘棋？

物理 AI 的 " 门票 " 之战，已经打响。

文｜周享玥

编｜赵艳秋

6 月 23 日，Momenta 在港交所披露聆讯后资料集，港股上市进入最后冲刺阶段。

这家公司给自己的定位很特别，不是传统意义上的 " 自动驾驶公司 "，而是一家 " 物理 AI 公司 "。言下之意，它要做的不仅是让车自己开，更是让 AI 理解这个世界是怎么运行的。目前，Momenta 在第三方城市 NOA 市场销量市占率达 65%，稳居第一。一旦顺利上市，它将成为 " 物理 AI 第一股 "。

这不是单独一家公司的故事，它折射的是整个 AI 行业的叙事切换：过去几年，大语言模型是绝对主角，数字世界的智能化以超乎想象的速度推进。而现在，当数字 AI 的边界逐渐清晰，下一个更宏大的战场已经浮出水面——物理 AI。打开这扇大门的钥匙，叫世界模型。

在所有奔向物理 AI 的玩家里，自动驾驶暂时领先半个身位，因为它是目前唯一同时跑通数据闭环和商业闭环的赛道。但这半个身位能不能守住，押的是在路上训出来的这颗大脑，到底能不能 " 下车 "。

元年已至，世界模型为何非建不可？

2026 年被频繁称为 " 物理 AI 元年 "，几乎所有 AI 玩家都涌向同一个方向——世界模型。行业人士告诉数智前线，作为物理 AI 的底层底座，世界模型将于今明两年全面进入训练高峰期。

资本和巨头动向最能说明问题。海外，英伟达刚推了物理 AI 基础大模型 Cosmos 3，特斯拉在搞神经网络世界模拟器，李飞飞、杨立昆创立的公司也双双押注世界模型。国内，阿里、腾讯已下场布局，智元机器人等具身智能企业同步自研世界模型，自动驾驶出身的 Momenta 在今年 4 月推出 R7 世界模型；创业端，极佳视界一月内连拿两轮共 25 亿元融资，VAST、流形空间、千诀科技等也相继完成融资。

世界模型究竟是什么？与大语言模型区别何在？简单来说，大语言模型处理的是文本和图像信息，教 AI 理解数字世界；而世界模型还要处理空间、运动、因果、交互等物理规律，让 AI 理解真实物理世界。这是一个量级更大的难题，也意味着更大的价值潜力。一旦跑通，将从根本上重塑工业制造、家庭服务、自动驾驶等所有物理场景的智能化边界。

到今天，世界模型仍然没有一个统一定义。不同流派各有各的理解和技术路线。自动驾驶企业从海量行驶数据切入，在真实路况中训练对物理世界的认知；具身智能公司以机器人为载体，在复杂真实场景中摸爬滚打攒数据；视觉模型公司从视频生成与预测出发，试图从第一视角画面中还原世界规律；英伟达、OpenAI 这类 AI 巨头，则站在更底层的视角搭建通用平台。

尽管路径各异，行业今年聚焦的问题高度一致——提升泛化性。有企业提出，核心方向是训练出泛化能力达到 60% 左右的基座模型，进入具体场景后只需少量数据就能快速适配。而实现泛化绕不开一个前提：数据。没有数据，算法与算力都无从谈起。这也是为什么今年所有做世界模型的公司，几乎都在干同一件事——下到场景里，造数据回流的闭环。

" 我们会尽快面向所有场景，按 60% 家庭、30% 商用、10% 工业齐头并进。" 一家具身智能企业向数智前线透露，已组建数千人的数采团队，今年目标百万小时采集，明年冲击上千万小时。有企业在考察商场文旅，重点铺设交互型机器人，比如人类拿一瓶水只需两三秒，机器人可能需要十五到三十秒，但交互过程本身就在回传数据。也有企业将机器人搬进无人零售、无人药店，以及汽车厂、电池厂的料箱搬运、分拣等场景。甚至有企业提出借助乒乓球机器人，在工会、学校等场景边陪练边采集。就连海外企业也开始在全球设厂，期望形成数据闭环。

数据采集方式也在快速进化，形成分层互补的数据金字塔。过去，主流方式是真机遥控操作，精度最高但设备昂贵、难以规模化。今年，穿戴式 UMI 设备数据和人类第一视角视频（Ego）数据相继崛起，采集员佩戴可穿戴设备即可记录操作轨迹，便于 " 众包 "，低成本且泛化性更强。另外，业界也在重点采集 " 机器人自主探索 + 人工纠偏 " 的开放环境交互数据，让机器人先尝试，失败时人再兜底纠正，这类数据因接近真实世界的学习路径反而更有价值，甚至有企业以 1.5 倍价格收购这类 " 不成功 " 案例数据。

行业已形成明确共识：未来 18 至 24 个月，跑通数据采集闭环是头号工程。智元机器人罗剑岚认为，率先在便利店、商超、仓储等半结构化场景中跑通 " 部署—数据—迭代 " 正向循环的团队，将建立先发优势。因为数据飞轮一旦转起来，就是护城河。好比特斯拉，当年投入巨大去做自动驾驶采集，现在几百万辆车在路上跑，实时回传数据。

换到世界模型赛道，同样如此，谁先下到场景、跑通数据回流，谁就离门票更近一步。这也是为什么 Momenta 要将自己定位为 " 物理 AI 公司 "，而非单纯 " 自动驾驶公司 " 的原因之一。

双闭环壁垒：自动驾驶流派为何先拿到门票

通往物理 AI 的赛道不止一条，但跑通数据回流，只是拿到门票的必要条件。所有流派都看到了数据的价值，也都在往场景里扎，但分野还在于：谁能在烧钱跑闭环的同时活下来。物理 AI 是条吞金赛道，数据飞轮之外，还得有持续的现金流兜底。按这个标准筛下来，自动驾驶或许已经成为目前最明朗的阵地。这也是为什么黄仁勋会在 CES2026 上断言，" 自动驾驶汽车将是第一个面向主流市场的大规模物理 AI 系统。"

Momenta CEO 曹旭东的洞察更深入一层：物理 AI 的胜负手在于两个闭环——数据闭环和商业闭环。二者是正反馈关系，先有数据闭环，才能把体验做到足够好，体验一旦接近或超过人类水平，就能触发爆发式商业化；而商业化反过来又会带来数据爆炸式增长，推动模型能力进一步跃升。这种正反馈一旦越过临界点，就是指数级加速。

这解释了 AI 领域一个屡屡上演的剧本：一项应用可能要经历十年甚至二十年的漫长爬坡期才能接近人类水平，但跨过门槛后，大幅超越往往只在一两年间发生。曾经的 AlphaGo、人脸识别都是如此。自动驾驶已经站在了这个临界点上，而通用机器人还在赶来的路上。自动驾驶也是目前唯一同时跑通两个闭环的物理 AI 赛道。换句话说，自动驾驶的领先背后，是它比所有人都早几年，同时拿到了油和发动机。

先看数据闭环。很多人觉得数据多就是壁垒，但原始数据更像含铁量极低的贫矿，只占价值链的 10%，剩下 90%，都来自一套能把贫矿变成富矿，再炼成钢铁、加工成发动机，最终装到车上让车跑起来的完整数据飞轮体系。如何捞出真正有价值的数据，怎么标注、清洗、训练、验证、部署？每一步都是系统化架构与组织能力的竞争。业界已经形成共识，数据必须分层，各公司都在搭建各自的数据管线，以实现更快的数据回流与模型迭代。

自动驾驶流派的先发优势正在于此，当具身智能还在实验室里攒数据时，自动驾驶已经跑了千百亿公里，建立起了从采集到部署的整条管线。比如 Momenta，光量产车就有 90 万台，覆盖超过 100 款车型，每天在路上跑，源源不断回流数据。R7 世界模型之所以能在今年 4 月就量产首发，靠的也不是某个天才算法，而是其世界模型三层架构叠出来的体系能力。

预训练层，本质是给 AI" 上物理课 "。基于从 90 万量产车、超 120 亿公里实车里程中提炼出的 1 亿段黄金数据，将车速、刹车距离、转弯惯性等物理常识与因果关系压缩进基座模型，让 AI 形成对物理世界的基础认知。

中间的仿真层，负责给模型搭出一个虚拟练车场。系统基于真实数据生成闭环环境，在仿真世界里推演各种突发情况，尤其针对现实里少见、一旦出现却很危险的 " 长尾场景 "，效率比传统实车路测提升上万倍。而且和渲染生成的仿真不同的是，这是通过真实数据学习生成的世界，可通过实车与仿真的一致性做对齐和校准，有效缩小 simulation to real （仿真与真实世界）之间的 Gap。

强化学习层，则相当于给模型配一个 " 教练 "。在前两层基础上构建高度真实的虚拟训练场，让模型在千万次推演中反复试错，通过奖惩机制自己摸索出哪种做法更优，最终习得老司机般的驾驶能力，而不是单纯模仿。三层都以真实数据打底，缺一不可。

再看商业闭环。曹旭东认为：要迈过规模化 L4 的门槛，必须 " 有现金流业务 "，用今天的钱养明天的技术。这也解释了一个容易被忽略的事实，在物理 AI 这条赛道上，能不能活到终点，有时比跑得多快更重要。

Momenta 的 " 一个飞轮，两条腿 " 策略就是干这个的。一条腿踩在当下，用量产辅助驾驶换规模、数据和收入；另一条腿伸向未来，通过 Robotaxi、Robovan 乃至 Robotruck，把长期天花板打高。两条腿共用一套技术底座，量产车收集的海量数据持续喂养 L4 算法，L4 的技术突破又反哺量产车体验。

这套打法下，飞轮效应的加速肉眼可见：2022 年 Momenta 首个 10 万台量产用了 24 个月，如今最快不到 40 天就能交付 10 万台。收入也在快速增长，三年翻三倍：2023 年 7.43 亿，2024 年 13.25 亿，2025 年 24.13 亿。其中，许可收入三年翻了 42 倍，从 0.23 亿元大幅增长至 9.68 亿元，凭借高边际收益属性，正成为驱动营收持续增长的关键。截至去年底，公司现金储备已经突破百亿。

与此同时，Momenta 经调整年内亏损持续收窄，从 2023 年的 10.93 亿元下降至 2025 年的 3.03 亿元，占收入比重从 147.2% 降至 12.6%；而年内亏损从 2023 年的 25.7 亿元增至 34.58 亿元。

34.58 亿元的总亏损容易引起误读，其实主要源于可转换优先股的公允价值变动。该变动属于非现金项目，估值涨得越快这笔账面亏损越大，这也从一个侧面说明 Momenta 这几年估值水涨船高。等 Momenta 上市后，优先股转成普通股，这笔亏损中的大部分就会变成净资产。

数据闭环是燃料，商业闭环是引擎，Momenta 敢把自己改写成物理 AI 公司的底气就在这里。当很多企业还在为其中一个闭环挣扎时，自动驾驶已经两个都转起来了。

不止于驾驶，世界模型的真正野心在车外

Momenta 真正的野心，不止在车里，也在车外。

在自动驾驶场景，世界模型已经跑出了说服力。最具代表性的一幕，是夜间高速上前车突然掉落一箱苹果滚了满地。传统算法大概率只能识别到前方有障碍物，然后急刹车或绕开箱子，散落的苹果则很可能被直接压过去。而 Momenta R7 世界模型，不仅第一时间识别出了箱子，还预判了苹果滚落的轨迹与扩散范围，规划出精准绕行轨迹，一个苹果都没压到。这背后靠的是对物理运动规律的真正理解，而不是场景记忆。目前，首款搭载 R7 的量产车型上汽大众 ID. ERA 9X 已上市。

但如果你以为这些公司扎堆砸钱做世界模型，只是为了把辅助驾驶做得更好，那就低估了它们的野心。它们真正在下的是一盘更大的棋——先在自动驾驶这个最前沿的阵地上，把物理 AI 的通用大脑训练出来，再把这颗大脑快速泛化到任何需要与物理世界交互的载体之上。

以 Momenta 为例，其持续迭代的世界模型，不仅用在乘用车上，也会用到无人驾驶出租车（Robotaxi）、无人物流车（Robovan）与无人驾驶卡车（Robotruck）几大业务形态中，未来甚至可能延展到具身智能等领域。用曹旭东的话说：All-in-one platform，用一个大模型能够实现所有的自动驾驶垂直应用，并且做得更好。

曹旭东透露，这件事已经在乘用车、Robotaxi 和 Robovan 上得到了验证。带来的价值是双重的：成本端，每个垂直场景的研发成本大幅降低；能力端，每个场景的经验和数据又汇总吸收到大模型里，让每个垂直领域都做得更好。

" 这就是平台效应 "。曹旭东表示，这有点像十多年前的互联网行业，当年垂直电商和平台电商并存，但最终胜出的是平台。他判断，在物理 AI 领域，也存在很强的平台效应。谁先把通用底座做扎实，谁就能在各个垂直场景中快速复制、快速迭代。而 Momenta 所打造的世界模型，正在成为物理 AI 世界的基座模型。

未来，物理 AI 的终局竞争，并不局限于某一载体或某一场景，而在于是否拥有一颗能够理解物理世界的通用大脑。自动驾驶率先验证了这套系统的可行性，而它的下一个战场，将是更广阔的物理世界。

未经授权，禁止转载

进群、转载或商务合作联系后台

文章精选

万亿商业航天，先赚到钱的不是火箭

营销与交易增长，进入 Agent 时刻

千问用一张高考志愿表，撕掉 AI 的 " 玩具 " 标签

腾讯要在 Agent 找回自己的场子

智能清洁行业需要 " 长期主义 " 玩家

不比拼 Token 总量，华为云选择了一条更难的路

Agent 时代，到底需要怎样的数据库？

端侧算力起步：智能体电脑迎来六路玩家