世界模型元年启示录：动机、乱战与暗礁

文 | 智械岛，作者 | 霍如筠（北京）

4 月 16 日，阿里巴巴发布了开放式世界模型 Happy Oyster，腾讯开源了 3D 世界模型 HY-World 2.0。

同一天，两家中国互联网巨头宣示了自己在世界模型赛道上的存在感。

此前不到一个月，李飞飞的 World Labs 刚完成 10 亿美元融资，Yann LeCun 的 AMI Labs 更是以 10.3 亿美元的种子轮震惊硅谷。

资本、巨头、创业者蜂拥而入，一个响亮的口号迅速传遍行业：世界模型是大语言模型之后最重要的赛道。

但如果你真的去问这些玩家 " 世界模型到底是什么 "，很可能会得到一堆彼此矛盾的回答。

有人说是 " 可交互的 3D 世界 "，有人说是 " 理解物理规律的因果模型 "，有人说是 " 机器人训练的数字仿真器 "，还有人干脆说 " 就是更高级的视频生成 "。

这不是学术讨论的分歧，而是整个赛道正在经历的认知混乱。

这篇文章试图理清这场混乱。我们会从三个层层递进的问题入手：为什么所有大厂突然都在押注世界模型？他们的产品到底在做什么，哪些是实、哪些是虚？以及，那些被光环掩盖的困境和模糊地带，究竟有多深？

一、为什么突然 All in 世界模型？

要理解世界模型为何突然爆火，得先回到大语言模型的一个尴尬事实。

过去两年，ChatGPT 们展示了惊人的语言能力，也暴露了一个致命短板：它们不懂物理世界。

你问一个 LLM" 把杯子从桌子边缘推下去会怎样 "，它能回答 " 杯子会掉到地上 "，却并不能真正理解重力、加速度、碰撞，它只是从训练数据中记住了类似的句子。

2026 年初的一项研究指出，幻觉不是数据问题，不是训练问题，而是 LLM 架构的内在缺陷。

这个缺陷在纯文本任务中或许可以忍受，但当 AI 要进入真实世界：操控机器人、驾驶汽车、在工厂里作业，它就变成了一个无法绕过的坎，你不能让一个自动驾驶模型 " 大概正确 " 地判断前方障碍物，也不能让一个工业机器人 " 差不多 " 地预测零件运动轨迹。

于是，一个更根本的需求浮出水面：我们需要一个能理解物理世界因果律的 AI。

它不只要能说，还要能做；不只要看见，还要能预判。这就是世界模型被推到聚光灯下的根本原因。

大语言模型改变了人和信息的关系，而世界模型要改变的，是人和现实的关系。

过去两年 AI 的商业化主要停留在信息处理，写文案、做翻译、生成代码，但下一波增长引擎显然在物理世界：具身智能、自动驾驶、智能制造。

这些场景的共同要求是：AI 必须理解空间、预测动态、规划动作。

所以，大厂押注世界模型，本质上是在争夺 " 后 LLM 时代 " 的技术制高点。谁先让 AI 真正理解物理世界，谁就能在下一轮产业周期中占据主导。

国内外玩家的打法截然不同。

美国那边，DeepMind、World Labs、AMI Labs 更像是在做基础科学。

他们关心的是如何让 AI 拥有像人类一样的物理直觉和因果推理能力，商业化是远期目标。Yann LeCun 自己都承认，AMI 的产品可能要几年后才能看到。

中国则是另一番景象。阿里和腾讯几乎在发布模型的同时就绑定了商业场景：Happy Oyster 瞄准影视制作和游戏开发的付费用户，HY-World 2.0 直接输出可导入 Unity/UE 的 3D 资产，做起了 AI 造世界的生意。

还有 Sand.ai 的 VidMuse，围绕音乐生成视频这个细分场景，上线几个月就做到了千万美元级别的年收入。

中国团队的逻辑很务实：世界模型首先得是一个能赚钱的产品。

这两种路线没有高下之分，但决定了各自的节奏和风险。美国团队敢于押注十年后的突破，中国团队则必须在一年内看到回报。

问题是，当所有人都挤在同一个热词下喊口号时，局外人很难分清谁在做什么。

二、关于技术标准的拷问

花时间看完各家产品的介绍，你很可能会陷入更大的困惑。因为每个世界模型长得都不一样，它们的底层逻辑甚至彼此矛盾。

先来看最反直觉的一派。Yann LeCun 的 AMI Labs 走了一条很少有人敢跟的路，他们不认为 AI 需要生成逼真的画面。

LeCun 的 JEPA 架构刻意丢弃像素细节，只在抽象的隐空间里做预测。最新发布的 LeWorldModel 只有 1500 万参数，单 GPU 几小时就能训练完，但规划速度比传统方法快了 48 倍。

缺点是，它的输出人类看不懂，你不能 " 看到 " 它预测的未来，只能相信它算对了。

这是一个纯粹的学术路线，离普通用户很远，但 LeCun 赌的是：真正的智能不需要模拟每一片树叶的飘落，只需要理解 " 风会吹落树叶 " 这个因果。

另一条路来自李飞飞的 World Labs。李飞飞相信，智能必须建立在三维空间的显式理解之上。她的 Marble 模型能从一张照片或一段文字生成一个可编辑、可导航的 3D 世界，用户可以在里面自由移动视角。

World Labs 还开源了渲染引擎 Spark 2.0，让普通浏览器都能流畅加载上亿个 3D 点。

一个坦诚的评价是：Marble 擅长重建空间的样子，但对空间中会发生什么的理解还比较薄弱。

你可以走进它生成的房间，但你推不动里面的椅子，也打不翻桌上的杯子。它是一个静态世界的复刻者，而不是动态物理的模拟器。

最热闹的阵营当属生成派。谷歌的 Genie 3、阿里的 Happy Oyster、腾讯的 HY-World 2.0 都属于这一类。

他们的逻辑是：只要生成的画面足够逼真、交互足够流畅，物理规律自然会被学出来。

阿里在 Happy Oyster 里做了一个很有意思的功能叫导演模式，用户可以在视频播放的过程中随时输入文字指令，改变剧情走向、切换镜头角度。腾讯更务实，直接输出可二次编辑的 3D 资产，让游戏开发者可以导入 Unity 或 UE 引擎里直接用。

但这类产品有一个共同的软肋：长时序一致性和物理准确性仍然不稳定。

Genie 3 的演示很惊艳，但几分钟后画面就开始走样。阿里的漫游模式目前只能支持 1 分钟的连续位移，超过这个时间会发生什么？官方没说。

腾讯的 3D 资产在单一场景下看起来不错，但它的优势主要体现在场景完整度和对输入图片的遵循程度，这些都是 " 看起来像 " 的指标，而不是 " 物理上对 " 的指标。

最后还有一个特殊的玩家：英伟达。Cosmos 平台不生产世界模型，它生产 " 生产世界模型的工具 "。

数据处理管线、视频分词器、预训练基础模型，全部免费开放下载。黄仁勋的算盘很清楚：无论哪条路线最终胜出，训练和推理都需要英伟达的 GPU。

这是最聪明的生意，不赌方向，只赌算力。

那么，这些世界模型哪些是名副其实的？一个关键的技术标准是：真正的世界模型必须是 " 动作条件化 " 的，也就是说，输入一个动作，模型要能输出世界状态的变化。

你用键盘按 "W"，画面里的视角应该向前移动；你给机器人一个抓取指令，模型应该预测物体的位置变化。

按照这个标准，李飞飞的 Marble 就不太合格，用户只能看，不能做。它更像一个 3D 重建工具，而不是世界模拟器。

谷歌的 Genie 3 和阿里的 Happy Oyster 虽然支持交互，但物理准确性存疑。腾讯的 HY-World 2.0 输出的是静态资产，本身就不涉及动态预测。

换句话说，目前市场上几乎没有一家达到了 " 完美物理世界模拟器 " 的标准。每家都在自己的能力范围内，选择了一个可展示、可商业化的切入点。

这本身没有错，错的是大家都在用 " 世界模型 " 这个模糊的大词来包装自己，让外界误以为他们已经解决了所有问题。

三、那些被刻意回避的模糊地带

只读各家公司的新闻稿，会觉得世界模型已经进入了规模化落地的前夜，但一些被忽略的细节拼出了一幅截然不同的图景。

数据问题首当其冲。训练一个真正的世界模型，需要海量的 " 观察、动作、结果 " 三元组，但现实中没有这样的现成数据集。

有人用游戏数据，动作标签完美，但游戏里的物理是引擎模拟的，不是真实物理。

有人用人类第一人称视频，最接近真实世界，但视频里没有动作标签，而且人的头部运动和手部动作纠缠在一起，模型根本分不清是谁在动。

还有人用真实机器人遥操作数据，保真度最高，但采集一小时数据可能要花费数万美元，根本跑不起来规模。

这意味着每个世界模型都有天生的 " 能力边界 "。

评估真空是另一个麻烦。你打开任何一家世界模型公司的官网，几乎都能看到 " 登顶全球权威评测榜第一 " 的标语。

问题是，这些评测榜单本身就不成熟。有的侧重视觉逼真度，有的侧重物理准确性，有的侧重任务完成率。一个在视觉榜单上拿第一的模型，可能在物理榜单上垫底。

这种标准的不统一，让各家可以各说各话。普通人根本搞不清这到底是同一个榜单的不同类别，还是营销话术的巧妙编排。

还有一个被刻意回避的 " 不可能三角 "。

世界模型面临三个相互制约的指标：空间尺度、视觉保真度、实时交互性。

你不可能同时做到 " 世界很大、画面很清晰、交互很流畅 "。李飞飞的 Marble 就是最好的例子：1.1 版本画质好但空间范围有限，1.1-Plus 版本能生成大场景但画质发糊。

昆仑万维的 Matrix-Game 3.0 能做到 720P 下 40FPS 的实时生成，但演示场景的风格和复杂度都很有限。

几乎没有产品会主动承认自己的短板，它们更倾向于展示最优工况下的演示视频，而把极限条件下的失败藏起来。这种选择性展示正在制造一个危险的泡沫。

最后，资本的狂欢也带来了新的投机风险。

一个值得注意的现象是，资本从追捧 " 大厂老兵 " 转向押注顶尖高校的年轻学者。逆矩阵科技的两位创始人，一个 98 年、一个 04 年，来自北大，首轮融资超千万美元。

他们的技术路线是 " 强化学习 + 世界模型 "，目前只有论文，没有产品。这不是说年轻人不行，而是说在范式混沌期，资本愿意为 " 定义下一代技术 " 的可能性支付极高的溢价。

但大多数这样的实验室项目，最终无法跨越 " 论文→产品 " 的鸿沟。Yann LeCun 这样的图灵奖得主都承认商业化要等几年，更何况是刚毕业的博士生？

四、结语

世界模型的目标，是让 AI 能够预测甚至干预物理世界。那么，如果 AI 的预测错了，谁来承担责任？

设想一个场景：一辆自动驾驶汽车的世界模型在仿真中 " 想象 " 出一个不存在的障碍物，导致车辆紧急刹车，被后车追尾。

这个锅应该甩给算法工程师，还是仿真数据的提供方？

再设想：一个工业机器人的世界模型错误预测了零件的运动轨迹，撞坏了整条生产线。保险公司的理赔标准是什么？

更极端的场景：有人用世界模型生成了一个逼真的虚假 3D 灾难视频，在社交媒体上引发恐慌。平台有没有审核义务？法律如何界定这种 " 虚拟与现实混淆 " 的伤害？

这些问题，目前没有任何一家公司、任何一个国家给出了清晰的答案。世界模型的伦理框架和法律边界，远远落后于技术的发展速度。

当资本和媒体聚焦于 " 谁能造出最逼真的虚拟世界 " 时，一个更根本的问题被搁置了：我们真的准备好了吗？

这或许才是世界模型赛道最被低估的变量。不是算力，不是数据，不是算法，而是责任。

宙世代

一起剪

相关标签