训练仍有巨大的Scaling空间！智源研究院王仲远：视频数据还未被充分利用

全球互联网的文本数据已基本挖掘完毕，但视频数据还未被充分利用。

智源研究院的多模态世界模型悟界 · Emu3.5，就是一个从视频中学习，而非仅依赖文本的大模型。

在量子位 MEET2026 智能未来大会上，北京智源人工智能研究院院长王仲远提到：

当前人工智能正处于第三次浪潮的关键拐点：大模型不仅推动AI 从弱智能向通用智能跨越，更有望让机器人从 1.0 专用时代迈入 2.0 通用时代。

为此，智源研究院发布 " 悟界 " 系列大模型，锚定AI 从数字世界进入物理世界的核心方向。

智源的 Emu3.5 与具身大脑全栈技术体系，就成为支撑这一技术演进趋势的两大基石。

MEET2026 智能未来大会上，王仲远还说，要实现 AI 与物理世界的深度交互，需突破多模态理解与具身执行的核心技术瓶颈。

目前，悟界系列已在多模态学习范式、跨机器人本体适配等领域取得关键进展，且多项成果已开源开放，助力产业协同创新。

为了完整体现王仲远的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。

MEET2026 智能未来大会是由量子位主办的行业峰会，近 30 位产业代表与会讨论。线下参会观众近 1500 人，线上直播观众 350 万 +，获得了主流媒体的广泛关注与报道。

核心观点梳理

当下人工智能处于第三次浪潮的重要拐点，大模型推动其从弱人工智能迈向通用人工智能，推动机器人从 1.0 专用机器人时代进入 2.0 通用具身智能时代。

视频是能够大规模获得的模拟真实世界的高效载体，同时包含时间、空间、物理、因果关系以及意图等各种要素。

2025 年往后，第三代 Scaling 范式的关键在多模态。智源研究院的悟界 · Emu3.5，通过统一的自回归架构，将大语言模型的 Next-Token Prediction 升级为在多模态数据上进行 Next-State Prediction，预示着 AI 从语言学习迈入多模态世界学习的新阶段。

目前的具身大模型依然是不好用、不通用、不易用。不好用，指的是具身大模型还没有达到 ChatGPT 时刻；不通用，指的是很多模型只能适用一个本体或者同一个品牌的本体；不易用，指的是大脑、小脑以及本体之间的适配度还是不够高。

智源研究院从成立起坚持开源开放，过去两年多开源 200 多个模型，涵盖语言模型、多模态模型、具身模型等，全球下载量突破 6.9 亿次；开源 100 多个数据集，涵盖语言、语音、图像、视频和具身智能等，全球下载量超过 400 万次，仅在 11 月底开源的一个具身数据集下载量已超百万次。

……

以下为演讲全文。

从数字世界到物理世界：AI 迎来第三次浪潮关键拐点

今天想和大家分享的是智源研究院在 " 推动人工智能从数字世界迈向物理世界 " 上的一些最新科研进展。

我们知道当下人工智能正处于第三次浪潮中的重要的拐点。

过去几年，大模型的爆发让 AI 从原来的弱人工智能时代迈向通用人工智能时代，也有望推动机器人从 1.0 时代进入到 2.0 时代，也就是从专用的机器人到通用的具身智能。

基于对这一趋势的预判，在今年的智源大会上，智源研究院也发布了 "悟界 " 系列大模型。

如果说四年前所发布的 " 悟道 " 系列大模型开启了中国大模型时代—— " 悟道 " 的 " 道 " 代表我们对大语言模型方法和路径的探索，那么 " 悟界 " 系列大模型代表了我们对于人工智能从数字世界进入到物理世界这一趋势的判断—— " 悟界 " 的 " 界 " 代表智源对于虚实世界边界的不断突破。

今天我想重点跟大家分享两方面的进展：

一个是在我们在多模态世界模型上的突破，另外是具身大脑的全栈技术体系的成型。

Emu3.5：从长视频中学习物理世界动态

在今年的 10 月 30 日，智源研究院发布了悟界 · Emu3.5，这是一个多模态的世界模型的基座。

Emu3.5 用一个单一的 Transformer 基座能完成多样化的能力，它跟其他一些大模型最重要的区别是，它是从长视频中进行学习。

我们知道文字和语言是人类智慧的结晶，是人类知识的总结。大语言模型的成功得益于从文字中学到了智能，学到了逻辑推理的能力，但全世界只有一个互联网，文本的数据已经被基本使用殆尽，这也是为什么这一两年可以看到像大语言模型的预训练已经开始进入到比较缓慢的阶段。

另外一方面，如果人工智能要从数字世界进入到物理世界，不仅仅需要理解文字，还要理解整个世界运行的规律，需要能够处理图像、声音等各种各样模态的信息。

视频是目前能够大规模获得的，同时包含时间、空间、物理、因果关系、意图等各种要素的、能够高效模拟真实世界的载体。

我们知道大语言模型最重要的能力是对下一个词元（Next-Token）进行预测，Emu3.5 一个非常重要的能力，就是从长视频中来进行学习，也正是由于这样的训练范式，使得我们能够从 Next-Token Prediction 升级到 Next-State Prediction，能够对下一个时空状态进行预测。

我们相信人工智能在未来这几年会从 " 语言学习 " 进入到 " 多模态世界学习 " 的新阶段。

为了实现这一目标，对比上一个版本，Emu3.5 在各方面都有了大幅提升，比如训练数据集中视频的总量，从原来的 15 年上升到了 790 年，参数量从原来的 8B 提升到了 34B。

Emu3.5 所采用的是全自回归的架构，自回归架构与 Diffusion 和 Diffusion Transformer 的架构相比，其实在图像、视频等多模态的生成速度上，是有比较明显劣势的，但在 Emu3.5 中，通过我们自研的 DiDA 技术，每一张图片的生成速度能够提升约 20 倍，使得自回归模型文生图速度与世界顶级模型模型媲美。

基于以上突破，我们相信 Emu3.5 开启了第三个的 Scaling 范式。

刚才前面两位演讲嘉宾也提到，现在整个 Scaling 确实进入到缓慢的阶段。前几年是大语言模型的预训练的 Scaling，过去这两年是后训练的 Scaling，在多模态这块，由于我们知道海量的多模态数据还没有被有效地使用，因此依然有非常大的 Scaling 的空间。

更为关键的是，像 Emu3.5 采用的是自回归的架构，因此能够复用现有所有针对大语言模型的基础设施，并且 Emu3.5 现在才只是 34B 的模型，对比大语言模型依然有千亿、万亿的广阔空间。

目前，Emu3.5 科研体验版已经向公众开放，欢迎大家体验。

这里我也简单介绍一下，请看大屏幕中展示的 Emu3.5 生成的例子。文生图方面，模型可以生成非常精美的图片，各种细节非常丰富。在图像编辑任务中，Emu 3.5 展现了非常强的多模态理解能力。

比如说在左上角的例子，我们给了一个指令，" 把问号的区域换成合适的颜色 "，模型能够通过语义推理填充符合逻辑的颜色；再比如中间的例子，指令是 " 将批改的卷子还原，把手写的部分去除 "，这要求模型首先要识别出哪些属于手写的部分。右下角的例子里，我们给了一张图片，要求 " 换成一个俯瞰的视角 "，模型非常好地展示出俯瞰视角的形象。可以看到，Emu3.5 具备了很好的多模态推理和视觉理解能力。

近期，像 Gemini 3 pro 和 Nano Banana pro 相继发布，在业界引发关注，其实之前我们把 Emu3.5 跟 Nano Banana 第一代做了对比，能力旗鼓相当。针对最新发布的 Pro 版本，我们正在进行各项能力的评估与测试，这边展示其中部分结果。

在一些虚拟转现实、尤其涉及到时间空间下一个状态预测的任务上面，Emu3.5 的表现可圈可点。

比如说在这个例子里，将摩托车的模型草稿图转成现实，我们可以看到 Nano Banana 还是做了很多偏离原图的 " 自由发挥 "，观察细节可以看到与原图的差异还是比较明显的。Emu3.5 则更好地保持了一致性。

再比如说左右视角转换，因为 Emu3.5 是从视频中学习，它对物理世界，对于时间、空间、物理的知识有了更加充分地理解，所以能够达到更好的理解和生成的效果。对于预测下一个状态的任务，从下面这个例子可以非常明显地看出来，Emu3.5 预测状态的正确性和逻辑性具有显著优势。

除了图像生成和图像编辑以外，Emu3.5 还具备长时空序列的视觉故事生成，视觉指导（图文说明书）生成的能力，所有这些都是 " 世界模型 " 的核心要素。大家可以通过 Demo 了解更多。

更为关键的是，Emu3.5 是全开源的模型。

具身大脑全栈技术：破解机器人 " 不通用、不易用 " 难题

Emu3.5 解决的是世界基座模型的能力，人工智能要进入到物理世界，很重要的是跟硬件结合，像具身智能。

在具身智能上，智源研究院主要通过在数据和模型上进行破局，我们知道现在整个具身大模型依然不好用、不通用、不易用。

" 不好用 " 是指具身大模型上没有迎来 "ChatGPT 的时刻 "，" 不通用 " 是指很多模型只适用于一个本体或者同一个品牌的本体，" 不易用 " 指的是大脑、小脑以及本体之间的适配难度还是比较高的。

今年我们智源研究院构建了以具身大脑Robo Brain为核心，自底向上的全栈的技术体系。

比如说，我们能够实现跨各种机器人异构本体的数据采集以及数据标准化。在此基础上，构建了具身大脑模型、具身小脑 VLA 基座模型，以及具身智能评测、端云协同部署框架等，所有这一切都能够为整个产业加速发展，起到实质性的助力作用。

在今年智源大会上，我们还发布了RoboBrain2.0的版本，展示了模型能够将人类复杂指令进行拆解，根据现场空间环境分解指令，并且分配给不同类型的机器人进行执行的具身大脑的能力。

同样，这种交互与理解能力，其实不仅仅用在执行上，在导览导购一些场景也有非常多的可以落地的应用。

在 9 月份的时候，我们也发布了具身小脑的基座模型，RoboBrain-X0，这是一个能够在零样本泛化、少量样本微调条件下，驱动多种不同真实机器人完成复杂任务的跨本体基座大模型。11 月 20 日的智源具身开放日上，我们发布了升级版 X0-Pro，能够执行更加复杂的指令。

在人形机器人领域，全身控制也是非常重要的能力。前两个月大家可能有在网上看到一条非常火的视频，我们用一个 35 千克的 G1 机器人拉动 1.4 吨的汽车。背后驱动这台机器人的，就是全身控制框架 BAAI Thor，它也驱动机器人实现了连续 28 个空翻的高难度全身控制。

开源开放

在 11 月 20 日的智源具身开放日上，我们也开源了一个高质量的双臂操作数据集，短短 20 天内全球下载量突破了 130 万次，我想，这就是智源研究院对于整个行业实实在在的贡献。

当然不仅仅在具身智能，实际上智源研究院从成立的第一天开始，就坚持开源开放。

我们在过去两年多开源了 200 多款模型，涵盖大语言模型、多模态模型、具身模型等，全球下载总量已经突破了 6.9 亿次。数据集也开放了近百个，涵盖语言、语音、图像、视频和具身智能等，全球下载量超过了 400 万次。

除了开源，我们也积极跟产业里的各方进行合作，比如在具身智能上，智源现在已经跟国内头部 30 余家机器人企业和机构开展合作，我们也希望能够与更多的大公司和创业公司开展合作，共同推动具身智能世界模型的发展。

以上就是我的分享，谢谢大家。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签