让世界模型推理效率提升70倍：上海AI Lab用“恒算力”破解长时记忆与交互瓶颈

当视频生成开始尝试构建可交互的 " 世界模型 "，真正的瓶颈正逐渐从画质指标转向如何在长时间、强交互下持续记住这个世界。

上海 AI Lab 联合多家机构开源的 Yume1.5，针对这一核心难题提出了时空信道联合建模（TSCM），在长视频生成中实现了近似恒定计算成本的全局记忆访问。

借助这一设计，Yume 将长时记忆、实时推理与 " 文本 + 键盘 " 的交互控制整合进同一系统，展示了世界模型工程化落地的可行路径。

在生成式人工智能从静态图像向动态视频迈进的浪潮中，构建能够理解物理规律、具备长期记忆并支持实时交互的 " 世界模型 "（World Model）已成为通往通用人工智能（AGI）的关键路径。

上海 AI Lab 联合多所顶尖机构在 7 月份开源了Yume1.0，这是第一个完全开源的面向真实世界的世界模型（包括数据、测试集、训练 / 推理代码和权重），并且在近期推出了Yume1.5。

Yume 项目是一个持续迭代的世界模型，引入了核心架构创新——时空信道联合建模（TSCM）。

该框架通过统一的上下文压缩与线性注意力机制解决长视频生成的记忆瓶颈；设计了基于TSCM与Self-Forcing结合的实时加速策略。

Yume 的核心设计

Yume 的核心设计在于三个层面：

1. 数据：通过开源和引入 Sekai 数据集训练（覆盖全球 750 个城市、累计时长达 5000 小时的高质量第一人称（POV）视频数据）。

此外，Yume1.0 引入了一种量化相机轨迹方法，能够将现实世界的运动转换为离散的键盘按键。

同时 Yume1.5 额外引入了高质量的 T2V 合成数据集，并且为了实现 " 事件生成 "（如 " 突然出现幽灵 "），团队构建了一个专门的事件数据集。

人工构造：招募志愿者编写涵盖日常、科幻、奇幻、天气等四大类的事件描述，并且用这些事件合成数据集。

VLM 重标注：利用 InternVL3-78B 对 Sekai 数据进行二次标注。将原本描述背景的 Caption 改写为关注动作和事件的 Caption，实现提示词变化。

2. 架构：提出了 TSCM 等架构，将历史帧在时间、空间和通道三个维度进行压缩，将长上下文推理的复杂度降低。

3. 交互：构建了 " 文本 + 键盘 " 的双重控制体系。用户不仅可以通过 WASD 键控制漫游，还能通过自然语言实时编辑环境事件。

时空信道联合建模（TSCM）

Yume1.5 的技术核心在于解决长视频生成中的记忆与计算矛盾，提出了 TSCM 架构。

1. 上下文爆炸问题

标准的 Self-Attention 机制计算复杂度过高。

( 1 ) 存储所有历史 Token 的 KV Cache 会瞬间耗尽 GPU 显存。

( 2 ) 每一帧的生成时间会随着历史长度线性增加，无法满足实时交互需求。

2. TSCM 的压缩机制

TSCM 通过将历史信息分流处理，巧妙地规避了上述瓶颈。它包含两个并行的压缩流：时空压缩和通道压缩。

时空压缩：

这一流主要负责保留视觉细节，通过对历史帧进行不同程度的时空下采样来减少 Token 数量。

这个方法参考了 FramePack 的设计：近期的记忆清晰，远期的记忆模糊。首先对历史帧数按照每 32 帧进行随机的时序采样，以压缩时序信息，然后执行空间压缩。

这种自适应策略，使得模型在关注当前帧生成时，能够以极低的代价访问到很久以前的上下文信息。

通道压缩：

虽然时空压缩减少了 Token 数量，但在处理超长序列时仍显吃力。为此，Yume1.5 引入了通道压缩，配合线性注意力机制。

通道压缩：将历史帧的通道维度从标准维度（如 1024 或 768）强制压缩至 96。

线性注意力：线性注意力的计算量更依赖于通道维度，由于通道被压缩到了 96，这一项变得非常小。这使得模型几乎以恒定的计算资源处理增长的历史信息。

特征融合：

DiT 模块内部设计了的融合层，将时空压缩提取的特征与通道压缩提取的特征进行拼接和融合。

3. 推理与训练加速策略

Yume1.0 和 Yume1.5 在推理加速方面进行了优化。Yume1.0 引入了OSV（一种对抗蒸馏方法）以加速扩散模型的采样。

Yume1.5 引入了类似于Self-Forcing的训练策略。在微调阶段，不再给模型输入真实的上一帧，而是让模型先生成上一帧，再将其作为条件输入来预测当前帧。

与Self-Forcing不同的是，Yume1.5 引入了 TSCM 替换了滑动窗口的 kv cache 以获得全局的上下文输入 , 这种方式训练非常高效，训练长度为 64 帧即可外推到近半分钟的视频。

提示词解耦

为了提高推理效率，Yume1.5 并未将所有文本信息送入编码器。它创造性地将提示词解耦为事件描述和动作描述。

动作描述：如 " 向前走 "、" 向左转 "。这类描述词汇量有限且固定。系统预先计算并缓存了这些动作的 T5Embedding，无需重复进行繁重的文本编码计算。为了让用户的键盘操作能够精确控制视角，Yume1.5 定义了一套详细的动作词汇表。

事件描述：描述生成信息。这类描述仅在初始化或用户输入新指令时通过 T5 编码器处理一次。

这种解耦与缓存策略，显著降低了 T5 文本编码器在实时推理中的计算占比。

性能评测

1. 指令跟随：Yume1.5 的 IF 得分高达 0.836。这直接证明了控制方法的有效性。

2. 生成速度：从 Yume1.0 的 572 秒缩短至 8 秒。

消融研究：

TSCM 的有效性：移除 TSCM 改用简单的空间压缩后，指令跟随能力从 0.836 降至 0.767。此外，TSCM 使得自回归推理时间随上下文增加保持稳定（在 8 个 block 后每步推理时间恒定）。

全面开源

Yume 的模型权重、推理代码、训练代码以及 Sekai 数据集全部开源。

为了方便使用和测试 Yume-5B，Github 主页提供了 Windows 下的一键启动方案来运行 Web Demo。

只需运行 run_oneclick_debug.bat，然后在浏览器中打开显示的 URL 即可。该程序已在 RTX4090Laptop GPU（16GB）上测试通过。

局限性

物理逻辑缺失：模型缺乏物理引擎支撑，偶发因果谬误（如倒行）及长周期细节漂移，TSCM 仅起到缓解作用。

模型规模权衡：当前使用 5B 模型妥协实时性。为突破瓶颈（如迈向 30B+ 规模），未来将采用 MoE 架构以兼顾高性能与低延迟。

展望

Yume 和数据集的开源，期望能加速世界模型的研究。随着技术的迭代，我们有理由相信，在不远的将来，区分 " 真实 " 与 " 生成 " 的界限将变得愈发模糊。

论文链接：https://arxiv.org/pdf/2512.22096

开源代码：https://github.com/stdstu12/YUME

主页链接：https://stdstu12.github.io/YUME-Project

数据链接：https://github.com/Lixsp11/sekai-codebase

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签