CVPR 2026 世界模型论文全景梳理：从生成到建模的关键转变

在过去几年中，视频生成技术取得了令人瞩目的进展。从基于扩散模型的方法到大规模视频基础模型，生成结果在视觉质量上已经逐渐逼近真实世界。然而，当我们进一步审视这些模型时，一个更本质的问题开始显现：它们究竟是在"理解世界"，还是仅仅在"拟合像素分布"？

传统视频生成方法大多建立在 2D 图像空间之上，通过逐帧建模来合成动态内容。这种范式虽然在短时间尺度和视觉表现上表现出色，但也暴露出一系列根本性局限：相机运动难以精确控制，多物体交互缺乏一致性，长时间生成容易出现结构漂移，甚至在复杂场景中违背基本物理规律。这些问题的共同根源在于模型缺乏对"世界本身"的建模能力。

正是在这一背景下，"世界模型（World Model）"逐渐成为视觉生成与智能系统中的核心研究方向。与传统方法不同，世界模型试图构建一个能够统一描述空间结构、时间演化以及物理规律的内部表示，使模型不仅能够生成视觉内容，还能够进行推理、预测，甚至支持决策。从某种意义上说，这一转变标志着研究目标从"生成看起来真实的结果"，迈向"建模一个本质上合理的世界"。

这一范式的演进正在多个维度同时发生：在表示层面，从 2D 像素走向 3D/4D 几何结构；在建模目标上，从单纯生成扩展到因果关系、物理一致性与可交互性；在学习方式上，从依赖标注数据转向从真实世界视频中提取可迁移知识；而在评估体系上，也逐渐从单一视觉指标转向对"世界建模能力"的多维度衡量。

CVPR 2026 中的一系列工作，正集中体现了这一趋势。这些研究不仅在技术路径上各有侧重，有的强调 4D 几何建模，有的关注物理对齐与因果建模，有的探索从真实视频中学习世界知识，还有的致力于构建统一评测体系，更重要的是，它们共同指向一个核心目标：让模型从"生成工具"演化为"世界模拟器"。

AI 科技评论对这些代表性工作进行了系统梳理，从建模范式、控制能力、物理一致性、可扩展性以及评测方法等多个角度，解析当前世界模型研究的关键进展与内在逻辑，尝试回答一个更深层的问题：当我们谈论"生成世界"时，我们究竟在建模什么？

世界在模型里到底长什么样？

论文《VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control》是由复旦大学、香港大学联合 Tencent ARC（腾讯应用研究中心）研究团队提出的一项视频生成研究成果。

它主要针对当前视频生成模型的一个核心问题：现有方法大多在 2D 图像空间中建模，导致相机运动和多物体运动难以统一控制、且生成结果容易不稳定。

为了解决这一问题，论文提出了一种新的 4D 几何世界建模方法，将视频表示为"3D 空间 + 时间"的统一世界状态，而不是简单的逐帧像素生成。

在具体方法上，作者提出了一个关键技术：4D Geometric Control 表示。这个表示用静态背景点云来描述场景结构，用带时间信息的 3D 高斯轨迹来描述动态物体，从而构建一个统一的 4D 世界模型。

在这个世界模型基础上，再将几何信息转化为控制信号，输入到视频扩散模型中进行生成，使最终视频能够严格遵循设定的相机路径和物体运动。

这项工作的亮点主要体现在三个方面：首先，它实现了从传统 2D 像素生成向 4D 几何建模范式的转变，使视频生成更接近真实世界建模；

其次，它在同一框架下实现了对相机运动和多物体运动的统一、精确控制，相比以往依赖 2D 轨迹或边界框的方法更加灵活且一致；

最后，由于引入了显式的 3D 结构和时间约束，模型在时序一致性和稳定性方面显著提升，生成的视频在长时间范围内更加连贯、真实。

总体来说，这篇论文的核心贡献可以概括为：提出了一种基于 4D 几何控制的世界模型框架，使视频生成从"基于像素的合成"转向"基于结构的生成"，从而在可控性和稳定性上取得了明显提升。

论文《NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos》是由中国科学院自动化研究所和 CreateAI 共同提出。

这项研究主要围绕 4D 世界模型的一个关键问题展开，即现有方法往往依赖多视角数据或复杂预处理，导致扩展性差，很难直接利用真实世界中大量随手拍摄的单目视频。

为了解决这一问题，论文提出了一个新的框架 NeoVerse，其核心思路是利用"自然场景中的单目视频"来构建 4D 世界模型。具体来说，模型可以从普通视频中恢复场景的 3D 结构，并进一步建模随时间变化的动态信息，从而实现完整的 4D 表示。

在此基础上，该模型不仅能够进行 4D 重建，还可以生成新的相机轨迹视频，并支持多种下游任务。

这篇论文的亮点主要体现在三个方面。首先，它突破了以往对多视角或专用数据的依赖，直接使用"野外采集"的单目视频进行训练，大幅提升了方法的可扩展性和数据可获得性。

其次，它在同一框架中统一了 4D 重建与视频生成能力，使模型既可以理解场景结构，又可以生成新的视角和动态内容。最后，通过这种方式，模型在真实场景中的泛化能力更强，能够更好地适应复杂环境，而不是局限于受控数据集。

总体来看，这篇论文的核心贡献在于提出了一种基于单目视频构建 4D 世界模型的方法，使 4D 建模从依赖昂贵数据采集，转向可以利用大规模真实视频，从而显著提升了实用性与扩展能力。

论文《LongStream: Long-Sequence Streaming Autoregressive Visual Geometry》是由香港科技大学（广州）、地平线机器人、浙江大学和中南大学等研究团队提出。

论文关注的是一个非常核心但长期没有很好解决的问题：长序列 3D 重建。现有方法通常在短序列或离线场景下表现不错，但一旦处理上千帧的长视频，就会出现明显问题，例如注意力逐渐衰减、尺度不断漂移，以及预测误差累积，最终导致整体重建不稳定甚至失效。

这些问题的根本原因在于，大多数自回归模型都会把所有帧"锚定"到第一帧，从而在长时间推理中不断放大误差。

为了解决这一问题，论文提出了 LongStream 框架，核心思路是构建一种流式的、规范解耦（gauge-decoupled）的视觉几何模型。

具体来说，它不再把所有帧绑定到初始帧，而是通过"关键帧相对建模"的方式，让每一段局部序列独立建模，同时再统一到全局结构中。此外，模型将"尺度学习"和"几何预测"进行解耦，使尺度不会在长序列中逐渐漂移。同时，通过周期性刷新缓存和流式更新机制，模型可以在严格在线（看不到未来帧）的条件下稳定处理上千帧数据。

这篇论文的亮点主要体现在三个方面。首先，它提出了一种真正面向长序列的流式 3D 重建框架，能够在在线场景中处理上千帧甚至更长的视频，这是以往方法难以实现的。

其次，它通过"规范解耦"的方式，从根本上解决了尺度漂移和误差累积问题，使长时间建模更加稳定。最后，该方法在效率和稳定性之间取得了较好平衡，可以在现实应用场景中落地，例如自动驾驶、AR/VR 和具身智能中的持续环境建模。

总体来看，这篇论文的核心贡献是提出了一种面向长时序视频的稳定 3D 世界建模方法，使模型能够在严格在线条件下持续构建一致的三维世界，从而推动世界模型向真实应用场景迈进。

模型有没有学到可以迁移的世界规律？

论文《VideoWorld 2: Learning Transferable Knowledge from Real-world Videos》是由北京交通大学和字节研究团队共同提出。

这项研究关注的核心问题是，模型是否能够像人一样，仅通过观看真实世界的视频，就学习到可以迁移到新环境中的通用知识。论文指出，现有视频模型大多侧重生成视觉效果，虽然画面逼真，但缺乏对物体运动规律、交互关系以及时序结构的理解能力，因此难以在新场景中泛化。

为了解决这一问题，论文提出了 VideoWorld 2 框架，其核心思路是直接从大规模无标注的真实视频中学习世界知识。

模型不依赖人工标注，而是通过观察视频中的动态过程，自主学习物理规律、物体交互以及时间变化，并将这些信息编码为一种可复用的表示，使其能够迁移到不同任务和环境中。相比传统视频生成方法只关注图像外观，这种方法更强调从视频中提取"可以用于理解和推理的知识"。

这篇论文的亮点主要体现在三个方面。首先，它将研究重点从生成逼真的视频转向从视频中学习可迁移知识，使模型从"会生成"发展到"会理解"。

其次，它直接利用真实世界视频进行训练，减少对模拟环境或人工构造数据的依赖，使方法更加贴近真实应用场景。最后，这种方法在一定程度上兼顾了视觉生成能力与知识表达能力，使模型既能够保持较好的生成效果，又具备更强的泛化能力。

总体来看，这篇论文的核心贡献在于提出了一种从真实视频中学习世界知识的框架，使视频模型从单纯的生成工具，发展为能够理解并泛化现实世界规律的模型。

论文《ProPhy: Progressive Physical Alignment for Dynamic World Simulation》是由中山大学、鹏城实验室等科研团队共同提出。

论文关注的问题是当前视频生成模型虽然在视觉效果上已经较好，但在物理一致性方面仍然存在明显不足，例如物体运动不符合真实物理规律，或者复杂场景中的交互不合理。这一问题的根本原因在于现有方法缺乏对物理规律的显式建模，同时无法将物理信息精确地对齐到视频中的具体空间位置。

为了解决这一问题，论文提出了 ProPhy 框架，其核心思路是引入一种"渐进式物理对齐机制"。模型通过一个两阶段的结构来建模物理信息：首先在语义层面提取文本中的物理规律，例如运动类型或物理现象，然后在更细粒度的层面，将这些物理规律精确对齐到视频中的具体区域和时间过程。

同时，模型采用"物理专家混合机制"，让不同模块分别学习不同类型的物理规律，从而形成更加细致的物理建模能力。此外，论文还将视觉语言模型的物理推理能力引入生成过程，使模型能够更准确地表达复杂动态现象。

这篇论文的亮点主要体现在三个方面。首先，它提出了显式的物理建模机制，使视频生成不再只是视觉逼真，而是能够遵循真实物理规律。其次，它实现了从语义级到细粒度空间级的逐步对齐，使不同物理现象能够准确作用在对应区域，而不是全局混合。

最后，通过引入"物理专家"结构和视觉语言模型的推理能力，模型在复杂动态场景中生成的视频更加稳定、合理，并在物理一致性方面明显优于已有方法。

总体来看，这篇论文的核心贡献是提出了一种面向物理一致性的生成框架，使视频生成模型从单纯追求视觉真实，进一步发展为能够遵循真实物理规律的世界模型。

论文《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》是由四川大学、香港理工大学、电子科技大学、阿德莱德大学研究团队共同提出。

论文关注的问题是当前视频生成模型在"物理一致性"上的不足。虽然现有视频扩散模型可以生成视觉上真实的画面，但在描述复杂物理过程时，往往只能生成某一个瞬间，而无法正确表达事件之间的因果关系和连续变化，例如液体流动、能量变化等动态过程。

为了解决这一问题，论文提出了一种以"事件为中心"的生成框架，其核心思路是把一个物理现象看作一系列按因果顺序发展的事件链，而不是一个静态描述。

具体方法包括两个关键模块：首先是"物理驱动的事件链推理"，将复杂物理过程拆解为多个有明确因果关系的子事件，并通过引入物理公式作为约束，使这些事件之间的关系具有确定性；其次是"跨模态过渡建模"，将这些事件转化为时间对齐的文本和视觉提示，例如关键帧和语义描述，从而引导视频生成过程在不同事件之间平滑过渡。

这篇论文的亮点主要体现在三个方面。首先，它提出了"事件链"这一新的建模方式，使视频生成从描述单一画面转向描述完整的因果过程，从而更接近真实世界。

其次，它将物理公式引入推理过程，使生成内容不仅在视觉上合理，也在物理规律上更加可信。最后，通过结合语义提示和关键帧的跨模态控制方式，模型能够在不同事件之间保持连续性，从而生成具有时间一致性和因果一致性的动态视频。

总体来看，这篇论文的核心贡献是提出了一种基于因果事件链的物理视频生成框架，使视频生成从"生成一个结果"发展为"生成一个符合物理规律的动态过程"，在物理一致性和时序建模方面都有明显提升。

能不能精确控制生成的世界？

论文《Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control 》是由西湖大学和南阳理工大学的研究团队共同提出。

论文主要研究的是视频扩散模型在 3D 和 4D 场景生成中的一个核心问题，即虽然这些模型已经具备很强的"世界先验"，但在实际使用中存在三个关键缺陷，包括难以精确控制相机运动、时空一致性差以及场景与相机运动耦合在一起，导致生成结果不稳定或者不符合预期。

为了解决这一问题，论文提出了一个新的框架 WorldForge，其核心思路是在不重新训练模型的情况下，仅通过推理阶段对已有视频扩散模型进行控制增强。

具体来说，该方法由三个关键机制组成：首先是在扩散去噪过程中加入递归优化，使生成过程逐步贴合目标相机轨迹；其次利用光流信息在潜空间中区分"运动"和"外观"，从而只对运动相关部分进行控制；最后通过双路径对比机制，将有控制与无控制的生成过程进行比较，自动修正偏差，从而避免轨迹漂移。

这篇论文的亮点主要体现在几个方面。首先，它提出了一种完全不需要训练的控制方法，只在推理阶段进行修改，大幅降低了成本，同时避免破坏原有模型能力。

其次，它实现了对相机轨迹的精确控制，同时保持较高的视觉质量，解决了以往方法中"控制和质量难以兼顾"的问题。最后，该方法具有很强的通用性，是一个"即插即用"的框架，可以直接应用在不同的视频扩散模型上，并支持多种任务，例如 3D 重建、4D 场景生成以及视频编辑等。

总体来看，这篇论文的核心贡献是提出了一种无需训练的控制框架，使视频扩散模型能够在保持生成质量的同时，实现精确的几何和运动控制，从而推动其在 3D 和 4D 世界建模任务中的应用。雷峰网

模型不仅表示世界，还要「用世界做事」

论文《DriveLaW: Unifying Planning and Video Generation in a Latent Driving World 》是由华中科技大学和小米 EV 团队共同提出。

论文研究的是自动驾驶中的一个关键问题，即如何让"世界模型"不仅能够预测未来场景，还能直接参与决策与规划。现有方法通常把两个过程分开处理，一部分模型负责预测未来视频或场景变化，另一部分模块负责根据这些预测结果进行路径规划，这种解耦方式会导致信息利用不充分，并且在复杂场景中容易出现误差累积。

为了解决这一问题，论文提出了一个新的框架 DriveLaW，其核心思路是在一个统一的"潜在驾驶世界（latent driving world）"中，同时进行视频生成和运动规划。

模型首先在潜在空间中学习驾驶场景的动态演化规律，然后在这个空间中直接进行决策推理，而不是先生成完整视频再做规划。这样一来，预测和决策被整合到同一个过程之中，使模型能够更高效地利用环境信息，同时减少中间误差的传播。

这篇论文的亮点主要体现在几个方面。首先，它将视频生成与路径规划统一在同一个框架中，打破了传统方法中"预测"和"决策"分离的结构，使世界模型真正参与到决策过程中。

其次，它通过在潜在空间中进行建模和推理，避免了直接生成高维视频带来的计算开销，同时提高了效率和稳定性。最后，这种方法在长时间预测和复杂驾驶场景中表现出更好的鲁棒性，因为模型是在一个结构化的世界表示中进行推理，而不是依赖逐帧生成。

总体来看，这篇论文的核心贡献是提出了一种将视频生成与自动驾驶规划统一起来的世界模型框架，使模型不仅能够"看见未来"，还能够基于未来进行决策，从而推动自动驾驶系统向更一体化、更高效的方向发展。

论文《ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment 》是由 AMAP CV Lab 研究团队提出。

论文研究的是机器人操作场景中的世界模型问题。现有视频世界模型虽然能够生成视觉上真实的结果，但在涉及物体交互时，往往会出现明显的物理错误，例如物体穿透、违背重力等现象。这是因为这些模型大多基于视觉数据训练，优化目标只关注生成概率，而忽略了真实物理规律。

为了解决这一问题，论文提出了 ABot-PhysWorld 框架，其核心思路是构建一个具备物理对齐能力的交互式世界模型。该模型基于一个大规模扩散 Transformer 架构，在生成视频的同时引入物理约束，使生成的机器人操作过程既真实又符合物理规律。

同时，模型支持动作可控生成，可以根据输入的操作指令控制机器人与物体之间的交互过程。此外，论文还引入了物理感知训练机制和偏好优化策略，使模型在学习过程中更关注"物理合理性"而不仅是视觉质量。

这篇论文的亮点主要体现在三个方面。首先，它显式引入物理约束，使世界模型在生成复杂交互场景时能够避免常见的物理错误，从而提升真实性。

其次，它实现了"动作可控的视频生成"，使模型不仅能预测世界，还能根据动作进行交互式模拟，更贴近机器人应用。最后，该方法在大规模模型基础上实现了视觉真实感与物理一致性的统一，使世界模型从单纯的生成工具，发展为可以用于机器人决策和模拟的基础模型。

总体来看，这篇论文的核心贡献是提出了一种融合物理约束与动作控制的世界模型框架，使视频生成不仅具备视觉真实性，还具备物理合理性和交互能力，从而推动世界模型在机器人操作中的应用。

论文《SimScale: Learning to Drive via Real-World Simulation at Scale》是由中科院自动化所 MAIS 实验室、香港大学 OpenDriveLab 和小米 EV 团队共同提出。

论文关注的是自动驾驶中的一个关键问题，即真实驾驶数据中"关键危险场景"非常稀缺，导致模型虽然在常规场景中表现良好，但在极端或边界情况下容易失败。现有方法主要依赖收集更多真实数据或构建人工仿真环境，但前者成本高且难以覆盖长尾情况，后者又往往与真实世界存在差距。

为了解决这一问题，论文提出了 SimScale 框架，其核心思路是利用真实世界数据构建可扩展的仿真环境，并在此基础上自动生成大量新的驾驶场景。

具体来说，模型首先从真实数据中提取场景结构，然后在仿真环境中扩展出未见过的状态，并自动生成对应的驾驶轨迹作为监督信号，最终将真实数据与仿真数据进行联合训练，从而提升模型在复杂场景下的表现能力。

这篇论文的亮点在于，它通过"真实数据驱动仿真"的方式，有效缩小了仿真与现实之间的差距，同时能够大规模生成关键长尾场景数据，弥补真实数据中的不足。

此外，该方法具有很强的可扩展性，随着仿真数据规模增加，模型性能可以持续提升，而不依赖额外真实数据。最后，这种结合真实与仿真的训练方式，使模型在安全性和泛化能力方面都有明显增强。

总体来看，这篇论文的核心贡献是提出了一种基于真实数据构建仿真环境并进行规模化训练的方法，从而有效解决自动驾驶中长尾场景不足的问题，提升模型在复杂现实环境中的表现能力。

如何知道一个模型真的在「建模世界」？

论文《4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models》由中国科学技术大学、浙江大学和北京智源研究院等机构合作完成。

这项研究关注的是一个基础问题，即如何系统地评估 3D 和 4D 世界模型的能力。论文指出，现有评测方法通常只关注单一方面，例如视觉质量或简单一致性，缺乏统一标准，难以全面反映模型是否真正具备对空间和时间的建模能力。

为了解决这个问题，论文提出了一个统一评测框架 4DWorldBench。该框架从多个关键维度对模型进行评价，包括视觉感知质量、条件与 4D 对齐能力、物理真实感以及时空一致性。

同时，它支持多种输入形式，例如从文本、图像或视频生成 3D 或 4D 场景，并通过统一机制将不同模态的信息映射到同一个评测空间中，从而实现不同模型之间的直接比较。此外，评测过程中还引入了大语言模型和多模态模型参与判断，使评价结果更加接近人类主观判断。

这篇论文的亮点在于，它建立了一套统一且系统的评测标准，使不同世界模型可以在同一框架下进行公平比较，同时通过多维度评价体系更全面地反映模型能力，而不仅仅局限于视觉效果。此外，引入大模型参与评估，使结果更加稳定，也更贴近人类判断。

总体来看，这项研究的核心贡献是为 3D 和 4D 世界模型提供了一套完整的评测体系，使研究重点从单纯的生成效果，进一步转向对世界建模能力的全面衡量。

论文《WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World 》是由 WorldBench Team 团队提出。

论文关注的是自动驾驶世界模型中的一个核心问题，即如何全面评估一个模型是否真正具备"理解和使用世界"的能力。现有方法通常只评估单一方面，例如视觉生成质量或简单一致性，缺乏统一标准来衡量模型在真实驾驶场景中的综合能力，包括是否符合物理规律以及是否能够支持决策。

为了解决这一问题，论文提出了 WorldLens 框架，用于对世界模型进行系统评估。该框架从多个维度进行衡量，包括生成能力、重建能力、动作跟随能力以及在下游任务中的表现，同时还结合人类偏好进行评价。论文还构建了一个大规模数据集，并引入自动评估模型，使评测过程能够规模化，同时保持一定的可解释性。

这篇论文的亮点在于，它提供了一套更全面的评测体系，使世界模型不再只从视觉效果进行评价，而是从生成、理解和行为能力多个角度进行统一衡量。

同时，通过结合人类标注与自动评估方法，使评测结果更加稳定且更接近真实使用需求。此外，该研究也揭示了当前模型在不同能力之间存在明显权衡，为后续研究提供了方向。

总体来看，这篇论文的核心贡献是建立了一套面向自动驾驶世界模型的统一评测框架，使模型评价从单一指标转向对整体世界建模能力的综合衡量。

论文《GeoWorld：Geometric World Models 》是由 ANU 和 MBZUAI 团队共同提出。论文主要研究的是"世界模型"在规划和预测中的一个核心问题。

现有很多方法虽然可以通过学习潜在空间来进行多步预测，但通常是在欧几里得空间中建模，这种方式无法很好表达状态之间的层级结构和复杂关系，同时在长时间预测时容易快速退化，导致结果不稳定。

为了解决这个问题，论文提出了一个新的框架 GeoWorld，其核心思路是将世界模型从传统的欧几里得空间建模，扩展到具有层级结构的几何空间中。

具体来说，它在潜在空间中构建一个"能量模型"，并引入双曲空间（hyperbolic space）来表示状态之间的关系，使模型能够更自然地表达层级结构。同时，在进行预测或规划时，不再简单地生成未来状态，而是通过在这个几何能量空间中沿"测地线（geodesic）"进行推理，从而实现更稳定的多步预测。

这篇论文的亮点主要体现在三个方面。首先，它将世界模型的表示从普通向量空间提升到具有几何结构的空间，使模型能够更好地刻画复杂关系和层级结构。

其次，它通过在能量空间中进行路径推理，而不是逐步生成状态，有效缓解了长时预测中误差累积的问题，使模型在长时间规划中更加稳定。

最后，这种方法为"基于世界模型的决策与规划"提供了一种新的思路，将几何建模与能量模型结合起来，在机器人和视觉规划任务中具有潜在应用价值。

总体来看，这篇论文的核心贡献是提出了一种基于几何空间的世界模型建模方法，使世界模型从简单的向量表示，发展为能够刻画结构与层级关系的几何表示，从而提升了长时预测和规划的能力。

论文《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》是由西湖大学研究团队提出。

论文关注的问题是：当前的视频扩散模型通常只在短视频数据上训练，当直接用于生成长视频时，会出现明显的质量下降，例如画面模糊、结构漂移以及时序不稳定。论文指出，这种问题的本质原因来自两个"分布外问题（O.O.D）"：一是帧间相对位置超出训练分布，二是上下文长度超过模型训练范围。

为了解决这一问题，论文提出了一个新的框架 FreeLOC，核心思路是在完全不需要重新训练模型的情况下，仅通过推理阶段进行修正。雷峰网

具体来说，该方法包含三个关键机制：首先，通过"视频相对位置重编码"方法，将长视频中的时间位置重新映射回模型熟悉的范围，从而解决位置分布外问题；

其次，通过"分层稀疏注意力机制"，在不同时间尺度上分配注意力，使模型既能保持局部细节，又能捕捉长程依赖；最后，引入"层自适应探测机制"，自动识别模型中哪些层对这些问题最敏感，并只在关键层进行修正，从而提高效率和效果。

这篇论文的亮点主要体现在三个方面。首先，它提出了一种完全无需训练的长视频生成增强方法，可以直接作用在已有模型上，成本极低。其次，它从根本上分析了长视频生成失败的原因，并针对"位置"和"上下文长度"两个关键问题提出针对性解决方案。

最后，通过"按层自适应修正"的方式，使方法既高效又精确，在实验中同时提升了视频的视觉质量和时序一致性，并达到了当前训练自由方法中的领先效果。

总体来看，这篇论文的核心贡献是提出了一种针对分布外问题的层级自适应修正框架，使短视频训练得到的模型也能够稳定生成高质量长视频，从而显著提升了视频生成模型的实用性。

论文《Neoverse: Unposed 4D World Modeling from Monocular Video》是由中国科学院自动化研究所和 CreateAI 研究团队提出。

论文主要解决的是 4D 世界建模中的一个核心问题，即现有方法通常依赖昂贵的多视角数据或者复杂的离线预处理流程，导致模型难以扩展到真实世界中大量随手拍摄的单目视频。因此，这项工作提出的核心目标是：让 4D 世界模型能够直接利用"野外单目视频"进行训练，从而实现大规模扩展和更强泛化能力。

为了解决这一问题，论文提出了 NeoVerse 框架，其核心思路是构建一个可扩展的重建 + 生成一体化模型。具体来说，模型首先通过一种"无位姿（pose-free）的前馈式 4D 重建方法"，直接从单目视频中恢复 4D 高斯表示，然后利用这些几何信息作为条件，引导视频生成模型产生新视角视频。

同时，论文设计了"在线退化模拟机制"，在训练过程中模拟不同视角下的低质量渲染，从而让生成模型学会在复杂条件下恢复高质量视频。这一整套流程不依赖复杂预处理，可以直接在大规模单目视频数据上训练。

这篇论文的亮点主要体现在三个方面。首先，它突破了对多视角数据和离线预处理的依赖，使 4D 世界模型可以利用大规模真实单目视频，从而显著提升可扩展性。

其次，它提出了"前馈式 4D 重建 + 生成联合训练"的框架，使模型既能恢复几何结构，又能生成新视角视频，实现统一建模。最后，该方法具有较强的通用性，不仅可以用于 4D 重建和视频生成，还支持视频编辑、稳定、超分辨率等多种下游任务，并在多个基准上达到较好的效果。

总体来看，这篇论文的核心贡献是提出了一种面向真实世界单目视频的可扩展 4D 世界模型框架，使 4D 建模从依赖昂贵数据，转向可以利用大规模真实视频数据，从而在泛化能力和实用性上都有明显提升。

宙世代

一起剪

相关标签