CVPR 2026 3D 视觉前沿梳理：模型正在学会理解、生成和构建世界

3D 视觉正从重建生成，走向空间理解、动态模拟与工程化应用。

作者丨郑佳美

编辑丨岑峰

如果说过去几年的视觉 AI 主要是在回答 " 模型能不能看懂一张图 "，那么到 CVPR 2026，一个更清晰的趋势正在浮现：模型正在被要求理解图像背后的三维世界。

二维图像只是现实世界在某个视角下的投影，真正困难的地方不在于生成一张看起来合理的画面，而在于模型能否理解物体的空间结构、相机运动、材质光照、物理变化，以及这些信息在不同视角和不同时间中的一致性。

从今年的一系列 3D 视觉相关工作可以看到，研究重点正在从 " 生成结果是否好看 "，转向 " 生成过程是否具备空间逻辑 "。

有的工作试图通过自监督 3D 重建，让模型在没有显式标注的情况下学习几何关系；有的工作绕过传统重建流程，直接利用 3D-aware 特征实现实时新视角合成；也有工作进一步把 3D 表示扩展到 4D 动态生成，让物体不仅有形状和外观，还能表现出符合物理规律的运动。

同时，单图 3D 重建、真实感 3D 生成、关键点长期追踪、像素级预训练、真实世界数据集和自动化代码工具链，也都在从不同层面补齐 3D 视觉的基础能力。

这些工作共同指向一个更深层的变化：3D 视觉不再只是计算机图形学或三维重建中的一个技术分支，而是在成为通向空间智能的重要路径。

模型要进入真实世界，就不能只学习图像表面的纹理和语义，而必须理解 " 物体在哪里、是什么形状、如何运动、在不同条件下如何保持一致 "。从某种意义上说，CVPR 2026 的这些工作进一步加强了行业此前的认知：视觉 AI 正在从二维感知走向三维理解，从图像生成走向世界建模。

从看懂 3D 到生成 4D

3D 视觉研究的一个核心问题，是如何让模型真正理解空间结构，而不是只在图像层面学习纹理和相似性。

由 CMU、Adobe 研究院和哈佛大学共同提出的《E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training》正是从这个问题出发，研究如何在没有 3D 标注、相机位姿或深度监督的情况下，让模型仅通过多视角图像学习 3D 空间理解能力。

作者提出了 E-RayZer 这一自监督 3D 视觉预训练方法：模型会输入同一场景的多张图片，自动估计相机参数，并构建显式的 3D Gaussians 场景表示，再通过可微渲染生成目标视角图像，最后利用渲染结果与真实图像之间的差异来训练模型。这样一来，模型不只是学习图像之间的相似性，而是需要真正理解相机、几何结构和多视角空间关系。

论文地址：https://arxiv.org/pdf/2512.10950

这篇论文的亮点在于，它把自监督学习和显式 3D 重建结合起来，使模型能够在不依赖 3D 标注的情况下学习空间表征。相比一些只在隐式特征空间中做视角合成的方法，E-RayZer 使用 3D Gaussians 直接建模场景，因此几何意义更强，也更适合学习真实的 3D 结构。

实验结果表明，这种预训练方式在相机位姿估计、深度估计和新视角合成等任务上都有较好的表现，说明模型通过 " 自己重建 3D 场景 " 的训练过程，确实学到了有用的空间视觉能力。

E-RayZer 选择用显式 3D 重建来逼迫模型学习空间结构，但在实际的新视角合成任务中，显式重建并不是唯一选择。另一条思路是：如果模型已经具备足够强的 3D-aware 特征，是否可以跳过复杂的显式建模过程，直接用神经网络生成目标视角画面。

而由牛津大学视觉几何组、Meta AI 共同提出的《LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis》就研究了这个方向。

它关注的是 Novel View Synthesis（新视角合成），也就是给定一个场景的若干输入图像，让模型生成从新相机视角看到的画面。传统方法通常需要先重建显式 3D 场景，比如 NeRF 或 3D Gaussians，再进行渲染；而这篇论文提出的 LagerNVS 选择绕过显式 3D 重建，直接用神经网络从输入图像和目标相机视角生成新视角图像。

论文地址：https://arxiv.org/pdf/2603.20176v2

它的核心想法是：虽然模型不直接输出显式 3D 结构，但仍然应该引入强 3D 先验。具体来说，LagerNVS 使用一个从 3D 重建网络初始化而来的编码器来提取带有 3D 感知能力的 latent features，再配合轻量级解码器根据目标相机视角生成图像。

这样既保留了 3D 结构信息带来的几何理解能力，又避免了传统 3D 重建和渲染流程的复杂性。这篇论文的亮点在于，它证明了即使是不显式重建 3D 场景的新视角合成模型，也能明显受益于 3D-aware 特征。

实验中，LagerNVS 在确定性 feed-forward 新视角合成上取得了很强的效果，例如在 RealEstate10K 上达到 31.4 PSNR，并且可以在有相机参数或无相机参数的情况下工作；模型还支持实时渲染，在单张 H100 GPU 上可达到 30 FPS 以上。

如果说 E-RayZer 和 LagerNVS 主要处理的是静态场景中的空间理解与视角生成，那么更进一步的问题是：模型能否不仅生成 3D 外观，还生成符合物理规律的动态变化。

北京理工大学、理想汽车、哈尔滨工业大学和四川大学联合提出的《PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis》把关注点从静态 3D 扩展到动态 4D。

它研究的是如何从单张图像快速生成带有物理规律的动态 4D 场景，也就是不仅要重建物体的 3D 外观，还要让它在运动、变形、受力时表现得更符合真实物理。现有很多方法通常需要先用多视角图像重建 3D Gaussian Splatting，再手动设置刚度、质量等物理参数，或者通过视频模型进行耗时的逐场景优化。

而 PhysGM 希望用一次前向推理，直接预测物体的 3D Gaussian 表示和对应的物理属性，从而快速初始化物理模拟并生成高质量动态渲染结果。

论文地址：https://arxiv.org/pdf/2508.13911v4

这篇论文的亮点在于，它把 3D Gaussian 重建和物理属性预测放到同一个 feed-forward 框架中，不再把几何重建和物理模拟分成两个独立步骤。模型会从输入图像中推断物体的外观、几何以及材料属性，例如刚度、密度等，再结合 MPM 物理模拟生成动态序列。

作者还使用 DPO 对模型进行偏好优化，让生成结果更接近物理合理的参考视频，同时避免传统 SDS 方法中昂贵且不稳定的逐场景优化。整体来看，这篇论文的贡献是：让模型从单张图像出发，在较短时间内生成既有真实外观、又具备物理运动规律的 4D Gaussian 场景，提升了物理驱动 4D 内容生成的效率和实用性。

动态场景生成强调的是物体如何运动和变化，而在真实应用中，另一个基础需求是把普通自然图像中的物体直接转成可用的 3D 表示。Meta 超级智能实验室提出的《SAM 3D: 3Dfy Anything in Images》研究的就是从单张自然图像中进行 3D 物体重建：

模型不仅要恢复物体的几何形状，还要预测纹理、姿态和在场景中的布局。相比只在干净物体图或合成数据上表现较好的方法，SAM 3D 更强调真实场景中的应用，例如物体被遮挡、背景杂乱、尺寸较小或姿态异常时，仍然能够根据图像上下文生成较完整的 3D 结果。

论文地址：https://arxiv.org/pdf/2511.16624

它把大规模数据引擎和生成式 3D 重建模型结合起来。作者通过 human- and model-in-the-loop 的流程标注物体形状、纹理和姿态，构建了大规模视觉对齐的 3D 重建数据，再用多阶段训练方式把合成预训练和真实世界对齐结合起来，试图突破 3D 数据不足的问题。

实验中，SAM 3D 相比已有方法在真实物体和场景的人类偏好评测中取得了至少 5:1 的胜率，并且论文还计划发布代码、模型权重、在线 demo 和新的野外 3D 重建 benchmark。整体来看，这篇论文的贡献是：把类似 SAM 的 " 开放世界视觉理解 " 能力推进到 3D 重建中，让模型可以从普通图片中更稳定地生成可用的 3D 物体表示。

当 3D 生成模型逐渐能从真实图片中恢复物体结构后，画面是否足够真实就变成了新的瓶颈。很多 3D 可控生成方法依赖合成数据来获得几何、视角和材质控制能力，但合成数据本身也容易把模型带向 " 合成感 " 的视觉风格。雷峰网

Technion 和 Meta AI 共同提出的《Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning》正是针对这个问题，研究如何让 3D 生成结果同时具备真实照片级外观和稳定的 3D 一致性。

很多方法会用带有标注的合成 3D 数据去微调图像生成模型，从而获得视角、几何、材质等控制能力，但这样容易让模型把 " 有控制信号 " 和 " 合成渲染风格 " 错误绑定在一起，导致生成结果虽然可控，却不够真实。

Realiz3D 的目标就是解决这个真实图像和合成数据之间的 domain gap，让模型既能听从 3D 控制，又能生成更像真实照片的结果。

论文地址：https://idosobol.github.io/realiz3d/

这篇论文的核心做法是引入 Domain Shifters，也就是一组轻量级残差适配器，用来单独学习 " 真实 / 合成 " 这种视觉域信息，而不是把视觉风格和 3D 控制信号混在一起。训练时，模型先学习区分和切换真实域、合成域，再利用合成数据学习精确控制，同时通过真实数据帮助模型保持照片级外观。

论文还结合了 layer-aware training 和 domain reassignment 等策略，让控制能力更好地迁移到真实图像域中。它的亮点在于，不是简单把真实数据和合成数据混在一起微调，而是显式拆分 " 视觉真实性 " 和 " 几何控制能力 "，从而减少模型生成合成感画面的倾向。

实验展示中，Realiz3D 可以用于 text-to-multiview generation 和基于 3D 输入的纹理生成，生成结果既保持多视角一致性，又比普通微调方式更加真实。

不只拼生成，底层表征也在进化

并不是所有 3D 视觉研究都直接以生成完整场景或物体为目标。很多基础工作更关心的是，模型能否学到可靠的空间表征、稳定的局部结构，以及能否在后续 3D 任务中提供更强的底层视觉能力。

由武汉大学计算机学院和小米 EV 团队提出的《From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection》聚焦的就是 3D 视觉系统中的关键点检测问题，尤其关注 SfM、SLAM 等任务里关键点能否在连续多帧图像中长期稳定地被追踪。

作者认为，很多现有方法主要基于图像对训练，只优化两张图之间的匹配效果，但在真实序列任务中，更重要的是关键点能不能在多视角、光照变化和运动模糊下持续保持稳定。这篇论文提出的方法叫 TraqPoint，核心是把关键点检测看成一个序列决策问题，并用强化学习中的 policy gradient 来直接优化关键点的长期可追踪性。

论文链接：https://arxiv.org/pdf/2602.20630v3

它不再只判断一个点在两张图里是否好匹配，而是把整段图像序列作为环境，通过 track-aware reward 奖励那些在多帧中既稳定、又具有区分度的关键点。这样训练出来的关键点更倾向于落在结构明显、跨视角一致性强的位置上。

这篇论文的亮点在于，它把关键点学习从 " 图像对匹配 " 推进到了 " 序列级追踪 "，更贴近 SLAM、视觉里程计和 3D 重建等实际应用需求。实验结果也显示，TraqPoint 在相对位姿估计、视觉定位、视觉里程计和 3D 重建等任务上都有较好表现，尤其在序列任务中能带来更长的关键点跟踪长度和更稳定的轨迹估计。

关键点检测强调的是局部结构在多帧序列中的稳定性，而视觉预训练则进一步追问：模型要获得通用视觉能力，究竟应该依赖什么样的监督信号。FAIR 和香港大学共同提出的《In Pursuit of Pixel Supervision for Visual Pre-training》重新把目光放回像素本身，研究的是视觉预训练中的一个核心问题：

模型到底应该从哪里获得监督信号。相比现在很常见的 DINO、JEPA 等在 latent space 中学习表征的方法，这篇论文重新强调 pixel supervision 的价值，认为像素本身包含颜色、纹理、材质、几何和语义等多层次信息，因此直接让模型预测被遮挡的像素，也可以学到很强的通用视觉表征。

这篇论文的亮点在于，它证明了基于像素重建的自监督学习并没有过时，只要任务设计和数据规模足够好，仍然可以和当前强大的 latent-space 方法竞争。

论文地址：https://arxiv.org/pdf/2512.15715v1

Pixio 在原始 MAE 的基础上做了几个关键改进，包括使用更大的 mask block 来增加预训练难度、更深的 decoder 来增强像素重建能力、更多的 CLS token 来捕捉不同层次的全局信息，并使用约 2B 张网络图片进行训练，同时通过自筛选策略减少人工数据清洗依赖。

整体来看，这篇论文的贡献是：重新验证了像素级自监督预训练的潜力。实验显示，Pixio 在单目深度估计、前馈式 3D 重建、语义分割和机器人学习等任务上，能够达到或超过类似规模训练的 DINOv3 表现。

它说明直接预测像素不仅能学习低层视觉细节，也能帮助模型理解几何、空间结构和语义信息，因此可以作为 latent-space 预训练方法的有力替代和补充。

从论文到代码，从采集到数据

模型能力的提升不仅依赖新的网络结构和训练目标，也依赖数据与工具链的完善。一方面，研究者需要更高效地复现已有方法并把论文转化为可运行代码；另一方面，真实世界 3D 视觉任务也需要更高质量、更可控的数据资源。

UCSD 提出的《NERFIFY: Multi Agent Framework for Turning NeRF Papers into code》对应的是前一个问题，研究的是如何让大语言模型代理自动把 NeRF 相关研究论文转化成可以运行、可以训练的 Nerfstudio 插件代码。

作者指出，很多 NeRF 论文没有公开代码，研究者往往需要花费很长时间重新实现，而通用的 paper-to-code 方法在这类任务上容易生成不能运行或训练效果很差的代码，因此他们提出了 NERFIFY 这个面向 NeRF 领域的多智能体代码生成框架。

它的核心思路是把论文解析、依赖恢复、代码生成和训练反馈串成一个自动化流程。系统先将论文内容整理成结构化信息，再利用 Nerfstudio 的架构约束形成类似 CFG 的生成规则，保证生成代码符合基本模块接口。

随后通过 Graph-of-Thought 多智能体方式按依赖顺序生成多个文件，并自动追踪论文引用中隐藏的关键组件，例如采样器、编码器或 proposal network；最后还会根据训练结果和渲染图像中的问题进行视觉反馈和代码修正。

论文地址：https://arxiv.org/pdf/2603.00805

它不是简单让模型 " 读论文写代码 "，而是把 NeRF 领域知识、代码结构约束、引用依赖恢复和视觉质量反馈结合起来，让生成的代码更接近真实可用的研究实现。

实验中，NERFIFY 在 30 篇不同复杂度的 NeRF 论文上进行评估，对于没有公开实现的论文，它生成的结果可以接近专家手写代码的视觉质量，同时把实现时间从几周缩短到几分钟。

整体来看，这篇论文的贡献是提出了一种面向复杂视觉论文的领域专用 paper-to-code 框架，目标是降低 NeRF 研究复现和二次开发的门槛。

如果说 NERFIFY 试图降低研究复现和二次开发的成本，那么 OLATverse 则是在数据层面为逆渲染、重光照和新视角合成等任务补足基础设施。

由马克斯・普朗克信息学研究所和南京大学共同提出的《OLATverse: A Large-scale Real-world Object Dataset with Precise Lighting Control》研究的是面向逆渲染、重光照、新视角合成和法线估计的真实物体数据集构建问题。

作者指出，现有很多方法仍然依赖合成数据训练，或者只能在小规模真实数据上评估，导致模型在真实场景中的材质、光照和几何泛化能力受限。为了解决这个问题，论文提出了 OLATverse，一个大规模真实物体数据集，包含 765 个真实物体，并在多视角和精确可控光照条件下采集图像。

这篇论文的亮点在于，它同时兼顾了真实物体规模、光照控制精度和辅助标注质量。数据采集使用 lightstage 系统，每个物体由 35 个校准相机拍摄，并由 331 个可控光源照明，支持 OLAT、环境光、均匀光和梯度光等多种光照设置。

论文地址：https://arxiv.org/pdf/2511.02483v3

同时数据集中还提供相机参数、物体 mask、表面法线和 diffuse albedo 等信息。相比以往很多数据集只强调物体数量，或者只在少量物体上做精细光照采集，OLATverse 的价值在于把 " 大规模真实物体 " 和 " 高精度可控光照 " 结合起来。雷峰网

整体来看，这篇论文的贡献是：提供了一个更贴近真实世界的高质量物体外观数据资源，让模型可以更可靠地学习材质、几何和光照之间的关系。它不仅可以用于训练重光照和生成式先验，也可以作为逆渲染、新视角合成、法线估计等任务的综合 benchmark。

论文也提到，目前数据中的法线和反照率还不是严格意义上的真实 ground truth，且没有提供真实 mesh，但作为真实世界物体外观和可控光照数据集，它对后续 3D 视觉和图形学研究仍然很有价值。

宙世代

一起剪

相关标签