理想要做智驾圈的DeepSeek？联合北大浙大，四篇论文入选AI顶会CVPR

智驾一把手郎咸朋署名，瞄准仿真训练。

作者 | Janson、R

编辑 | 志豪

理想汽车 4 篇论文中稿 CVPR 2025，智驾一把手郎咸朋署名。

车东西 3 月 5 日消息，据 CVPR 官方及媒体信息显示，CVPR 2025 审稿工作已经结束，理想汽车中稿 4 篇。

CVPR 国际计算机视觉与模式识别会议是 IEEE（电气和电子工程师协会）主办的一年一度的国际会议，被公认为计算机视觉领域的顶级会议之一，和 ICCV、ECCV 并称计算机视觉三大顶级会议，近年来也不断有自动驾驶领域的前沿研究获奖。

同时，CVPR 2025 也是相比往年来竞争最为激烈的一年，此次共收到 13008 篇，最终录用 2878 篇，录用比约为 22.1%。

▲ CVPR 2025 公布最终录用信息

具体来看，理想汽车在 CVPR 2025 中被录用的 4 篇文章主要集中在自动驾驶仿真领域，其中在 StreetCrafter 开发高质量的街景合成等文章的相关研究中，理想汽车自动驾驶研发副总裁郎咸朋出现在署名作者中。

▲郎咸朋在车东西第四届全球自动驾驶峰会发表演讲

此外，智能驾驶技术研发负责人贾鹏、智能驾驶高级算法专家詹锟、理想汽车高级算法工程师王一达的名字也都出现了论文署名中。

与此同时，本次的四篇论文也都是校企合作的产物，北京大学、浙江大学等知名学府、中科院自动化所等头部科研机构都有参与到研究当中。

▲理想汽车多名自动驾驶研发高管在论文中

从技术路径看，此次理想汽车被录用的 4 篇论文中，突破性主要体现在三个方面：

1、多模态融合的仿真框架（如 StreetCrafter 结合 LiDAR 与视频扩散模型，DrivingSphere 构建 4D 占用网格），通过几何约束与生成式模型结合，显著提升视角外推与场景编辑能力；

2、闭环仿真与动态交互优化（如 DriveDreamer4D 引入世界模型生成多样化轨迹，ReconDreamer 实现大动作在线修复），突破传统开环仿真的数据局限性，增强复杂场景下的测试鲁棒性；

3、结构化条件控制与渐进式训练策略，系统性缓解生成内容漂移问题，推动仿真数据与真实场景的分布逼近。

汽车企业的研发部门参与 AI 论文研究，一方面是对前沿技术的探索，另一方面也要考虑到实际的应用价值。在本次发表的论文中，诸如实时渲染速度、闭环交互机制、轻量化数据依赖，都跟车企对仿真工具的高效、低成本需求高度契合。

但需客观指出，当前研究仍面临数据采集成本、极端场景覆盖度、实时生成效率等共性挑战，且技术验证多局限于 Waymo 等结构化数据集，尚未充分适配复杂城市场景的长尾需求。

本文福利：四篇论文的原件我们已经帮你准备好了，回复【车东西 0761】获取理想 CVPR 2025 入围论文原件。

01.

StreetCrafter：

街景合成技术研究

在自动驾驶仿真领域，开发高质量的街景合成技术是一个重要的研究方向。而当下理想汽车进行自动驾驶训练的世界模型则也很大程度上依赖高质量的训练数据。

▲ StreetCrafter 作者

然而，如 NeRF（神经辐射场）和 3DGS（3D 高斯）等现有的方法，常在视角偏离训练轨迹时表现不佳，导致渲染结果出现模糊或伪影。

为了解决这一问题，研究者们提出了一种新框架—— StreetCrafter，该框架结合了 LiDAR（激光雷达）几何信息与视频扩散模型，可实现精确的相机控制和高质量的新视角合成，同时支持实时渲染和场景编辑。

从这里不难看出，理想马上要把所有的车都装上激光雷达也是有道理的，毕竟前沿的训练都开始采用激光雷达的数据来进行了。

▲一种新颖的可控视频扩散模型

StreetCrafter 的核心方法包括可控视频扩散模型和动态 3D 高斯表示蒸馏。

首先，在可控视频扩散模型中，关键设计为 LiDAR 条件生成。该过程将多帧 LiDAR 点云聚合为全局点云，并通过渲染生成像素级条件图像，作为扩散模型的输入。

▲ StreetCrafter 概览

在训练过程中，利用变分自编码器（VAE）将输入图像和 LiDAR 条件映射到潜空间，并通过 U-Net 去噪生成视频帧。

在推理阶段，根据新视角的相机轨迹渲染 LiDAR 条件，指导扩散模型生成一致的新视图。此外，场景编辑功能允许用户通过修改 LiDAR 点云（如删除或替换对象）直接控制生成内容，无需逐场景优化。

▲ StreetCrafter 在 Waymo 数据集上的编辑结果

其次，动态 3D 高斯表示蒸馏则力求解决 3D 高斯（3DGS）在视角外推时的表现不佳问题。通过生成监督，StreetCrafter 生成的新视角图像作为额外的监督信号，优化 3D 高斯的几何和纹理。

此外，混合损失函数结合了 L1、SSIM（结构相似性）和 LPIPS（学习图像块感知相似度）损失，以强化语义一致性，并采用渐进优化策略，逐步降低噪声比例，以平衡生成先验与细节优化。

在实验结果方面，研究使用了 Waymo Open Dataset 和 PandaSet 数据集，基线方法包括 3DGS、Street Gaussians、EmerNeRF、UniSim 和 NeuRAD，评价指标包括 PSNR（峰值信噪比）、LPIPS（学习图像块感知相似度）和 FID。

▲ StreetCrafter 在 Waymo 数据集上的定量结果

结果显示，在视角外推方面，StreetCrafter 在 3 米偏移下的 FID（越低越好）为 71.40，显著优于 Street Gaussians 的 93.38，生成的图像在复杂区域（如车道线和移动车辆）更清晰，伪影更少。

▲ StreetCrafter 蒸馏的视觉消融结果

同时，蒸馏后的 3DGS 保持了 80-113 FPS 的实时渲染速度，与基线相当，且支持对象平移、替换和删除，编辑结果与场景几何一致。

此外，消融实验验证了 LiDAR 条件的有效性，使用聚合点云（多帧）的 FID 为 55.53，优于单帧（73.25）和投影点云（66.29）。相机参数或 3D 包围盒条件的使用导致模糊和几何错位。蒸馏策略方面，LPIPS（学习图像块感知相似度）损失提升了细节锐度，而渐进噪声比例的调整（从 0.7 降低到 0.3）则平衡了生成质量与训练效率。

▲ StreetCrafter 在设计选择上的消融研究

总的来看，StreetCrafter 通过可控视频扩散模型的引入，使得通过 LiDAR 点云的像素级条件实现精确视角控制和场景编辑；动态 3D 高斯蒸馏的应用，提升了视角外推能力并保持实时渲染。

然而，研究也指出了一些局限性，例如对 LiDAR 和对象轨迹标注的依赖使得数据采集与处理成本较高，StreetCrafter 的生成速度仅为 0.2FPS，需优化模型架构，以及 LiDAR 对形变物体（如行人）的支持有限，未来可结合时序建模进行改进。

02.

DrivingSphere：

构建高保真 4D 自动驾驶仿真环境

在自动驾驶技术的发展中，构建一个高保真、动态闭环的仿真环境是面临的核心挑战之一，以支持端到端算法的全面测试。然而，现有的仿真方法存在一些局限性。

▲ DrivingSphere 作者

开环仿真（Open-loop）依赖固定路线或预生成数据（如 nuScenes 和 Waymo 数据集），无法有效测试动态决策能力，并且数据多样性受到限制。

▲用于评估端到端自动驾驶算法框架

闭环仿真（Closed-loop）虽然支持动态反馈（如 CARLA 和 SUMO），但往往存在视觉保真度不足（与真实传感器数据差异较大）或几何建模粗糙（仅关注道路和车辆而忽略环境元素）的缺陷。

此外，现有的生成式仿真方法（如 MagicDrive 和 DriveArena）虽然能够生成逼真的视频数据，但缺乏与自动驾驶代理的闭环交互机制。因此，DrivingSphere 提出了一种生成式闭环仿真框架，同时满足高视觉保真、动态闭环反馈和几何精确建模的需求。

▲ DrivingSphere 框架概览

DrivingSphere 的创新方法论基于 4D（3D 空间加时间）占用网格（Occupancy Grid）建模，包含三个核心模块。

首先，动态环境组合（Dynamic Environment Composition）旨在构建城市级 4D 驾驶世界，涵盖静态背景（如建筑和植被）以及动态交通参与者（如车辆和行人）。

该模块采用 OccDreamer，一个基于鸟瞰图（BEV）和文本条件控制的 3D 占用扩散模型，用于生成静态场景。它通过 VQ-VAE 将 3D 占用数据压缩为潜在表示，并结合 ControlNet 分支注入 BEV 地图和文本提示，逐步生成城市级连续静态场景。

▲ OccDreamer 框架

动态参与者管理通过构建 "Actor Bank" 存储交通参与者的几何、语义和行为属性，利用语义相似性或随机采样动态选择参与者，并根据自动驾驶代理和环境代理的控制信号动态更新参与者位置。

其次，视觉场景合成（Visual Scene Synthesis）模块将 4D 占用数据转换为多视角高保真视频，确保时空一致性与视觉真实性。

该模块采用双路径条件编码，利用预训练的 4D 编码器提取场景几何与时空关系，并通过相机参数将 3D 占用投影到 2D 语义图，以捕获视角相关的遮挡与深度变化。

ID 感知参与者编码则融合参与者位置、唯一 ID 与文本描述，通过傅里叶编码和 T5 文本编码器生成一致性的外观。

▲ VideoDreamer 的概览

视频扩散模型（VideoDreamer）基于空间 - 时间扩散变换器（ST-DiT）架构，结合 ControlNet 分支注入占用条件，生成多视角时空一致的视频。

最后，Closed-loop Feedback（闭环反馈机制）通过 Ego Agent（被测自动驾驶模型）和 Environment Agents（通过交通流引擎控制其他参与者行为）实现动态更新。控制信号驱动 4D 世界状态的迭代更新，形成 " 感知 - 决策 - 环境响应 " 的闭环。

▲生成的 3D 场景的定性结果

在实验与结果方面，DrivingSphere 在视觉保真度评估中表现出色。在 nuScenes 数据集上，OccDreamer 生成的场景在 FID 和 MMD 指标上显著优于 SemCity，而视频生成的结果在 3D 目标检测和 BEV 分割等指标上超越 MagicDrive 和 DriveArena。

▲ UniAD 在 100 条预定义路线上的闭环评估性能

开环测试表明，DrivingSphere 的生成数据更接近真实分布，而闭环测试验证了其有效的交互能力。

▲ DrivingSphere 在自动驾驶模拟的定量比较

总的来看，DrivingSphere 的核心贡献在于建立了一种几何感知的闭环仿真框架，通过 4D 占用建模与生成式技术实现高视觉保真与动态反馈的统一。

此外，它支持城市级场景的无限扩展，并通过参与者 ID 编码与双路径条件控制解决了多视角视频生成中的外观漂移问题。然而，DrivingSphere 也存在局限性，包括动态行为简化、极端场景覆盖不足和较高的计算成本。

03.

DriveDreamer4D：

利用世界模型提升 4D 驾驶场景重建

在自动驾驶领域，现有的闭环仿真技术主要依赖基于神经辐射场（NeRF）和 3D 高斯（3DGS）的传感器模拟方法。

▲ DriveDreamer4D 作者

然而，这些方法存在两个关键缺陷：首先，训练数据多为前向驾驶场景（如直行），导致在渲染复杂操作（如变道、加减速）时受到限制；其次，现有世界模型通常生成 2D 视频，无法有效捕捉动态驾驶场景的时空关联性。

这也为自动驾驶模型在驾驶决策的演进起到了重要的作用，理想 AD MAX 不同版本中博弈逻辑的细微不同也需要在具备时空一致性的环境中进行检验。

▲ DriveDreamer4D 演示

为了解决这些问题，DriveDreamer4D 提出了一种融合世界模型先验的 4D 驾驶场景表示框架，其核心思路在于利用世界模型生成多样化的新轨迹视频，以弥补真实数据的稀疏性，并通过结构化条件和训练策略提升 4D 高斯泼溅（4DGS）的时空一致性。

DriveDreamer4D 的创新方法包括两个主要模块。

首先是新颖轨迹生成模块（NTGM），该模块旨在自动生成复杂驾驶轨迹（如变道和加减速）并确保安全性。具体步骤包括将原始轨迹转换为自车坐标系，通过调整横向偏移和速度生成新轨迹，同时进行安全性评估以确保新轨迹在可行驶区域内且无碰撞。

此外，该模块还将新轨迹的 3D 框和高清地图（HDMap）投影到相机视图中，作为生成条件，最终基于这些条件生成符合新轨迹的视频。

其次，联合数据训练策略（CDTS）通过融合真实数据与生成数据，以优化 4DGS 模型。该策略通过时间对齐的 " 表亲数据对 " 将同一时间点的原始轨迹和新轨迹数据配对输入，并通过正则化损失（如感知特征）约束生成数据与真实数据的感知一致性。

▲ DriveDreamer4D 的整体框架

在实验验证中，DriveDreamer4D 使用 Waymo 开放数据集，选取了 8 个高动态交互场景进行评估。评估指标包括前景车辆的 2D 框 IoU（NTA-IoU）、背景车道的 IoU（NTL-IoU）、图像质量评估（FID）以及人工评分的渲染结果优劣。

▲不同新轨迹视角下 NTA-IoU 和 NTL-IoU 分数的比较

实验结果显示，DriveDreamer4D 在 NTA-IoU 指标上相比基线方法（PVG、S3Gaussian、Deformable-GS）分别提升了 22.6%、43.5% 和 15.6%；在 FID 指标上，在变道场景下相对优化了 32.1%、46.4% 和 16.3%。定性分析表明，基线方法在变道场景中存在车辆位置错误和背景噪点多的问题，而 DriveDreamer4D 显著提升了细节表现。

此外，用户研究显示，DriveDreamer4D 的平均胜率超过 80%，在变道场景中达到了 100%。

▲ DriveDreamer4D 在变道场景中的定性比较

同时，消融实验进一步验证了 CDTS 的有效性，引入时间对齐和正则化损失后，FID 降低了 10%，NTA-IoU 提升了 2%。值得注意的是，生成数据不适用深度监督（由于遮挡问题），移除后效果更优。

DriveDreamer4D 的贡献在于首次将世界模型应用于 4D 驾驶重建，通过生成多样化轨迹视频扩展了数据分布。

▲ DriveDreamer4D 的用户研究胜率比较

同时，结构化条件控制（如 3D 框和 HDMap）确保了生成视频的时空一致性，为自动驾驶闭环仿真提供了高保真动态场景，支持复杂操作的测试。

然而，该方法也面临依赖生成数据质量的局限性，若世界模型生成的视频存在偏差，可能影响重建结果。未来的研究方向包括扩展至多视角和长序列生成，结合物理引擎以增强动态交互的真实性。

04.

ReconDreamer：

通过在线修复提升动态驾驶场景重建质量

在自动驾驶的闭环仿真中，需要从新轨迹视角生成高精度的传感器数据。然而，现有的方法（如神经辐射场（NeRF）和 3D 高斯泼溅）在处理大幅动作（如多车道变换）时存在显著缺陷。

▲ ReconDreamer 作者

首先，数据稀疏性问题使得传统方法需要大量密集视角数据，当新轨迹超出训练分布时，重建质量显著下降。其次，时空一致性不足，动态场景中物体（如车辆和车道线）的形变和模糊问题尤为突出。

▲动态驾驶场景重建方法

此外，现有方法在处理复杂动作时表现不佳，例如在进行 6 米横向偏移或多次变道时，难以准确重建场景。为了解决这些问题，ReconDreamer 框架应运而生，成为首个支持大范围动作（如 6 米横向偏移）的动态驾驶场景重建方法。

ReconDreamer 的核心贡献包括 DriveRestorer 模块和渐进式数据更新策略（PDUS）。

▲ ReconDreamer 的整体框架

DriveRestorer 模块基于世界模型的在线修复器，通过掩码策略优先修复天空和远景区域，从而提升重建质量。

而 PDUS 则通过逐步扩展新轨迹数据，降低修复难度，提升大动作渲染的质量。整体框架包括动态场景重建模型（G），该模型基于原始轨迹数据进行训练，并通过 G 生成带噪声的渲染视频。

▲损失函数

随后，DriveRestorer 结合 3D 框、高清地图（HDMap）等结构化条件，对生成的视频进行在线修复，最终得到高质量的重建结果。

▲用于训练 DriveRestorer 的修复数据集构建

在实验验证中，ReconDreamer 使用了 Waymo 开放数据集，针对 8 个高动态交互场景进行了评估。

定量分析结果显示，ReconDreamer 在 NTA-IoU（车辆检测框重合度）上相较于基线方法（如 Street Gaussians 和 DriveDreamer4D）提升了 24.87%，在 NTL-IoU（车道线重合度）上提升了 6.72%，同时 FID（图像质量评估）降低了 29.97%。用户研究表明，96.88% 的用户认为 ReconDreamer 在大动作渲染中优于 DriveDreamer4D。

▲不同方法在各种新轨迹视角下的分数比较

定性分析结果显示，ReconDreamer 有效消除了远景模糊和天空噪点，保持了车辆位置和形状的一致性，并确保车道线在大偏移下的平滑无断裂。

此外，消融实验结果表明，DriveRestorer 的主干网络基于 DriveDreamer-2 的掩码版本效果最佳，而 PDUS 的步长设定为 1.5 米时性能最优，过大的步长会导致噪声累积。

▲不同骨干网络下的 DriveRestorer 的分数比较

ReconDreamer 的创新点在于首次将世界模型与动态重建结合，实现了实时修复渲染缺陷，并通过渐进式训练策略解决了大动作渲染中的数据分布偏移问题。

这为自动驾驶闭环仿真提供了高保真传感器数据生成方案，支持复杂场景（如紧急变道和多车交互）的可靠测试。

▲ ReconDreamer 在 3 米处变道和 6 米处变道的新轨迹渲染的定性比较

然而，ReconDreamer 也存在一些局限性，如在线修复机制增加了训练时间，且目前仅在 Waymo 数据集上进行了验证，未来需要扩展至更多复杂环境（如雨天和夜间）。

此外，实时性优化也是未来的研究方向，可以探索轻量化 DriveRestorer 的部署以满足实时仿真需求。

05.

结语：自动驾驶研究仍是行业前沿

就在今天，理想汽车创始人、董事长、CEO 李想在社交媒体上表示，自从特斯拉的全自动驾驶（FSD）功能入华后，经过对比，理想 AD Max V13 的接管次数明显少于特斯拉 FSD，表现更好。

李想还提到，理想 AD Max V13 基于 1000 万条数据进行训练，并于 2 月 27 日全面推送，得到了用户的好评。

▲理想汽车创始人、董事长、CEO 李想评论智驾和 FSD

而这样的体验背后，和理想汽车在一线量产的科研能力是分不开的。

理想汽车在本次会议中展现的 4 项研究成果，聚焦自动驾驶仿真领域的关键痛点，通过技术创新为行业提供了新的解决思路。

目前来看，自动驾驶仿真正从以 NeRF/3DGS（神经辐射场 /3D 高斯）为核心的几何重建 1.0 阶段向动态交互融合生成式 AI 与世界模型的 2.0 阶段加速迭代。

CVPR 2025 的激烈竞争再次印证了计算机视觉与自动驾驶技术的深度融合趋势。

未来，如何平衡生成质量与计算效率、扩展多传感器仿真能力，或将成为车企角逐自动驾驶技术制高点的关键赛道。

宙世代

一起剪

相关标签