破解在线长时序重建难题！纯视觉、单卡实时的公里级流式3D重建

在自动驾驶、具身智能、AR/VR 应用中做 3D 重建，大家都想解决一个终极问题：

模型能不能像人一样，一边往前看，一边持续构建三维世界？

但真做起来，这件事远比想象中难。

短序列或离线场景下，很多方法已经能取得不错效果；但一旦进入真实长视频、严格在线、未来帧不可见的设定，问题就会迅速暴露出来：

序列越长，精度越容易退化

长时推理下，尺度不断漂移

缓存持续累积，推理稳定性迅速下降

内存与延迟随序列增长恶化，甚至直接 OOM

这正是长序列 3D 重建长期难以真正落地部署的核心原因。

在即将到来的CVPR 2026中，由香港科技大学（广州）与地平线等机构联合提出的LongStream，正是为了解决这一问题而来。它不是一个只在短序列上 " 看起来不错 " 的方法，而是一个围绕长序列、严格在线、实时流式推理重新设计的 3D 视觉模型。目前，论文、代码和交互式 Demo 已全部开源。

这项工作的几个核心亮点非常直接：

18 FPS 流式自回归推理

支持公里级超长序列

实现稳定的米制尺度重建

支持上千帧序列的稳定重建

换句话说，这项工作的重点不是 " 离线把结果磨漂亮 "，而是：

让 3D 重建真正具备了长时间在线运行的系统形态。

它到底解决了什么问题？

在 3D 视觉领域，超长序列的流式重建一直是一个公认的难题。现有的自回归（Autoregressive）模型在处理长序列时往往会遭遇 " 滑铁卢 "，主要原因在于：

1. 第一帧锚定依赖：主流方法通常将相机位姿绑定到第一帧。训练时只见短序列，推理时却要滚动处理长序列，这种训练—推理错位会不断放大外推误差，最终导致退化甚至崩溃。

2. 注意力陷阱（Attention Sink）：模型会像大语言模型一样出现 attention sink，注意力异常沉积在首帧 token，而不是对重建更关键的时空邻近帧，从而违背局部几何约束。

3. KV cache 缓存污染：长期累积的 KV cache 会带来表征污染、记忆饱和和几何漂移，进一步拉低长序列重建精度。

在严格在线设定下，模型不能偷看未来，也不能随时回头做全局优化，它必须在历史受限、误差不可撤销的条件下持续前滚。只要位姿锚定方式、尺度建模方式、缓存训练方式有一个地方设计不对，长序列就会很快崩掉。

（图 1：基线方法存在明显的 attention sink 现象，模型过度关注第一帧，而忽视了与局部几何一致性更相关的近期帧。这种不平衡会导致 RPE 快速增长，并削弱长程预测稳定性。）

核心创新

（图 2：LongStream 整体框架。模型在严格在线设定下持续预测位姿、深度、pointmap 与全局尺度。）

为了解决上述问题，LongStream 提出了一种全新的Gauge-decoupled 流式视觉几何架构，核心包括三点：

摆脱 " 第一帧锚定 "：LongStream 不再将所有位姿都绑定到初始帧，而是预测相对关键帧的位姿。这样一来，原本难度随时间递增的长程外推问题，被改写成了难度更稳定的局部任务，从而显著提升了超长序列下的鲁棒性。

缩小训练与推理鸿沟：LongStream 进一步识别出，attention sink 和长期 KV cache 污染是长时退化的关键来源。为此，作者提出缓存一致训练，在训练阶段显式传递并裁剪缓存，使训练时的可见上下文尽可能贴近真实流式推理，从而引导模型学习稳定的局部时序依赖，而不是继续过度依赖首帧。

解决缓存顽疾：在此基础上，LongStream 结合周期性缓存刷新，定期边缘化陈旧上下文，清理退化记忆，抑制长期饱和与几何漂移。由于整个系统建立在关键帧相对坐标系上，缓存可以在关键帧处刷新而不破坏重建一致性，从而更接近 " 无限流 " 处理能力。

实验结果

在 KITTI、Waymo、TUM-RGBD 等多个室内外基准测试中，LongStream 都表现出了非常强的竞争力：

在保持较低显存占用的同时，实现了18 FPS的流式推理；

相比显存随序列长度快速增长的 baseline，LongStream 在千帧级 streaming 测试中资源占用更加稳定；

在数公里长的 KITTI 序列中，LongStream 不仅没有丢失跟踪，其 ATE 也显著优于现有在线方法。下面几组结果分别展示了 LongStream 在轨迹误差、长序列稳定性、资源占用和可视化重建效果上的表现。

（图 3：KITTI 场景下的可视化对比结果。其他方法随着序列变成出现了跟丢或者崩溃的现象，而 LongStream 保持稳定。）

（图 4：室内场景下的可视化对比结果。即使在更复杂的室内环境中，LongStream 依旧保持稳定。）

（图 5：KITTI 场景下的 ATE 对比结果。随着行驶距离增加，传统方法的误差迅速放大，甚至出现跟丢，而 LongStream 始终保持较低的轨迹误差和稳定的米制尺度。）

（图 6：其他数据集上的 ATE 对比结果。LongStream 在多个基准测试中都保持了很强的竞争力。）

从系统角度看，LongStream 其实更像 " 在线世界建模引擎 "，不再把 3D reconstruction 当作一个静态任务，而是

持续更新的在线三维世界建模。

它不是只输出某一时刻的单帧深度，也不是离线做完再统一拼接，而是在不断接收新观测的同时，维护全局三维状态。

为什么这件事重要？

因为未来很多视觉系统都不需要 " 看完再算 "，而需要 " 边看边建 "。

比如：

机器人需要边走边维护空间地图

自动驾驶需要边行驶边估计可用几何

AR 眼镜需要边佩戴边更新环境理解

Embodied AI 需要在长期交互中持续累积 3D memory

这些场景的共同要求不是某一帧精度极高，而是：

系统要能长期稳定、实时更新、资源可控。

LongStream 的意义就在这里：它展示了一条更接近真实部署约束的 3D 视觉范式，不是一次性重建一个场景，而是持续维护一个世界。

结语

LongStream 的价值，不只是把分数再往前推了一点，而是把流式 3D 重建真正推进到了严格在线、单卡友好、上千帧稳定、公里级可扩展的新阶段。

当 3D 视觉开始从 " 离线重建 " 走向 " 在线世界建模 "，这类工作会变得越来越重要。对于机器人、自动驾驶和 embodied AI 而言，LongStream 提供了一条值得持续关注的技术路径。

论文题目：

LongStream: Long-Sequence Streaming Autoregressive Visual Geometry

论文链接：

https://arxiv.org/abs/2602.13172

项目主页：

https://3dagentworld.github.io/longstream/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签