在自动驾驶、具身智能、AR/VR 应用中做 3D 重建,大家都想解决一个终极问题:
模型能不能像人一样,一边往前看,一边持续构建三维世界?
但真做起来,这件事远比想象中难。
短序列或离线场景下,很多方法已经能取得不错效果;但一旦进入真实长视频、严格在线、未来帧不可见的设定,问题就会迅速暴露出来:
序列越长,精度越容易退化
长时推理下,尺度不断漂移
缓存持续累积,推理稳定性迅速下降
内存与延迟随序列增长恶化,甚至直接 OOM
这正是长序列 3D 重建长期难以真正落地部署的核心原因。
在即将到来的CVPR 2026中,由香港科技大学(广州)与地平线等机构联合提出的LongStream,正是为了解决这一问题而来。它不是一个只在短序列上 " 看起来不错 " 的方法,而是一个围绕长序列、严格在线、实时流式推理重新设计的 3D 视觉模型。目前,论文、代码和交互式 Demo 已全部开源。

这项工作的几个核心亮点非常直接:
18 FPS 流式自回归推理
支持公里级超长序列
实现稳定的米制尺度重建
支持上千帧序列的稳定重建
换句话说,这项工作的重点不是 " 离线把结果磨漂亮 ",而是:
让 3D 重建真正具备了长时间在线运行的系统形态。
它到底解决了什么问题?
在 3D 视觉领域,超长序列的流式重建一直是一个公认的难题。现有的自回归(Autoregressive)模型在处理长序列时往往会遭遇 " 滑铁卢 ",主要原因在于:
1. 第一帧锚定依赖:主流方法通常将相机位姿绑定到第一帧。训练时只见短序列,推理时却要滚动处理长序列,这种训练—推理错位会不断放大外推误差,最终导致退化甚至崩溃。
2. 注意力陷阱(Attention Sink):模型会像大语言模型一样出现 attention sink,注意力异常沉积在首帧 token,而不是对重建更关键的时空邻近帧,从而违背局部几何约束。
3. KV cache 缓存污染:长期累积的 KV cache 会带来表征污染、记忆饱和和几何漂移,进一步拉低长序列重建精度。
在严格在线设定下,模型不能偷看未来,也不能随时回头做全局优化,它必须在历史受限、误差不可撤销的条件下持续前滚。只要位姿锚定方式、尺度建模方式、缓存训练方式有一个地方设计不对,长序列就会很快崩掉。

(图 1:基线方法存在明显的 attention sink 现象,模型过度关注第一帧,而忽视了与局部几何一致性更相关的近期帧。这种不平衡会导致 RPE 快速增长,并削弱长程预测稳定性。)
核心创新

(图 2:LongStream 整体框架。模型在严格在线设定下持续预测位姿、深度、pointmap 与全局尺度。)
为了解决上述问题,LongStream 提出了一种全新的Gauge-decoupled 流式视觉几何架构,核心包括三点:
摆脱 " 第一帧锚定 ":LongStream 不再将所有位姿都绑定到初始帧,而是预测相对关键帧的位姿。这样一来,原本难度随时间递增的长程外推问题,被改写成了难度更稳定的局部任务,从而显著提升了超长序列下的鲁棒性。
缩小训练与推理鸿沟:LongStream 进一步识别出,attention sink 和长期 KV cache 污染是长时退化的关键来源。为此,作者提出缓存一致训练,在训练阶段显式传递并裁剪缓存,使训练时的可见上下文尽可能贴近真实流式推理,从而引导模型学习稳定的局部时序依赖,而不是继续过度依赖首帧。
解决缓存顽疾:在此基础上,LongStream 结合周期性缓存刷新,定期边缘化陈旧上下文,清理退化记忆,抑制长期饱和与几何漂移。由于整个系统建立在关键帧相对坐标系上,缓存可以在关键帧处刷新而不破坏重建一致性,从而更接近 " 无限流 " 处理能力。
实验结果
在 KITTI、Waymo、TUM-RGBD 等多个室内外基准测试中,LongStream 都表现出了非常强的竞争力:
在保持较低显存占用的同时,实现了18 FPS的流式推理;
相比显存随序列长度快速增长的 baseline,LongStream 在千帧级 streaming 测试中资源占用更加稳定;
在数公里长的 KITTI 序列中,LongStream 不仅没有丢失跟踪,其 ATE 也显著优于现有在线方法。下面几组结果分别展示了 LongStream 在轨迹误差、长序列稳定性、资源占用和可视化重建效果上的表现。

(图 3:KITTI 场景下的可视化对比结果。其他方法随着序列变成出现了跟丢或者崩溃的现象,而 LongStream 保持稳定。)

(图 4:室内场景下的可视化对比结果。即使在更复杂的室内环境中,LongStream 依旧保持稳定。)

(图 5:KITTI 场景下的 ATE 对比结果。随着行驶距离增加,传统方法的误差迅速放大,甚至出现跟丢,而 LongStream 始终保持较低的轨迹误差和稳定的米制尺度。)

(图 6:其他数据集上的 ATE 对比结果。LongStream 在多个基准测试中都保持了很强的竞争力。)
从系统角度看,LongStream 其实更像 " 在线世界建模引擎 ",不再把 3D reconstruction 当作一个静态任务,而是
持续更新的在线三维世界建模。
它不是只输出某一时刻的单帧深度,也不是离线做完再统一拼接,而是在不断接收新观测的同时,维护全局三维状态。
为什么这件事重要?
因为未来很多视觉系统都不需要 " 看完再算 ",而需要 " 边看边建 "。
比如:
机器人需要边走边维护空间地图
自动驾驶需要边行驶边估计可用几何
AR 眼镜需要边佩戴边更新环境理解
Embodied AI 需要在长期交互中持续累积 3D memory
这些场景的共同要求不是某一帧精度极高,而是:
系统要能长期稳定、实时更新、资源可控。
LongStream 的意义就在这里:它展示了一条更接近真实部署约束的 3D 视觉范式,不是一次性重建一个场景,而是持续维护一个世界。
结语
LongStream 的价值,不只是把分数再往前推了一点,而是把流式 3D 重建真正推进到了严格在线、单卡友好、上千帧稳定、公里级可扩展的新阶段。
当 3D 视觉开始从 " 离线重建 " 走向 " 在线世界建模 ",这类工作会变得越来越重要。对于机器人、自动驾驶和 embodied AI 而言,LongStream 提供了一条值得持续关注的技术路径。
论文题目:
LongStream: Long-Sequence Streaming Autoregressive Visual Geometry
论文链接:
https://arxiv.org/abs/2602.13172
项目主页:
https://3dagentworld.github.io/longstream/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦