车东西 2025-12-29
小鹏北大VLA论文入选顶会!用“小模型”跑赢大模型,推理提速4倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

可过滤无关元素,计算量减少 7 倍。

作者 |  Janson

编辑 |  志豪

端到端自动驾驶大模型可以 " 脱离云端、直接上车 " 了?!

车东西 12 月 29 日消息,日前,北京大学与小鹏汽车团队的最新研究成果 FastDriveVLA 被人工智能顶会 AAAI 2026 收录。

▲小鹏官宣此次获奖信息

这次双方研究的内容并非实验室里的纸上谈兵,而是通过一个参数量仅为 0.07B(7000 万)、计算开销几乎可以忽略不计的即插即用模块 ReconPruner,硬生生将 VLA 大模型的整体计算量(FLOPs)削减了 7.5 倍。

要知道,车端算力 " 寸土寸金 ",它打通了高性能 AI 算法与量产硬件之间的 " 天堑 "。

这意味着原本需要昂贵算力集群支撑的端到端大模型,现在已经具备了在英伟达等主流车载芯片上实现低延迟、高响应运行的能力。

AAAI2026 作为人工智能领域的 CCF-A 类顶级会议,北京大学与小鹏汽车的研究论文被这样的顶会收录,也说明了其研究内容的价值。

01.

车机算力有限

让 AI 学会 " 只看重点 "

在智驾系统进入 " 端到端 " 时代的当下,VLA 模型展现出的拟人化推理能力也让自动驾驶进入到一个新高度,但随之而来的 " 算力黑洞 " 也让工程师们倍感头疼。

举个例子,为了让 AI 看清复杂的十字路口,系统必须将高清图像切碎成数以千计的 Token 喂给大模型。

这样就造成了一个问题——视觉 Token 的通胀,在毫秒必争的驾驶决策中,庞大的计算量直接导致了车机 " 跑不动、反应慢 ",甚至可能出现因推理延迟导致的系统卡顿。

此前,业界并非没有尝试过对这些 Token 进行 " 剪枝 " 去重,但效果不稳定,像盲人摸象。

▲三种剪枝策略对比

传统的注意力剪枝法(Attention-based)过度依赖文本指令,但在自动驾驶场景下,简单的驾驶指令往往无法提供足够的辨识权重,导致系统为了追求极致速度,可能会在不经意间删掉远处微小的红绿灯或障碍物。

而另一类基于相似度的剪枝法(Similarity-based)则过于追求视觉上的多样性,它们可能会为了保留独特性而记录路边的野花和天空的流云,却忽略了对决策至关重要的、平淡无奇的路面信息。

对此,北京大学和小鹏汽车团队合作的 FastDriveVLA 引入了极其朴素的 " 人类驾驶直觉 "。

就像老司机在开车时,视网膜会自动过滤掉高耸的建筑和空旷的天空,瞳孔始终锁定的只有路面、行人和周边的车辆。

这种对 " 前景信息 " 的专注,正是 FastDriveVLA 的方案逻辑核心,AI 不再对整张图像进行全量计算,而是精准捕捉并保留关键的前景 Token。

这种思维转变,让 AI 对算力的要求减少 7.5 倍,也避免了算力的浪费。

02.

ReconPruner

一个 0.07B 的 " 超级过滤器 "

能实现上边的这种效率的提升,离不开 ReconPruner 这个参数量仅为 0.07B 的微型模块。如果说 VLA 模型是整车智驾的 " 大脑 ",那么 ReconPruner 就是一个敏锐且轻量化的视觉中枢。

在 AI 领域,优化庞大的模型通常意味着动辄数万美元的重新训练成本,但 ReconPruner 这 7000 万参数的量级对于动辄 3B 起步的 VLA 主模型来说几乎可以忽略不计。

▲ FastDriveVLA 总体架构

它能够以即插即用的方式无缝集成到 Qwen2.5-VL 等大模型上,这种设计不仅极大地降低了量产部署的门槛,也让现有的智驾模型可以低成本升级,而无需修改主模型。

但真正让 ReconPruner 产生质变的,是一套被称为 " 对抗重建(AFBR)" 的设计逻辑。

这套策略本质上是系统要求 ReconPruner 利用选中的 Token 尝试还原画面,如果它选出的 Token 确实包含了车辆、车道线等核心前景,重建出的画面质量就会更高。

反之,如果它关注了背景,重建结果就会不理想。

为了防止 AI 在这一过程偷懒,研究团队还引入了对抗博弈机制,强制要求模块必须在前景和背景之间做出明确的价值判断。

在这种严苛的训练下,ReconPruner 被打磨成了一个能精准锁定关键驾驶目标的过滤器。

而支撑起这套 " 视觉本能 " 的基础,则是北大与小鹏团队潜心构建的 nuScenes-FG 数据集。

▲ nuScenes-FG 数据集

这套包含 24.1 万对高质量标注图像的数据集,对复杂的交通环境进行了像素级的拆解,将车辆、行人和道路边界等关键前景从杂乱的背景噪声中剥离出来。

正是这些海量的、带有标准答案的教材,喂出了 AI 的驾驶直觉,让 FastDriveVLA 能够在大模型处理海量视觉流的瞬间,精准切中影响安全的核心关键。

03.

计算量缩减 7.5 倍

AI 反而变聪明了?

在科技产品的迭代逻辑中,人们往往习惯了性能越高,功耗越高的直觉,但 FastDriveVLA 在测试场拿出的硬核数据,却展示了一种 " 反直觉 " 的进化。

从算力开销来看,FastDriveVLA 对冗余信息的修剪堪称 " 暴力 "。在 nuScenes 基准测试中,VLA 模型的整体算力开销(FLOPs)从原始的 38.2T 骤降至 5.1T,整整实现了 7.5 倍的缩减。

▲不同模型效率分析

这种算力压力的释放直接反馈在了推理速度上,这套模型在预填充阶段(Prefill)实现了 3.7 倍的提速,而解码阶段(Decode)也提升了 1.3 倍。

对于智驾系统而言,这省下的每一毫秒,都是为突发情况争取时间。

除此之外,性能的反常识增长也是这个模型的关键能力。

▲不同模型的性能对比

实验数据显示,在将视觉 Token 剪枝 25% 的情况下,FastDriveVLA 在 L2 轨迹预测误差和路面边界交集率等核心指标上,超过了未经过任何剪枝的完整模型。

这就引发了一个值得思考的问题,为什么小模型反而比 " 大模型 " 更聪明?

从这个模型设计原理中不难看出,当下,冗余信息往往是 AI 决策的干扰项,当 AI 分配算力去处理天上的云朵、路边的写字楼或无关紧要的植被时,这些背景噪声都在稀释大模型的逻辑推理能力。

▲不同算法的 " 眼力 " 对比

FastDriveVLA 就像是一个专业降噪器,通过过滤掉这些噪声,让大模型得以专注核心任务。

这也让 AI 的规划逻辑从过去的 " 博而不精 ",进化成了如今可以对相关场景实现 " 精准打击 "。

04.

结语:VLA 效率再提升

小鹏与北大的这项研究让已经上车的 VLA 模型,跑得更轻盈、更聪明。

FastDriveVLA 的出现,本质上是对算力不足恐惧症的化解,在智能驾驶的下半场,竞争不再仅仅取决于谁的模型参数更大,而在于谁能更高效地利用每一分车载算力。

可以说,这种通过复刻人类驾驶的方法,让 ReconPruner 这种极轻量化模块不仅解决了感知层面的噪声干扰,更打通了顶层算法与底层硬件之间的效能壁垒。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

小鹏汽车 北京大学 人工智能 自动驾驶 小鹏
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论