12 月 20 日,旧金山断电了。
一场变电站火灾让这座城市近三分之一的区域陷入黑暗,13 万居民失去电力,数百个路口的红绿灯同时熄灭。
然后,Waymo 也 " 出事 " 了。
流传在社交媒体上的视频显示,这些白色的捷豹 I-PACE 停在路口中央,打着双闪,一动不动。不是一辆两辆,而是成片地趴窝。旧金山警察不得不出动,像疏导真人司机一样,用手势指挥这些无人车辆挪开。市长 Daniel Lurie 亲自给 Waymo CEO 打电话,要求立即把车撤走。
Waymo 官方后来解释,系统设计上,遇到红绿灯失灵会按四向停车规则处理,但当天停电规模太大,车辆集中向远程运营团队发送 " 确认请求 ",系统过载了。
翻译成人话就是,这些车不知道该怎么办,只好停下来问人。但问的车太多,后台接不过来,于是大家一起卡死。
同一天,马斯克在 X 上发了一条推文:Tesla Robotaxis were unaffected by the SF power outage(特斯拉的 Robotaxi 没有受到旧金山停电的影响)。

一边是集体瘫痪,一边是照常运行。
这暴露的是两条技术路线在极端场景下的差异。Waymo 的系统需要后台兜底,当后台过载,车就陷入等待;特斯拉的端到端模型在车上独立运行,不依赖远程协助。
Waymo 代表的是重感知、重冗余的路线。激光雷达主导,高精地图打底,遇到极端情况就呼叫远程人工协助。这套系统在限定区域内表现出色,它对基础设施和后台支持的依赖太重了。而这种系统架构层面的脆弱性,不是靠增加几个接线员能解决的。
特斯拉走的是另一条路,端到端神经网络。不依赖规则,让 AI 从几十亿英里的真实驾驶视频中 " 学会 " 开车。它不是在执行指令,而是在 " 理解 " 道路。遇到红绿灯坏了,它会像人类老司机一样观察路口、判断车流,自己决定什么时候走。
NVIDIA 机器人部门负责人 Jim Fan 最近试驾了特斯拉 FSD v14 后评价:" 我分不清是神经网络还是人类在开车。" 他管这叫 " 通过了物理图灵测试 "。
这场旧金山停电,本质上是一场技术路线的公开考试。
考题很简单。当规则失效、地图过时、通讯中断,你的车还能不能自己开?
越来越多的证据指向同一个方向,端到端大模型,正在成为通往 L4 级自动驾驶最可行的技术路径。
而在中国,有一家车企正在走同样的路,而且已经用实车证明了这套逻辑。
" 涌现 " 时刻
12 月初,一段视频在汽车圈里小范围传播。
画面里是一辆小鹏测试车在夜间行驶,前方突然出现交警查酒驾的临时检查点。没有提前预警,没有地图标注,车辆的智驾系统识别出了交警的手势,平稳减速,停在了指定位置。
发布这段视频的是小鹏汽车智驾产品负责人袁婷婷。她给这条微博配的文字是 "VLA2.0 涌现场景 "。

这个场景看起来简单,但它恰恰是 " 工程化 + 地理围栏 " 路线最头疼的问题。交警的手势是临时的,位置是随机的,姿态是多变的。你没办法提前写好规则告诉车看到这个手势就停,因为手势本身就有无数种变体。
只有学会了理解世界的模型,才能处理这种情况。
这里的 " 涌现 " 就像大语言模型在参数量突破某个临界点后突然展现出推理能力一样,VLA 模型在足够多的数据训练后,也开始具备类似人类的判断力。它不是在执行预设指令,而是真的看懂了交警想让它做什么。
当然,这并不是一个量产能力,只是日常软件测试中的偶发瞬间。但从这种偶然性中,能够窥见模型的类人智能,如果模型能够自主应对这一种临时场景,那它大概率还能处理更多的意外情况。当处理能力足够强,L2 和 L4 之间的界限就开始模糊了。
何小鹏在今年多次公开表态中反复提到一个观点:小鹏要用一套软件,实现 L2 直通 L4。不搞两套系统,不在辅助驾驶和自动驾驶之间划一道鸿沟。同一个模型,装在普通私家车上是 L2,装在 Robotaxi 上就是 L4。差别在于算力配置和安全冗余,不在于底层技术路线。
这个思路和特斯拉一致。而要支撑这套逻辑,小鹏需要证明自己真的有能力把大模型从云端落到车端。
一整年的技术铺垫
小鹏的底气不是凭空来的。回看 2025 年,这家公司每隔一段时间就会抛出一个重磅技术进展,像是在系统性地讲述一个完整的故事。
4 月,香港。 小鹏举办 AI 技术分享会,首次披露正在研发 720 亿参数的 " 物理世界基座模型 "。这个参数量是当时主流 VLA 模型的 35 倍左右。同时曝光的还有建成国内汽车行业首个万卡智算集群,算力达到 10 EFLOPS,集群利用率常年保持在 90% 以上。
更重要的是,小鹏团队宣布他们在 10 亿、30 亿、70 亿、720 亿参数的模型上都观察到了明显的 Scaling Law 效应。自动驾驶模型的性能随着参数的增加而明显提升。小鹏官宣这是行业内首次明确验证规模法则在自动驾驶领域持续生效。

6 月,美国纳什维尔。 计算机视觉顶会 CVPR 举办自动驾驶研讨会(WAD),小鹏是唯一受邀演讲的中国车企,与 Waymo、英伟达、UCLA 同台。时任小鹏世界基座模型负责人、现任小鹏汽车自动驾驶负责人刘先明分享了一个关键数据。云端基模训练过程中处理了超过 40 万小时的视频数据,GPU 流式多处理器利用率(SM utilization)达到 85%。
他还透露了一个技术方向。VLA 模型的计算量主要来自视觉输入端,小鹏团队正在探索如何在不损失关键信息的前提下,大幅压缩视觉 Token 的处理量。
这个方向后来有了新的进展。
11 月,广州。 小鹏科技日,小鹏第二代 VLA 正式发布。
和传统 VLA 架构的视觉 - 语言 - 动作(Vision-Language-Action)不同,小鹏的第二代 VLA 去掉了中间的 Language 层,实现了从视觉信号到动作指令的端到端直接输出。用小鹏的话说,就是 " 拆掉了翻译官,让眼睛直接指挥手脚 "。
这套模型有多大?数十亿参数。跑在哪里?由三颗自研图灵 AI 芯片构成、总算力达 2250TOPS 的车端平台上。训练数据量接近 1 亿 clips,按官方换算相当于人类司机约 6.5 万年的等效驾驶经验。在如此庞大的数据吞吐下,其全链路模型的迭代周期仅为 5 天。
何小鹏实测 VLA2.0:大路丝滑、小路顺畅、园区自如
从云端 720 亿参数基座模型,到强化学习训练,到知识蒸馏,到车端部署,再到用户反馈数据回流云端继续训练。这套闭环,小鹏称之为 " 云端模型工厂 "。
到这里,一条完整的技术链路已经清晰了。云端怎么训、车端怎么跑、数据怎么闭环,小鹏都跑通了。
但还有一个关键问题没解决。
最后一块拼图
云端怎么训已经讲清楚了,但还有一个问题:怎么让大模型在车端跑起来?
这是个通用难题。模型越大能力越强,可车端算力是有限的。云端可以堆几千张 GPU,车上只有几颗芯片。云端 720 亿参数的基座模型可以不计成本地跑在 GPU 集群上,但车上不可能塞一台服务器。即便经过蒸馏,车端模型也有数十亿参数,而目前行业内大多数车端模型只有千万级别。参数量差了两个数量级,对算力的要求完全不同。
无论是 L2 的量产车还是未来的 L4 Robotaxi,都绕不开这个问题。
小鹏和北京大学联合完成的一篇论文,提供了一种解法。这篇论文刚刚被 AAAI 2026 录用,名字叫《FastDriveVLA》。

它要解决的问题很明确。VLA 模型在处理视频输入时会产生大量的视觉 Token,这些 Token 是计算量的主要来源。据称,以一个配备 7 个摄像头的 VLA 模型为例,每输入约 2 秒的视频内容,就会产生超过 5000 个 Token。Token 越多,计算越慢,延迟越高。
论文提出了一个专为端到端自动驾驶 VLA 模型设计的视觉 Token 剪枝框架。核心思路是区分 " 前景 " 和 " 背景 "。对于自动驾驶来说,道路、车辆、行人、交通标志、交通障碍物是前景,天空、远处的建筑是背景。前景的 Token 要保留,背景的 Token 可以不要。

FastDriveVLA 框架
为了训练这个剪枝器,研究团队先构建了一个大规模数据集 nuScenes-FG,包含来自 6 个摄像头视角的 24.1 万个带有前景标注的图像。在训练方法上,团队采用了 MAE 风格的像素重建策略,并引入了一种对抗性前景 - 背景重建机制,让剪枝器在学习重建前景的同时,也必须区分背景,从而增强对前景 Token 的识别能力。
最终训练出的剪枝器叫 ReconPruner,参数量只有 7000 万,可以即插即用地嵌入现有的 VLA 模型。它能给每个视觉 Token 打一个 " 重要性分数 ",然后只保留分数最高的那些。
效果很直接。论文实验中,单次输入产生的 3249 个视觉 Token 被降至 812 个,减少 75%。推理效率的提升同样显著。FLOPs 降低 7.5 倍,预填充时间缩短 3.7 倍,解码时间缩短 1.3 倍。对于车端实时运行来说,这意味着更低的延迟和更快的响应。
而且,当视觉 Token 减少之后,模型的性能不但没下降,反而有所提升。实验结果显示,在 nuScenes 开环规划基准测试中,FastDriveVLA 在 25%、50%、75% 的剪枝比例下均优于现有方法,取得了 SOTA 性能。尤其当剪枝 25% 时,L2 轨迹误差和碰撞指标甚至略优于未剪枝的原始模型。论文的解释是,砍掉冗余的背景 Token 反而让模型更专注于真正重要的前景信息,而这正是提升自动驾驶性能的关键。
把这套技术翻译成工程意义就是,通过在视觉输入端做优化,让参数量巨大的 VLA 模型也能在车端跑起来。这对 L2 量产车和 L4 Robotaxi 都有价值。对于 L2 车型,它让更强的模型能跑在现有算力上;对于未来的 Robotaxi,它让成本结构有了优化空间。
L4 的商业想象力
今年 11 月的小鹏科技日上,何小鹏宣布了一个激进的计划。
2026 年,小鹏将推出三款 Robotaxi 车型,起售价低于 20 万元人民币。2027 年,在部分城市开启 Robotaxi 试运营。
这个定价是什么概念?分析师普遍认为,Waymo 单车成本至少是十几万美元,折合人民币超过 100 万。即使考虑到 Waymo 用的是改装车而小鹏是原生设计,这个价差也足够惊人。这种高额的单车成本使得 Waymo 必须在 2-3 年内跑出极高的里程才能回收车辆初期投资,这对运营效率提出了巨大挑战。
小鹏的成本优势来自几个方面。第一,纯视觉方案,不依赖激光雷达和高精地图。第二,芯片 - 算子 - 模型的软硬件联合研发,视觉 Token 剪枝就是基于自研软硬件特性而开展的技术创新。第三,一套软件同时覆盖 L2 和 L4,研发成本摊薄。
更值得注意的是小鹏对 Robotaxi 商业模式的思考。
传统 Robotaxi 是纯 2B 的生意。运营商买车、养车、调度车,乘客只是付费乘坐。但小鹏提出了一个新玩法。除了 Robotaxi 之外,他们还会在 2026 年推出一个叫 "Robo" 的智驾版本,面向私人用户销售。这个版本和 Robotaxi 采用相同的硬件配置、安全冗余和智驾技术,但车归你,想自己开也行,想让车自己开也行。

1950 年代想象未来自动驾驶的插画
换句话说,2B 和 2C 两条路小鹏都要走。
Robotaxi 跑运营,赚服务费。Robo 卖给私人,赚硬件和软件的钱。同一套技术底座,两种商业模式。
在 11 月的小鹏科技日上,何小鹏还宣布了一项合作。高德将成为小鹏 Robotaxi 的首个全球生态合作伙伴,双方未来将共同在全球范围内提供 Robotaxi 服务。这意味着小鹏不打算自己从零做运营,而是开放 SDK,让合作伙伴一起来。
这套打法的逻辑很清晰。L4 不是终点,而是一个新的起点。当自动驾驶能力足够强,车就不再只是代步工具,而是一个可以创造收入的资产。你可以自己用,也可以让它出去跑 Robotaxi 帮你赚钱。
传统车企卖的是硬件,利润空间越卷越薄。而 L4 能力带来的是服务收入、数据价值,以及一个可以复用到机器人、飞行汽车等更多场景的技术底座。
这是完全不同的故事。
下一个要回答的问题
把时间线拉回来看,小鹏在 2025 年做的事情可以用一句话概括。他们跑通了从 L2 直达 L4 的完整技术路径,并且把成本打到了可以量产的水平。
4 月披露云端 720 亿参数基座模型,验证 Scaling Law。6 月在 CVPR 展示云端训练和车端部署的工程能力。11 月发布第二代 VLA,去掉语言层,实现端到端直出。12 月,与北大合作的论文被 AAAI 录用,解决了车端模型高效部署的最后一环。
每一步都在回答同一个问题。大模型路线怎么落地?
现在,下一个要回答的问题变成了:量产之后,体验到底怎么样?
小鹏给出的时间表是,2026 年第一季度,第二代 VLA 将在 Ultra 车型上启动量产,率先在 L2 车型落地。
L2 到 L4 的技术路径有没有真的跑通,答案很快就会揭晓。


登录后才可以发布评论哦
打开小程序可以发布评论哦