对话任少卿：蔚来世界模型 2.0 之变，智能驾驶的大道之争

更深刻了解汽车产业变革

出品：电动星球

作者：蟹老板本人

蔚来全新的智能驾驶系统，世界模型 2.0 或者说 NWM 2.0 已经开始陆续推送了。

对于蔚来而言，这是一个极为重大的更新。因为，在 AI 智能时代，智能驾驶是高端品牌必须「争强」的核心战场。

关于这个版本的简单评测，我们的视频会很快上线。

今天的这篇文章，会比较特别。因为在新年之前，电动星球受邀作为评测媒体，参与了对 NWM 2.0 的非公开评测，并在随后参与了对蔚来智能驾驶的核心人物、智能驾驶副总裁任少卿、蔚来智能驾驶研发产品系统负责人佘晓丽的沟通会。

图片说明：蔚来智能驾驶研发产品系统负责人佘晓丽

在这场持续近 3 个小时的沟通会上，任少卿、佘晓丽极其罕见地从技术、路径、理论思考等各个角度，对高阶智能驾驶的路径选择、VLA 与世界模型的区别、专家数据集与量产数据的差异、乃至于强化学习到底能解决什么问题，做了极为深入的阐述。

如果把这些表达放在一起，它更像是一场关于技术路线选择、工程代价与时间耐心的深度自述，或者说智能驾驶路线的大道之争！

任少卿没有回避问题，也不急于给出答案。

图片说明：蔚来副总裁、自动驾驶研发首席专家任少卿

因为最终，体验会给出回答；用户会做出投票。

以下，是电动星球根据这场沟通会，尽可能做到的「不那么技术」的记录。

本周福利：公众号后台回复【顺遂】

可以参与现金红包的抽奖活动。

从规则到模仿

在智能驾驶的各类评测报告中，规则味比较重，确然已经成为了「批评」的话术。

规则重，在体验上往往代表机械、不流畅、卡顿，也意味着无法真正应对「小概率事件」。在技术人员的眼中，规则并不是 AI，更像是人类用经验编制的逻辑世界。

因此，在过去三年左右的时间内，尤其是随着 FSD V12、V13 的发布，不管是 BEV 也好，端到端也罢，中国的智能驾驶研发，不断在技术路线上跳动、改变，希望解决这样的非 AI、非拟人的问题。

当然，「规则是起点，没有规则，系统都跑不起来。」在参加沟通会时候，任少卿这样说。

举个例子，在蔚来的早期车型中，尤其是第一代车型，规则几乎承担了兜底职责：明确的变道距离、固定的减速逻辑、可解释的安全边界。

但随着城市场景复杂度提升，规则系统的边界迅速显现。「你可以为 99% 的场景写规则，但剩下的 1%，永远写不完。」任少卿说。

于是，模仿学习在第二阶段被引入。这个阶段，智能驾驶的热门话题，从开城数量、「全国都能开」，转变为「端到端」、「数据驱动」。

不过，哪怕这样的技术转变，「取得了巨大进步」，尤其是核心环节——参数规模跃升，能海量学习人类驾驶。

但它依然有根本的局限，用佘晓丽的话来说，就是端到端模型本质是用参数去「记住」见过的数据，再在真实场景里匹配模式；可现实世界的 case 复杂度远高于模型参数能覆盖的范围，于是模仿学习不可避免落入「概率平均陷阱」。

「我们将它的特点提炼为一个‘懒’字，研发内部更直接地称之为‘躺’。」

她解释，这类模型平顺、丝滑，是因为确实从人类行为中学来；但人类行为本身不均匀：有人换道、有人不换；有人缓行通过、有人穿插切入。系统「不知道哪种选择更好或更差」，只能学到概率平均，于是出现一串典型症状——路口起步不果断、换道犹豫、空旷路「异常低速」——也就是最令人头疼的「不起速」。

她给出的结论是：过去大家在「怎么更高效地记住和模仿人类」上做结构优化，但没有改变根本矛盾——系统缺少「目标意识」，缺少对行为优劣的显式判断。

Code 3.0

任少卿则在讲述时，引入了特斯拉的「Code 2.0」的概念来阐述智能驾驶路线上的演变。

Code 1.0 是规则：遇到路口要跨三车道，写一套「300 米变一次、200 米再变、100 米再变」。300 米旁边有车变不了，出 Bug，就「收集数据—分析原因—添加更多规则」。

问题在于，代码会越来越长，百万行级别的系统里，工程师「难以完全理解如此复杂的逻辑」，更难避免新增逻辑引发冲突——规则彼此打架。

Code 2.0 是数据：用模型把规则压进参数，通过看大量真实驾驶数据去解决变道、择道。

但数据驱动也会遇到另一个瓶颈：同一个场景里人类行为不一致，模型容易学到折中的「平均」。

左转并线「有人在这个点换、有人在那个点换」，模型选到「中间态」就会出问题；双向小路遇到骑行者，有人绕行有人跟随，模型为安全倾向保守跟随，却不符合用户对「高效、主动通行」的诉求。

对于 Code 2.0 遇到的问题，行业常见的方法是打补丁。大致有三类：加 SD+（地图指引长时序）、采专家数据（减少 diversity）、再加规则。

任少卿说得很现实：「第 1、3 条需要花钱，第 2 条路需要花人。」专家数据还存在地域强依赖——北京上海采过了，重庆还要专门采重庆本地「专家数据」。

那么，有没有 Code 3.0 呢？

任少卿说，其实是有的，譬如强化学习。蔚来当下正在发布的版本，就是「迈向完整强化学习系统的一步。」

遇到问题来打分

强化学习解决了什么问题？

首先，模型的逻辑性更好，因为训练中加入了代码、数学题等能够明确判断对错的数据，解决问题的范式发生了根本转变，不再是 Code 1.0 的「遇到问题添加规则」，也不是 Code 2.0 「遇到问题添加数据」，而是转变为「遇到问题我给你打分」。

模型输出结果后，系统根据好坏给予正负反馈，让模型自行学习应该生成什么样的结果。在这个过程中，首先机器会有自监督过程的。主要路径则有两种：一种是 reward 分数器，另一种是使用数据，比如说人类行为反馈的数据，让 reward 反推出来。

这样做的好处是什么？

任少卿用左转路口举例，说蔚来目前的解决方案是：构建一个仿真环境，并在该环境中，设定一条目标线。车辆成功越过给予奖励，且用时越短奖励越高。如此循环训练。当然，过程中会有一些更细节的专家数据约束，比如「如果压实线，我再给你扣两分」等。除此之外，几乎没有其他复杂规则。

「具体在哪个点位变道，如何安全通过三条车道，这些都由模型自己在仿真中探索解决。整个训练状态是如此。」

任少卿还强调，在上述这类场景的解决方案中，蔚来既没有依赖 SD+，也没有使用专家数据。

而这样做的好处主要有两点：

第一，没有增量数据，只要仿真环境中能构建出类似的路口场景，逻辑上来说就是泛化。不存在成百上千个特殊路口专门采集数据的繁琐过程，泛化性更有保障（因为只需要见过类似的 case 环境）。

第二，它没有复杂的规则，也就避免了规则之间的冲突。

一套规则可能在 90% 的路口有效，但会因为某个路口的条件假设不同而失效。越简单，泛化性质量会越好。

任少卿说，他们最近半年彻底改变了整体的迭代逻辑。上一个版本可能还是新旧方法混合的状态，而当前版本则完全转向了新的范式。从代码量来看，保持安全兜底逻辑，整体模型迭代是基于新体系。

需要补充的是，在问答环节，当有媒体问起，类似于强化训练、世界模型等，在去年 4 月份，或者更早时间各家都在说这个事情，从您的角度来看国内行业里真正进入 3.0 状态的系统多吗？

任少卿的回答是：在国内，实现完整强化学习的系统，目前只有蔚来这一个。

新范式

如果说任少卿强调的是「范式为什么必须变」，佘晓丽更强调「变了以后，体验为什么好」。

她总结蔚来新范式的三步：

第一步仍是模仿学习：大量学习人类行为与分布；

第二步在新的世界模型中做长时序推理；

第三步高频次闭环强化学习：把反馈持续注入模型。

这三步背后对应一个很具体的工程迁移：过去 NWM1.0 时代，小路场景里模型会「吐」出离旁车、甚至人很近的轨迹，蔚来会在推理端「外套一层规则」去筛选，譬如不要离人太近；任少卿也承认上一版他们会「模型输出 N 条候选轨迹，再用规则（reward 雏形）打分挑最优」，且横向多由模型、纵向速度由模型 + 规则共同控制。

但在新版本里，「车端不再输出多条候选轨迹，而是直接生成一条轨迹；横纵向控制都由模型自己控制」，不再是「模型一部分、规则一部分」。

任少卿补充：现在的方式是在训练端去「筛」，推理端只输出一条好的轨迹——把过去「跑在车上」的纠偏，尽量前移到训练与分布对齐阶段。

在具体场景上，任少卿点名「获益最多」的部分是：「偏航和过路口，包括加塞。」

佘晓丽则解释了偏航为什么更适合用长时序闭环推理：系统要提前预判——「如果一公里前不换道，一公里后就会偏航」，于是它会在早期接收到「此时不换道将受惩罚」的信号，从而主动决策。

她把这种能力当作新架构「最容易实现长周期数据闭环迭代」的证据：不是靠临近路口的临场反应，而是靠更长距离、更长时间的推演与奖励对齐。

数据吞吐

数据吞吐则是另一个需要展开来说的点。

在过去两年多的智能驾驶路线之争中，如何规避掉模仿学习的弊端，一直是核心话题。

从两段式端到端、再到 SD+、规则补齐，甚至小模型 + 大模型、专家数据集，从逻辑上看，起到的作用，跟「强化学习」是一样的。

如果说其他分支，譬如两段式、规则补齐等等，已经逐渐被行业抛弃，那么，在专家数据集的使用上，则一直有争议。

专家数据集，到底好不好？怎么用？要不要用？

任少卿的比喻是，「专家数据集」是「精致但昂贵的食材」。这些来自专业司机、测试车队，经过人工筛选、标注一致、质量极高的数据，能帮助模型快速建立基础能力。

但是，「专家数据很干净，但世界不是。」

在任少卿看来，专家数据有三个核心问题。

首先，成本极高，规模有限；其次，场景覆盖不可避免地受限；

这两点怎么理解？

任少卿说，专家数据的采集本身成本高昂，并且针对不同的 corner case，往往需要专门进行采集。

例如，在北京和上海采集了专家数据，但重庆有很多独特路况，北京或上海的司机可能并不知道该如何驾驶。因此，必须专门采集重庆的本地「专家数据」，才能进行有效训练。所以，依赖这条路径，意味着对特定场景的数据采集需要专门进行。

以及最重要的第三条，很难反映真实用户的行为分布。

在任少卿看来，专家驾驶数据，只保留了符合人类驾驶规范或我们期望值的数据，类似于大语言模型中提到的「对齐人类偏好」，但它并不能应对所有的行为分布。

而这三点，决定了「专家数据」不可能长期作为智能驾驶研发的「主粮」。

那主粮是什么？

从任少卿的讲述来看，毫无疑问他倾向于「量产数据」。

量产数据的优势在于其规模大，对于车辆而言几乎是无穷无尽的。但问题在于如何有效地使用这些数据。

任少卿说，量产数据最大的挑战在于「数据太脏」，不只是变道位置各不相同的案例，还包括压实线变道、司机玩手机分心导致轨迹异常等不规范驾驶行为。

因此，量产数据虽然体量庞大，但关键在于如何利用这些「脏数据」——也就是构建系统，构架强大的「消化能力」——进而能够「承受更多的脏数据」。

任少卿举例说，在模仿学习阶段，一个路口的「脏数据」，如拐弯变道的场景，所有的结果在模型里面是数据分布的。如 Top1 分布是 200m 变线，Top2 是 100m 变线，其次为 300m 变线，最后是不变线。

优先级的排序纯看数据的分布是什么。所以大家在做模仿学习的时候，很多工程师是选择调数据分布，通过调数据分布的方式来选择优先级，例如希望 200m 变线，那就把 200m 调成 Top1；如果针对某个场景结果不行，那就调整数据分布；

而现在，蔚来是通过写 reward 来调整优先级，更能确定数据里面的「脏数据」含量，通过强化学习的方式来改变模型偏好分布，改变模型的行为倾向，把原本排在后面的选项提到了前面。

佘晓丽把这套机制用更直观的比喻讲出来：强化学习「像教练，对每一个行为给出‘好’或‘不好’的反馈」，系统开始能区分「60 分」和「100 分」的细微差异。

她用「加塞」举例：一种是犹豫、鲁莽地切入；另一种是稍提前加速、敏捷地插入空隙。行为差异很小，但人的感受截然不同——前者让人想接管，后者让人觉得「很聪明」。

当然，只是单一的强化学习，目前来看，也并不能塞下所有的量产数据。

究其原因，是因为 AI 对话式的语言模型，几乎已经利用了互联网世界的所有数据，但目前还没有任何一个智驾或矩阵模型用到了同样体量的数据，因为处理真实世界的数据会更为复杂。

所以，「还需要其他技术来解决数据规模和脏数据的难题。这一块我们也在持续研究，后续有进展跟大家汇报。」

任少卿说，目前蔚来的整体状态是通过强化学习，使预训练阶段能够使用更多量产数据、承受更多「脏数据」。

另外，就技术而言，还有很多可以提升的点蔚来还没有实施。譬如加大数据规模、使用 SD+ 等等，都会带来肉眼可见的提升。「后续我们会在某些版本中逐步加入这些优化。」

大道之争

在外界讨论中，智能驾驶的技术路线常被简化为几种标签：VLA（Vision-Language-Action）、世界模型、端到端强化学习等等。而在当下的中国，一个主流的路线竞争，就是 VLA 与世界模型到底谁会成为正确的道路？

任少卿说，VLA 路线的优势在于：短期效果明显、与大语言模型生态协同度高、在复杂语义理解上表现突出。

但是，这是一条借鉴语言模型已经验证的路径。它的本质是在现有的语言模型基础再加上一个 vision 到 language 的插件，或者说一个转码器。

「但是这个转码器的训练其实用的数据量并不多，对于这个真实世界的应用并不多。」

任少卿说，这样的方式借鉴了或者说产生了一个「小路」，虽然借助了所谓「VLM」来获取更多互联网数据，但距离理想中将绝大多数真实世界数据都转化为模型能力还差得很远。

因而，在实践中就会出现一个问题：语言模型及其各种变体对于真实世界的理解存在缺陷，或者说能力上限不够高。

例如，如果用当前的通用语言模型或 VLM 去询问关于速度、距离、安全的问题，它们可能给出定性的回答，但定量回答往往不准，包括对物理规律的理解也是如此。

这种对真实三 / 四维时空认知的缺失，根源在于当前大语言模型的训练数据以文本为主，图像为辅，视频数据极少。未来语言模型可能会融入更多视频和数据，但现状就是如此。

任少卿说，他认为仅靠图像是学不到这些物理量的，必须基于视频等，人类需要知道视频中的物体是如何运动的，才能学到这些东西。

因而，要做好智能驾驶，需要一种更新的能力，也是为什么还需要「世界模型」的根本原因。

目前，蔚来正在直接利用海量视频数据来训练自动驾驶或机器人的技术模型。这是汽车行业正在探索的另一条路径。

「近期已有一些突破。例如在机器人领域，近期有 Generalist 使用了 27 万小时的数据进行训练。其实可以看到，真实世界的数据作为机器人训练基础，而不依赖语言模型，用百万小时量级的数据来训练模型，这条路基本快要走通了。」

任少卿表示，就世界模型而言，他们正在努力把它做得更好。而世界模型希望实现的是，在真实世界的应用中能表现得更好。

结语：重回领先

在问答开始之前，任少卿还特别谈及了过去大半年，也就是 NWM 1.0 推出后，他们到底在干什么的问题？这是对此前舆论质疑的一个回应吧。

比较特别的是，任少卿并不是从「功能升级」角度来叙事的，更多是从研发范式的变革以及工程上的拉通来展开的。

任少卿说，2025 年行业变化很大，海外如 FSD 进展迅速，而蔚来从年中的 NWM 1.0 版本到现在的 2.0 版本也花了半年时间。

这半年多，他们在干什么呢？

首先，是研发范式的变革。目前蔚来解决问题的思路和路径，跟年中的 1.0 版本相比有很大不同。这也让内部研发团队经历了几个月的「痛苦期」。而这样的变化，会带来产品能力上的提升。

其次，则是自研智驾芯片（神玑 NX9031 ）的真正上车。

任少卿说，从去年年中到年底，蔚来二代平台主销车型已基本完成 EOP，全面搭载了蔚来的自研芯片。而从前年下半年开始，蔚来也开始基于自研芯片进行迭代。由于是自研芯片，迭代周期通常需要 3 到 6 个月才能推上线。

「去年下半年，我投入了比较多的精力来做这件事儿。到现在，我们自研芯片与主线 4 Orin 平台的迭代周期基本压缩到了两周。」

不仅如此，任少卿还透露，自研芯片平台与 4 Orin 平台的代码和模型，共线率已达到 95% 以上。

「一个功能或版本基本可以两边直接用… . 这次发布的 NWM 2.0 版本，蔚来将把自研芯片和主线 4 Orin 的更新同步推送给用户。」

而在 NWM 2.0 正式发布之前，李斌也在多个用户面对面场合，谈及了今年蔚来智驾系统的迭代计划与目标，包括包含这一次推送在内的三个大的版本更新，也包括一定会回到第一梯队的目标。

在 1 月 15 日流出的内部讲话记录中，李斌坦承，蔚来的智能辅助驾驶确实选了一条比较难的路——自研智驾芯片、自研操作系统、世界模型，「捏合在一起其实是很不容易的，我们地基挖得非常深。」

而在 2026 年，蔚来还会在算力和研发效率上加大投入。李斌说，在公司资源那么紧的情况下，他专门给智驾部门特批了一笔算力预算。

至于这次发布的 NWM 2.0，李斌的表态则是：「我们新版本辅助驾驶的测试反馈也非常不错。今年我们会在智驾算力方面专门加大投入，争取今年通过三个大的版本发布，回到行业领先的位置。」

拭目以待！

（完）

宙世代

一起剪

相关标签