端到端改变理想，理想能改变市场吗？

理想目前在北京上海销售的车型，Max 版本占到了 70% 以上。显然，这是一个非常优秀的成绩。

之所以能够有这样的成绩，据理想智能驾驶研发副总裁郎咸朋所说，一个直接原因就是在 OTA 6.0 推送之后，Max 版本车型的无图城市 NOA 成功吸引到了用户。

这意味着，智驾业务上的投入正在为理想带来实实在在的商业红利。

当前，包括理想在内，特斯拉、华为、蔚来、小鹏等都在智驾方面押下重注，耗费大量的企业资源深挖技术护城河，竭力寻找智驾从技术到商业的转化途径。

在这一过程中，一方面，智驾的竞争力度不断加剧；另一方面，在特斯拉的引领下，以端到端为核心的技术路线也变得更加清晰。

而伴随着如今端到端被行业的集体采用，继去年智驾开城之后，新一轮以端到端为核心的智驾竞争又在近期轰轰烈烈地爆发 —— 特斯拉推送 FSD 12.5；华为 ADS 3.0 在享界 S9 上首秀；蔚来推出 NWM 世界模型；小鹏发布端到端大模型。

理想在这一轮竞争中也打出了自己的王牌 —— 端到端 + VLM 的双系统方案。到了上周，理想则开启了端到端 + VLM 的千人内测。

至于端到端 + VLM 到底是什么？它的由来和未来又是什么？我们专程去北京与理想智能驾驶研发副总裁郎咸朋、理想智能驾驶技术研发负责人贾鹏进行了对谈。

在对谈后我们发现，从端到端 + VLM 开始，理想的智能驾驶正释放出前所未有的想象空间。

013 个系统：本能、推理、反思

人类大脑在日常生活中会分为系统一和系统二工作，前者处理一些需要快速响应的事情，后者则负责处理一些相对更复杂的逻辑推演工作；前者是近乎下意识的，速度更快；后者是需要思考的，速度较慢。

这是《思考，快与慢》书中的一个核心观点，同时，这也是理想「端到端 + VLM」智驾方案的一个底层逻辑。

端到端就是理想智驾方案的系统一，它的核心任务是应对 95% 左右的基础驾驶场景。

郎咸朋给我们举了一个例子：如果在开车时前方有一辆慢车，那么在理想状况下，车辆就要执行超车变道这一动作。但在实际驾驶中，道路状况往往不会那么理想 —— 旁边有车怎么办？边上是双黄线怎么办？后边来车了怎么办？旁边是公交车道怎么办？......

一言以蔽之，车辆在实际行驶中会遇到各种各样的小概率场景，即行业内常说的 Corner Case。

按照端到端之前的以感知、决策和规控为核心的智驾方案，一旦出现一个 Corner Case，开发人员就需要敲下相应的代码，写下确定的规则去解决对应的 Corner Case。可驾驶场景千变万化，Corner Case 不计其数，几乎不可能用有限的人力资源去解决无穷的 Corner Case。

而端到端则不一样，它将感知、决策和规控融合到一个模型之中，保证了信息在传递过程中的精确性，当传感器获取信息并经过模型处理之后，可以更加精准并迅速地操控系统做出相应的行动。这一过程很类人，人就是在眼睛获取环境信息并经大脑处理之后，迅速产生具体的行为。

同时，端到端也不用堆人力资源写下一行行代码，它需要的只是对历史情景的学习，就好像人一样可以凭借过去的事情获得处理未来事件的经验。早在推送 FSD V12.3 时，特斯拉就曾提到，FSD V12.3 用数百万个视频片段替代了超 30 万行 C++ 代码。

不过正如上文所说，Corner Case 不计其数，总有一些未知场景是没有被端到端学习到的。当车辆遇到未知场景时，理想的系统二，也就是 VLM 就派上用场了。

VLM 的英文全称是 Vision-Language Model，即视觉语言模型。

根据官方信息，理想 VLM 的整体算法架构由一个 Transformer 模型组成，同时还包括了流式视频编码器、 Memory bank 以及智驾 Prompt 问题库，它可以缓存更长时间线的信息，从而在更长的时间维度进行思考和逻辑推理。

VLM 最终起到的作用就是当车辆遇到系统一解决不了的驾驶场景时，VLM 可以在经过思考后生成驾驶建议反馈给系统一。

因此，在理想的这套智驾方案中，端到端和 VLM 其实就很像一对优势互补的组合，搭配起来共同解决基础的和更复杂的驾驶场景。

事实上，除了端到端和 VLM 以外，理想的智驾方案还有一个系统三 —— 世界模型。只不过这个世界模型并不在车上，而是在云端。

在郎咸朋看来，世界模型就是一个真题库和错题库。当车辆遇到驾驶问题时，世界模型可以将问题场景进行重建，接着交给一个大模型去分析这是哪类问题，分析清楚之后再回到世界模型里看是否有对应的样本进行针对性的训练。在训练完成之后，接着继续在世界模型里考试，以验证问题是否已经被完全解决。

如此一来，整个解决 Corner Case 的流程就变得全自动化，理想既不用堆人力去写代码修 Bug，又不用再派出人和车去跑路试，不但提高了效率，还节省了成本。

总的来说，通过在车端布局的端到端和 VLM，理想构建出了一个应对基础和复杂驾驶场景的工作流，而再加上云端的世界模型，理想则又探索出了一个高效的问题解决机制。

对于这套智驾系统，郎咸朋认为虽然不敢保证一直到未来都是最好的，但就当下而言，却是最合理的，是人工智能在物理世界的一个最佳实现。

与此同时，郎咸朋还表示，其实理想并不比别人聪明，不能一下子看到终局，能来到现在，其实跟蔚来、小鹏一样，都是从高速场景、从有图方案开始，一步步走过来的。

02 从有图到端到端，没有捷径可走

对于智驾来说，2023 年是风云激荡的一年 —— 城市智驾的技术框架渐趋清晰、智驾开城之战打响、智驾的商业化应用受到了前所未有的关注 ......

对于理想的智驾来说，2023 年同样是风云激荡的一年。因为在这一年，理想频繁切换技术路线，用一年的时间就完成了从有图，到轻图，再到无图的三代智驾方案切换。

在 2023 年年初，李想在全员内部信中给理想定下了「2030 年，成为全球领先的人工智能企业」的企业愿景，并表示「基于 BEV 感知和 Transformer 模型，实现端到端训练的城市 NOA 导航辅助驾驶（不依赖 HDMAP）会在 2023 年底开始落地」。

李想的这封全员内部信，为理想在 2023 年对智驾的大手笔投入定下了基调。

不过 2023 年早期的理想显然对智驾的落地难度还没形成全面的认知，否则也不会出现在当年 4 月份的上海车展中定下了年底城市 NOA 落地 100 城的目标，而到 8 月份的成都车展上又将「城市 NOA」改为「通勤 NOA」的尴尬了。

而之所以会出现这样的尴尬，一个非常关键的原因是，理想对「图」的认知不够全面。

在最开始研发智驾的时候，跟蔚来、小鹏一样，理想的智驾方案走的是重图路线，并通过重图的方式开发出了最早的高速 NOA。

不过当智驾场景从高速切换到城市之后，原来的重图方案就走不通了。对于这一问题，贾鹏举了个他们在北京望京测试的例子。

贾鹏表示，2023 年 4 月份的时候，理想在望京那里先用重图的方案做的城市 NOA 测试，但发现望京那里经常修路，红绿灯也经常换，高精地图的更新根本跟不上道路的变化，而图商又不可能完全跟着理想的节奏说更新地图就更新地图。

因此，理想只能从重图方案再进一步切换到轻图方案。

到了 2023 年 6 月份的时候，理想其实就已经又在用轻图的方式在望京做测试了。同月，理想还发布了基于轻图的 NPN （NeuralPriorNet，神经先验网络）架构。NPN 架构也最终帮助理想完成了 Max 车型城市 NOA 在 2023 年底落地 100 城的目标。

有意思的是，正是在通过 NPN 架构推进城市 NOA 落地 100 城的过程中，理想才认识到，采用轻图方案根本无法实现城市 NOA 对全国范围的覆盖，不能再用有图的方案了。

因为不管是重图，还是轻图，只要用图，就得面临更新的问题。可现实却是，总有一些地方是地图覆盖不到或者更新跟不上变化的。

据贾鹏所说，理想智驾团队产生这一思考的时间大致在 2023 年八九月份。

巧合的是，恰恰是在这个时间段，华为凭借不依赖高精地图的 ADS 2.0 获得了巨大的市场关注度，并带动了问界新 M7 带有城市高阶智驾的 Max 版本的销售。根据余承东当时透露的数据，问界新 M7 五座 Max 版订单占比超 50%、六座 Max 版订单占比超 70%。

伴随着问界新 M7 的上市，华为还宣布了一个在当时看来十分轰动的计划 —— 2023 年底，不依赖高精地图的高阶智驾将在全国范围内都可用（不过这一计划直到今年一季度才逐渐落地）。

在华为的影响下，智驾的竞争状态变得愈发胶着，而理想也在这一过程透过华为对智驾有了更深刻的认知。

在 2023 年 9 月底，即问界新 M7 上市大概一两个星期后，理想举办了秋季战略会。在战略会上，经过反思，李想认为理想对智驾的投入确实晚了，应该从 2022 年中就开始全力投入。也正是在这次战略会上，理想定下了到 2024 年智驾要成为绝对头部的目标。

到了这个时间段，理想对智驾的认知相对于年初其实就有了质的变化了。一个具有代表性的例证是，就在 2023 年 9 月份，理想虽然仍在用 NPN 架构开城，但同时也分出了一个小团队去深圳预研无图方案。

这时，理想就又面临了一个新的问题 —— 资源分配，即到底是该把主要资源放在明知走不通的 NPN 架构上，还是要把主要资源集中在研发更加正确的无图方案上？理想选择了前者。

这其实是一个面对现实颇为无奈的选择。

在当时，智驾开城之战已经打响，华为、蔚来、小鹏等都已宣布了自己的智驾开城计划，而理想也背负着城市 NOA 需要交付 100 城的压力。

郎咸朋对我们表示，如果去年没有交付城市 NOA 的话，那么理想就肯定算不上是智驾第一梯队了，在当时资源非常有限的情况下，只能将主要资源集中在 NPN 架构上，先保证城市 NOA 在 2023 年底交付 100 座城市，稳住自己在智驾第一梯队的身位。

到了 2023 年底城市 NOA 交付完 100 座城市之后，理想的智驾方案便正式从 NPN 架构切换到了无图方案。到了今年 7 月份，理想则实现了全国都能开的无图 NOA 全量推送。

不过无图还是存在问题。郎咸朋表示，虽然智驾方案变无图了，但技术架构还是和有图的架构类似，有感知模型和规控模型。

在这种情况下，由于把图完全去掉，感知模型获取的信息就不再那么丰富和精确了，这时就需要一些规则代码对感知模型获取的信息进行修正调整，然后再传输给规控模型。

因此，在郎咸朋看来，有图和无图其实在技术架构上并没有本质上的变化，要解决千变万化的驾驶场景问题，仍然需要耗费大量的人力、物力成本。

然而端到端和有图无图就有着本质上的区别了。原因在于端到端只有一个模型，它不依赖代码，纯靠数据驱动，真正以 AI 的方式实现智能驾驶。

需要注意的是，其实早在 2019 年的时候马斯克就曾说过高精地图会限制智能驾驶的能力，而特斯拉也在 2022 年底前后开始投入了对端到端的研发，到了 2023 年 8 月份，马斯克更是亲自直播演示了端到端的自动驾驶能力。

这也就是说，智驾今天的答案其实早就被特斯拉给提前公开了。可即使如此，理想还是按照重图、轻图、无图、端到端，这么一步步来。其实不只是理想，华为、蔚来、小鹏等都是这样来的。

对此，郎咸朋认为如果走捷径直接用端到端的话，那么就会跳过对技术的很多理解。

03 理想被端到端改变的人与事

从有图到端到端，对技术理解的不断深入不仅在改变理想的智驾水平，还在改变理想智驾团队的工作模式和人员架构，特别是在切入到端到端的技术路线之后。

核心原因在于两点：数据和算力。

在郎咸朋看来，基于端到端这种 AI 的方式做智能驾驶，一部分拼的是人才，但最终拼的是数据和算力。

在数据方面，端到端是一种极度依赖数据驱动的智驾方案。在端到端的技术架构下，当需要去解决一些驾驶场景问题时，不再需要人工敲下一行行规则代码，需要做的只是把一些处理驾驶问题较为老到、高效的老司机驾驶数据喂给它，然后训练学习就可以了。

不过这背后有一个问题。举个例子，A 是一个老司机，端到端用 A 的数据学习到了针对某一驾驶场景的应对方法，但因为每个人的驾驶习惯不同，所以这种应对方法不一定能被 B 接受。

对于这一问题，在今年 4 月份的时候，理想内部基于人的驾驶经验制定了一个筛选老司机驾驶数据的标准。在某种程度上，这一标准其实就是不同人驾驶习惯的最大公约数，目前还在不停迭代中。

根据理想的数据，如果按照当前所制定的标准去筛选的话，那么在理想目前所有用户的驾驶数据中，大概只有 3% 的数据是符合要求的。这意味着，要使 3% 背后所代表的老司机数据量足够多，必须让整个数据池足够大。

这也就牵扯出来了第二个问题 —— 数据池如何足够大？

对于这一问题，理想的其中一个答案是卖车。郎咸朋对我们说，这个数据池大了，你才有的挑。

截止 7 月底，理想的累积交付量已经超过了 83 万，而伴随着理想交付量的快速增长，理想整个的数据池势必会加速扩大。

不过，数据并不能直接转化成智驾能力，这中间还有一道坎，叫做算力。郎咸朋表示，就算你数据再多，可如果没有足够的算力训练把它给消化掉的话，也转化不成智驾能力。

在算力方面，贾鹏对我们说，理想目前有 4.5 EFLOPS 的算力集群来处理大约 22 亿的参数，但随着参数量的膨胀，4.5 EFLOPS 是肯定远远不够的。

实际上，由于算力的限制，理想目前已经做了一些妥协。

贾鹏表示，理想的前摄像头虽然分辨率是 8 兆，但系统在处理前摄像头获取的画面信息时，只能把比较中心的画面采用原始分辨率，比较边缘的信息有时只能裁减。这也就导致了部分环境信息的丢失，不过若是算力再提升 5 倍，这些问题也就迎刃而解了。

对于算力提升带来的好处，贾鹏还举了一个特斯拉的案例。

他表示，特斯拉最近推送的 FSD 12.5 参数量是 12.3 的 5 倍，体验的确比 12.3 好太多。如果仔细观察 12.5 的显示，就能发现它的前向感知已经达到了 400 m，比 12.3 远了一倍。当 FSD 前向感知变远之后，它的整体驾驶规划就可以更加合理。这就是算力提升可以消化更多参数之后带来的直接好处。

此外，郎咸朋还认为，伴随着参数量的扩大，特别是智驾向 L4 级的深入，理想未来至少需要几十 EFLOPS 的算力，而届时仅仅在算力集群上的花销每年就或许达到 10 亿美金左右（当前约 71.5 亿人民币）。

当将大量的资源投入到数据和算力上时，人在整个智能驾驶的开发过程中起到的作用则产生了微妙的变化，甚至被削弱。

第一，研发端不再需要堆人力来写代码、改代码了。

在去年 11 月份的 Q3 财报电话会议上，李想表示当时理想的智驾研发人员为 900 人，规划到 2024 年将超过 2,000 人。之所以会有这样的规划，是因为当时的规划正是基于无图方案来的。但到了今年正式做端到端之后，李想就发现的确不需要那么多人。

第二，测试端不再需要出动大量的人、车去跑路试了。

一方面，如上所述，理想通过世界模型构建出一个错题库，在云端自动修正、测试驾驶问题；另一方面，理想与用户联合，采用千人内测团的方式去实际验证目前这套智驾系统的能力，同时贾鹏还表示，千人内测团将来还有可能扩展到几万人、十万人的规模。

如此一来，理想也就省下了大量的人力物力成本，从而有更多的资源投注到数据和算力上。

此外，产品经理的角色在端到端的技术架构下也在发生变化。

郎咸朋表示，在以往的工作模式下，产品经理的工作重心更偏向于产品功能的设计，然后把功能给用户讲清楚，但来到现在，产品经理做得更多的应该是处理 AI 与用户之间的关系，让用户与 AI 之间可以相互信赖。

因为在郎咸朋看来，目前很多普通用户对智能驾驶还是不太信任，产品经理则需要承担起解决这一问题的任务。

04 写在最后

智驾是一场硬仗，「大炮一响，黄金万两」，它其实十分考验企业的综合实力。

虽然理想的智驾在一开始相对于智驾第一梯队较为落后，但好在理想肯结硬寨、打呆仗，用一年切换三代方案的效率完成了技术代际的追平。

如今来到以端到端为核心的新战场，理想既有资金，又有销量，还有组织效率，由此在算力和数据这两块「战略资源」上也有着非常明显的优势，其技术实力相比过去更是不可同日而语。

郎咸朋表示，理想目前版本的端到端 + VLM 主要打的就是智驾能力上限，而到量产和交付的时候，就会把下限的东西给做好。同时，贾鹏则表示未来理想或把端到端、VLM 这两个系统继续合并成一个系统。

此外，贾鹏还说理想对 L4 的预研目前也已经开始了。郎咸朋则认为理想在未来的 3-5 年内可以实现 L3/4 级智能驾驶。李想的想法更为激进，他认为最快在今年下半年，理想就能实现 L3 级智能驾驶。

由此来看，理想正在智驾方面压下重注。当然，这意味着理想要面临很大的商业风险。但就像文章开头提到的，在 OTA 6.0 推送之后，北京上海的 Max 版本销量比例提升，理想已经尝到了智驾带来的商业红利。

除了直接的销量提升以外，智驾还能通过一些衍生业务带来更多的商业红利，比如保险。在郎咸朋看来，在 L3/4 级智能驾驶能够保证安全性的前提下，理想卖保险是可以赚钱的。

不过就整个市场来看，以端到端为核心的智驾战斗才刚刚开始。在供给端，特斯拉正铺垫 FSD 进入中国，华为、蔚来、小鹏都在卷端到端，比亚迪也在发力高阶智驾，理想在其中要真正崭露头角还面临着很大的竞争压力。

在需求端，如郎咸朋所言，很多普通用户对智能驾驶还不太信任。在郎咸朋看来，目前用户对智能驾驶的接受程度正处于从早期的狂热者到跨越鸿沟的阶段，高速场景的智驾或许基本已经跨过去了，但城市还没有。

市场尽管充满了不确定性，但可以看到的是，这一轮以端到端为核心的智驾战斗将成为智能驾驶向用户普及的重要推手，而智驾所带来的商业红利也或将被进一步放大。

撰文：Isaiah

编辑：James

宙世代

逗玩.AI

相关标签