近日,理想汽车辅助驾驶 " 端到端 " 模型负责人夏中谱即将离职,离职后去未明,相关知情人士称夏中谱已经退出理想最新的辅助驾驶方案 VLA 项目组,并表示夏中谱的离开或与理想辅助驾驶路线变更有关。
2023 年,夏中谱入职理想汽车负责 " 端到端 ",彼时的理想正全力推进 " 端到端 " 辅助驾驶方案,在加入理想之前,夏中谱曾经在百度 Apollo 任职,工作重心是辅助驾驶系统规划控制环节与 AI 神经网络的融合,这正是实现 " 端到端 " 辅助驾驶方案的关键技术之一。
去年 11 月,理想对辅助驾驶团队进行架构调整后,夏中谱成了理想 " 端到端 " 辅助驾驶负责人,负责 " 端到端 " 模型算法和落地,直接向辅助驾驶负责人郎咸朋汇报。
夏中谱从 " 端到端 " 辅助驾驶负责人到离职,不过短短一年光景,可见辅助驾驶技术路线的变革之快。
高精地图,从 " 上帝视角 " 到众矢之的
高精地图,简而言之就是精度更高、数据维度更广的电子地图,它能精确到厘米级维度,囊括道路信息及其周边交通相关的静态信息等,高精地图能协同车载感知系统实现车辆的避让、超车等辅助驾驶功能。
当时间指针拨回到 2022 年前,高精地图正值黄金年代,彼时,车辆感知系统能力有限,高精地图因能为车辆感知系统提供超视距范围的高精度地图信息成为行业 " 香饽饽 "。
根据 IDC 数据显示,2020 年中国高精度地图市场总量达到 4.74 亿元,增速达 70%,百度、四维图新、易图通、高德和 HERE 位列市场份额前五位;2021 年中国高精度地图市场规模为 6.46 亿元,同比增长 36.3%,百度、四维图新、高德地图位列份额前三。
当时,汽车辅助驾驶行业一方面不得不依赖高精地图,一方面对高精地图带来的高昂成本苦不堪言。相关报告显示,车企和图商合作的模式是在下订单时就需要支付一笔高达几千万元的订单费用,另外,搭载车辆还需要支付许可费,大约为单车一年 100 元。当时走在辅助驾驶前头的主要是 " 蔚小理 " 等国产新势力,这笔费用于它们而言是一笔不小的开支。
为了节省成本,小鹏、上汽等车企开始下海高精地图,2021 年 6 月,小鹏汽车通过收购江苏智途科技获得其导航电子地图制作甲级测绘资质。上汽则先后投资了武汉光庭和 Momenta,吉利也有布局易图通和亿咖通两家公司,可见当时车企对高精地图的重视程度。
但在 2022 年自然资源部的换证复审公示中,智途科技和 Momenta 均没有通过复审。同年 9 月,小鹏推出城市版 NOA 功能,在广州进行试点,并在随后 10 月份小鹏 1024 科技日上正式推出 Xnet 感知架构,并明确表示新一代辅助驾驶方案 XNGP 将摆脱对高精地图的依赖。
接着便是华为,2023 年 4 月,华为推出摆脱高精地图依赖的华为 ADS2.0,余承东曾不止一次在公开场合称 " 高精地图更新太慢,费时费力 "。随后,理想于 2023 年 6 月开启城市 NOA 内测,并针对用户用车场景推出通勤 NOA 功能。
在这期间,车企接二连三开启城市 NOA,辅助驾驶行业 " 开城 " 概念由此而来。不只是车企,自动驾驶公司的技术方向也发生变化,小马智行正式发布仅通过导航地图实现高阶辅助驾驶能力的量产辅助驾驶方案小马识途。元戎启行发布不依赖高精地图的 DeepRoute-Driver 3.0 量产辅助驾驶方案,声称要摆脱高清地图依赖。
自 2022 年开始,汽车辅助驾驶行业技术路线开始趋向于 " 重感知,轻高精地图 ",并在 2023 年成为行业共识。很显然,拐点就出现在车企们从高速 NOA 向城区 NOA 转变的过程当中,相对于高速而言,城区用车频率更高,而且城区道路的复杂性和高速道路更不在一个级别,各家竞相角逐 " 开城 " 赛道上,高精地图价格高、更新慢的局限性就更是展现无遗了,难以满足车企们 " 大踏步 " 的竞争。
曾经,高精地图有诸多美誉—— " 拐杖 "、" 千里眼 "、" 上帝视角 " 等,而现如今,高精地图的名字却已鲜少出现在辅助驾驶行业。从 2020 年到 2023 年不过短短 3 年,高精地图已然成为众矢之的。
从图商角度而言,不仅要面对市场和业务量的急剧缩减,还要接受来自心理上的落差。一位某图商内部人士表示地图仍然是高阶辅助驾驶的必要,所谓的去高清地图实际上还是在车端传感器能力强的基础上进行实时建图,另外,对车端感知的初始训练必然离不开高精地图。
更有甚者表示无论是过去依赖高精地图,还是现在抛弃,最大的问题都是车端感知能力不足,高精地图对自动驾驶具有可用性和必要性,车企和辅助驾驶供应商现在不用,是没有使用的能力。
有相关分析人士也表示,国内车企和辅助驾驶供应商都没有将高精地图 100% 排除在技术方案中,反而是能用图就用,这是当下企业对高精地图的真实态度。
端到端:技术高地还是营销噱头?
2024 年," 端到端 " 成为辅助驾驶行业的年度热词,这一年甚至被行业认为是辅助驾驶领域的新纪元。端到端打破了传统的辅助驾驶系统中感知、决策、控制等模块间的界限,而是将这三者融入到统一的神经网络当中,通过神经网络直接输出驾驶指令,而非依赖人工规则,其优势在于能通过海量真实路况数据训练模型,从而模仿人类驾驶行为,面对复杂驾驶场景具备更强的泛化能力。
自特斯拉 2023 年 8 月发布 FSD V12 以来,国内厂商迅速跟上,鸿蒙智行、小鹏、理想、商汤绝影等头部车企和辅助驾驶供应商纷纷投入端到端研发,并在后续的近半年时间陆续对外披露上车量产规划。
图片来源:鸿蒙智行
2024 年 4 月,华为推出采用端到端架构的华为乾崑 ADS 3.0,ADS 3.0 去掉了 BEV 网络,通过 GOD 大网实现了从 " 识别障碍物 " 到 " 场景理解 " 的跨越,不仅能识别白名单目标和异形障碍物,还能感知道路结构和场景理解。
图片来源:小鹏汽车
小鹏汽车方面,在随后的 5 月 20 日小鹏汽车 AI DAY 上宣布面向用户全量推送 AI 天机系统,并发布国内首个量产上车的端到端大模型:神经网络 XNet+ 规控大模型 XPlanner+ 大语言模型 XBrain。
视觉感知神经网络 XNet 能使辅助驾驶系统如同裸眼,感知范围提升 2 倍,基于神经网络的规划大模型 XPlanner 则像人类的小脑,通过海量数据训练,使得辅助驾驶能不断趋向拟人化,AI 大语言模型 XBrain 则能使辅助驾驶系统具备理解学习能力,复杂场景的泛化处理能力得到提升。
图片来源:理想汽车
理想迅速跟上,2024 年 7 月启动 " 端到端 +VLM" 千人内测,并在随后的 10 月向 L 系列 AD Max 车型及理想 MEGA 全量推送 " 端到端 +VLM" 辅助驾驶方案,这是理想首创的双系统辅助驾驶方案,快系统处理常见场景,慢系统处理复杂场景,更具稳定性、高效性。理想的端到端不同于传统的分段式,而是采用 One Model 一体化端到端,VLM 视觉语言模型则是部署在车端芯片的大模型,能进行逻辑思考和决策,应对复杂驾驶场景。
2024 年 10 月 28 日,智己在品牌辅助驾驶技术日上发布了和 Momenta 联合打造的一段式端到端大模型,将 " 直觉 " 这个词一弄到辅助驾驶,称 IM AD 将通过模拟人类的直觉与思考,从容应对复杂的城区路况。
除开走在前头的小鹏、理想、华为之外,后起的小米也没落下步子,已于今年 2 月份陆续全量推送端到端全场景辅助驾驶,该辅助驾驶方案支持在已完成路线学习的停车场实现车位到车位的全场景辅助驾驶。零跑则在 2026 款 C10 搭载了称为 " 首发 15 万级‘激光雷达 + 端到端’的辅助驾驶方案。
自主品牌这边,比亚迪在今年 2 月开启 " 全民智驾 " 战略后也在大快步向实现自研端到端城区辅助驾驶量产的方向迈进,预计在年内实现端到端城区辅助驾驶量产上车。奇瑞汽车在则在 3 月发布了 " 猎鹰智驾 ",奇瑞汽车 CTO 高新华称:" 猎鹰智驾依托端到端大模型与多传感器融合技术实现全域场景的精准感知与毫秒级决策 "。
此外,商汤绝影在去年北京车展上亮相了 UniAD 端到端实车部署并在当年的 11 月发布 u 了 AD Ultra 端到端量产方案,商汤绝影和东风联合开发的端到端自动驾驶系统预计将在今年年底量产落地。百度也在去年 5 月发布了 Apollo ADFM,能支持 L4 级无人驾驶,包括多模感知大模型、多源规划大模型,和渐进式实现自动驾驶端到端大模型。
显然,无论是主机厂还是供应端,或早或晚都在朝着端到端的方向前进。
端到端方案虽然能实现更加流畅、更智能的辅助驾驶,但它天然也存在局限性,例如成本高、技术门槛高和可解释性差等。据业界人士称,端到端模型处理的数据量是过去的 10 倍以上,因此对芯片的算力要求也更高。端到端模型决策过程并不透明,故障时难以定位具体问题,也正是因此,部分企业用低算力芯片实现最基础的端到端功能,也称之为 " 端到端 ",相比于真正的技术进展而言,部分企业的 " 端到端 " 角逐似乎更像是挣一个能拿来撑场面的营销噱头。
当然,技术进展从来都不是一蹴而就,正如李想所说:" 只有做好规则算法,才能知道如何做端到端,只有把端到端做到极致水平,才有机会去做 VLA,这个过程没有捷径。" 现如今,各家也正在这样的道路上往下走,只不过有快有慢。
VLA:辅助驾驶的 " 类人革命"
2023 年 7 月,谷歌 DeepMind 推出了全球首个控制机器人的 VLA 模型,如今这一技术路线被扩散至辅助驾驶领域。
基于 " 端到端 +VLM" 的辅助驾驶虽可以借助视觉语言模型辅助,但依旧解决不了端到端模型在处理复杂问题时存在的局限性,VLM 只能解析 2D 图像,为 " 端到端 " 辅助驾驶方案提供辅助,而 VLA 则像人类的眼睛,能通过 3D 和 2D 视觉的组合看到物理世界,而且还具备脑系统,语言、思维能力,简单来说就是更像人开车的思维行动逻辑:看见障碍,理解障碍,并做出执行避障。
VLA 模型突破过往端到端可解释性差的局限性,可以通过语言模型输出决策理由,实现思考、决策路径的可视化。
相对应的,对相关配套也提出了更高的要求,算力需求上升了一个层级,有业内人士称,目前量产的辅助驾驶系统普遍采用 2 颗英伟达 Orin X 芯片,算力为 508TOPS,已经很难支撑 VLA 模型的部署。
因此,走在 VLA 头部的理想、元戎启行、吉利等均采用英伟达 Thor 芯片以保证算力需求,小鹏世界基座模型则采用自研的 " 图灵 " 芯片。
图片来源:元戎启行
1 月,元戎启行在第 17 届日本国际汽车工业技术展上发布 VLA 模型,并宣布已和头部车企达成量产合作,共同推出搭载 VLA 模型的辅助驾驶汽车,该车配备英伟达 Thor 芯片。元戎启行 CEO 周光透露,该模型主打防御性驾驶,拥有四大核心功能,分别是空间语义理解、异形障碍物识别、文字类引导牌理解、语音控车,这些功能将随 VLA 模型的量产逐步释放。
目前元戎启行已完成 VLA 模型的真实道路测试,并计划在今年推出首款搭载该模型的车型,并且今年将有 5 款以上搭载元戎启行 VLA 模型的 AI 汽车陆续推向市场,未来,元戎启行 VLA 模型将不局限在英伟达 Thor 芯片上,将适配更多芯片平台。
3 月 18 日,理想在 NVIDIA GTC 2025 上发布了下一代自动驾驶架构 MindVLA,理想汽车自动驾驶技术研发负责人贾鹏如此介绍 MindVLA:"MindVLA 是机器人大模型,它成功整合了空间智能、语言智能和行为智能。MindVLA 将把汽车从单纯的运输工具转变为贴心的专职司机,它能听得懂、看得见、找得到。我们希望 MindVLA 能为汽车赋予类似人类的认知和适应能力,将其转变为能够思考的智能体。"
李想在理想 AI Talk 表示,MindVLA 是理想通往 L4 路上最重要的一步,目前辅助驾驶正处于黎明前的黑夜。"MindVLA 能为自动驾驶赋予类似人类的驾驶能力,就像 iPhone 4 重新定义了手机,MindVLA 也将重新定义自动驾驶。" 李想如此定义 MindVLA。
在随后的 4 月,小鹏在香港举办 AI 技术分享会,正式披露其正在研发的 720 亿参数自动驾驶大模型——小鹏世界基座模型,小鹏汽车自动驾驶负责人李力耘介绍,该基座模型以大语言模型为骨干网络,通过海量优质驾驶数据训练而成,具备视觉理解、链式推理和动作生成三大核心能力,能通过强化学习不断自我进化,并表示 " 有望发展出媲美甚至超越人类的自动驾驶技能 "。
据悉,小鹏世界基座模型的参数规模是主流 VLA 模型的约 35 倍,另外,小鹏自研的 AI 辅助驾驶芯片 " 图灵 " 将于今年二季度正式量产上市,首发搭载小鹏全新车型,据相关人士消息,该芯片是小鹏汽车于 2020 年投入人力研发,并在去年 8 月流片成功。
何小鹏曾表示小鹏的目标是成为物理世界大模型的第一名,推动汽车、机器人、飞行汽车领域的巨大变化。小鹏世界基座模型和 " 图灵 " 芯片未来还将应用于 AI 机器人和飞行汽车上。
小米近些日子关于辅助驾驶也有些许变动,前一汽南京研究院 CTO 陈光已经加入小米担任辅助驾驶感知负责人,继续推进 " 端到端 " 功能落地,直接向辅助驾驶负责人叶航军汇报。据相关人士了解,在技术预研方面,小米也在进行 VLA 模型预研,由雷军亲自招募的英国自动驾驶公司 Wayve 原主任科学家陈龙负责,并表示 " 现在进度可能和李想差不多 "。
此外,吉利、奇瑞等车企也在积极研发、布局 VLA 大模型,从行业趋势来看,今年 VLA 的火热程度不亚于去年的 " 端到端 ",尤其是在工信部收紧辅助驾驶宣传、功能界限后,车企想要在辅助驾驶这条赛道上形成个性化的竞争优势就只能不断卷技术,往 L3 冲刺,而正如李想所言 "VLA 是现阶段能力最强的架构 "。
结语:
每次新技术的迭代都会吸引一大批的跟随者竞相角逐,在各家的叙述里,VLA 大模型具备 " 类人驾 ",甚至 " 超越人驾 " 的能力,但在用户端体验到底如何,只能等各家量产上车之后才会有答案,是跟上了技术还是 " 口嗨 "?潮水退去后,才知道谁在裸泳。
登录后才可以发布评论哦
打开小程序可以发布评论哦