
在中国新能源汽车产业的发展史上,很少有某个单一论断能像一块界碑一样,清晰地划分出一个时代。
如果说有,王传福在数年前提出的 " 电动化是上半场,智能化是下半场 " 便是其中之一。这个简洁而有力的框架,在彼时行业仍对 " 电动车是不是趋势 " 争论不休的背景下,将产业的注意力从动力来源拉向了体验与能力。
此后数年,中国车企在电动化领域完成超车,随即全力扑向智能化的军备竞赛——城市 NOA、大模型上车、舱驾融合……一切都在验证这个定义的先见之明。
然而,当一个定义成为全行业的共识与起点时,也意味着它作为方向标的使命已经完成。行业需要新的路标。
时间来到 2026 年。当大多数车企仍在智能化的牌桌上激烈博弈,试图通过更先进的辅助驾驶、更流畅的语音交互来确立优势时,理想汽车董事长兼 CEO 李想在近期一场与罗永浩的深度对谈中,抛出了一个更具纵深感、也更具野心的新框架。
" 自动驾驶是具身智能的上半场,通用人形机器人是具身智能的下半场。"李想用一句话,将智能化这个已然拥挤的赛道,向下延伸到了更广阔的产业图景中。
这一判断结构之清晰、阶段划分之明确、技术路径之具体,让人不禁联想到当年王传福的 " 上下半场论 ",二者同样是对一个宏大产业进程的阶段性拆解,同样具有定义赛道、引导资源配置的力量。
当然,李想的 " 上下半场论 " 并非对王传福定义的否定或替代,而是一次在更长时间维度上的延展与深化。如果说王传福为中国汽车产业划定了从燃油到电动再到智能的赛道,那么李想则为这个赛道找到了一个更宏大的终点:从智能汽车,到物理世界的通用智能体。
如何理解李想 " 上下半场论 "
理解李想的 " 上下半场论 ",首先要理解他对当前 AI 技术阶段的判断。
在与罗永浩的对谈中,李想指出:过去十年,AI 在信息世界取得了巨大进展。ChatGPT 和 DeepSeek 改变了文字创作,Seedance 改变了图像设计,Codex 和 Claude Code 改变了代码编写。但一个根本性的问题始终存在,即物理世界中人类的日常生活并未发生本质变化。
AI 能够写诗、画画、编程,但它无法帮你倒一杯水,无法替你接一次孩子,无法在物理空间中完成任何任务。
李想认为,这正是当前 AI 技术最大的 " 缺口 ",也是下一个十年最大的机遇。AI 正在经历一个从 Chatbot 向 Agent 的进化过程:过去它只能 " 出主意、拼想法 ",但现在它必须能够 " 行动 ",才能真正服务于生产和生活。
汽车,恰恰是让 AI 走出屏幕、进入物理世界执行任务的最成熟载体。一辆具备 L4 级自动驾驶能力的汽车,本质上就是一个在真实物理世界中自主移动、感知、决策并执行任务的机器人。它不再是能对话的交通工具,而是一个具备行动能力的智能体。
由此," 自动驾驶是具身智能的上半场 " 这一论断的内在逻辑便清晰了:自动驾驶,是 AI 从虚拟世界走向物理世界的第一个大规模、可商业化、技术边界清晰的落地场景。它不是具身智能的全部,但它是通往通用人形机器人必须经过的训练场和试验田。
如果将中国智能汽车产业的关键战略论断排一个序列,王传福的 " 上下半场论 " 和李想的 " 上下半场论 " 无疑会占据两个重要的里程碑。二者在结构上有着惊人的相似,但在内涵上又有着本质的递进。
相似之处在于,二者都是对一个长期产业进程的阶段性拆解 , 都为产业提供了一个清晰的、分阶段的、资源配置优先级明确的路线图。
王传福告诉行业:你先解决动力电池和电驱动的问题,再谈自动驾驶和智能座舱。李想则告诉行业:你先解决好汽车在物理世界中的自主移动(自动驾驶),再谈通用人形机器人在家庭和商业场景中的复杂操作。
递进之处在于,王传福的定义是 " 并列关系 "(上半场与下半场是不同的技术重心),而李想的定义是 " 承继关系 "(上半场的技术、数据、模型,直接构成下半场的基础能力)。
李想在对谈中直言,为什么机器人公司要从自动驾驶公司挖人?因为两者之间的连接关系非常清楚。自动驾驶积累的感知能力(看懂三维世界)、模型能力(理解场景并决策)、仿真能力(在虚拟环境中训练)、以及线控执行能力(精准控制物理运动),几乎可以平移到人形机器人身上。
基于此,李想甚至给出了一个具体的判断:未来 L4 自动驾驶的用户,与购买家政机器人的用户,重合度高达 90%。这意味着市场、场景和生态的天然闭环。
相比之下,王传福的 " 上下半场 " 中,电动化积累的三电技术与智能化所需的高算力芯片、算法模型,更多是接力而非复用。李想的 " 上下半场 ",则是一种能力的纵向迁移与升级:你在做自动驾驶时练就的 " 眼睛 "(3D 感知)、" 大脑 "(VLA 模型)和 " 手脚 "(线控执行),正是做人形机器人最稀缺的三大核心能力。
从这个意义上说,李想的 " 上下半场论 " 为那些具备自动驾驶技术深度积累的企业,指明了一条清晰、低损耗、高确定性的第二增长曲线,从造轮式机器人到造双足机器人,核心能力栈的重叠度远超外界想象。
理想怎么拆解 " 上下半场论 "
如果说 " 自动驾驶是具身智能的上半场,通用人形机器人是具身智能的下半场 ",那么如何将这份宣言转化为工程师可以执行、产品可以承载的具体技术指标?
理想汽车的做法是,将 " 上下半场 " 分别拆解为三个阶段,并为每一个阶段设定了精确的算力、模型架构和响应速度目标。
第一阶段(2018 至 2023 年)是 L2 辅助驾驶,让 AI" 看见 " 平面世界。
这一阶段的技术特征可以概括为 " 从无到有 "。感知层面,主要依赖 CNN(卷积神经网络)和 2D 视觉,车辆能够识别车道线、交通标志、行人等平面化的道路元素。模型层面,采用规则算法和 MCU 控制器,决策逻辑由工程师预先编写。算力需求较低,通常在 100TOPS 以内。
理想汽车在这一阶段的实际产品对应为理想 ONE(2018 年 10 月发布)及后续 L 系列早期车型。彼时的核心突破是让车辆首次拥有了感知能力——麦克风、雷达、摄像头让车 " 能听、能看、能交流 "。这一阶段的积累,为后续向高阶自动驾驶过渡提供了数据基础和工程经验。
第二阶段(2023 至 2028 年)是 L3 自动驾驶,让 AI" 理解 " 二维场景。
这是当前行业正在经历并将持续到 2028 年的关键阶段。技术跃升体现在三个层面,一是感知升级,从 CNN 2D 视觉进化为 2D ViT;二是模型升级,从规则算法演进为 " 预训练模型 + 模仿学习 ",并采用端到端控制架构;三是算力跃升,需求达到约 2000TOPS,较第一阶段提升一个数量级。
理想汽车在这一阶段的标志性成果包括:2024 年 10 月,其端到端 +VLM 双系统辅助驾驶正式交付,成为国内首个端到端智能辅助驾驶大模型量产上车的车企;2025 年 8 月,其 VLA 司机大模型随理想 i8 交付,实现了 " 大脑 " 级别的能力上车;2026 年 3 月,其下一代自动驾驶基础模型 MindVLA-o1 发布,进一步提升了感知距离、推理深度和控制稳定性。
第三阶段(2028 至 2033 年)是 L4 无人驾驶,让 AI" 置身 " 三维世界。这是理想汽车定义的 " 上半场终局 ",也是真正意义上 " 汽车成为机器人 " 的起点,这一阶段算力目标接近 10000TOPS,较第二阶段再提升 5 倍,核心技术特征与前两个阶段也有本质区别。
特征一是感知革命,从 2D ViT 进化为 3D ViT。李想对此的解释是:过去 2D ViT 无法真正理解物理世界,只有做到 3D ViT,车辆才能真正 " 像人一样置身真实 3D 空间感知世界 "。
特征二是模型进化,从模仿学习升级为稳定的预训练模型,具备理解与学习能力,而非简单的模式匹配。理想汽车在马赫 VLA 模型中引入了多模态思考能力,可在道路施工场景果断绕行、面对前车爆胎防御性减速、礼让倒车等复杂交互。
特征三是控制革新,从端到端控制升级为全线控系统,响应速度超越人类生理极限。李想给出的量化对比是:人类从看到障碍物到踩刹车执行到位,约 350-400 毫秒;而全线控系统可将感知到执行的全链路延迟压缩至 300 毫秒左右,比人快近一倍。
这一阶段的技术底座,已经在 2026 年 5 月发布的全新理想 L9 Livis 上部分实现,包括 3D ViT 感知架构、双马赫 M100 芯片(合计 2560TOPS)、完全体线控底盘等。按照理想的时间表,2028 至 2033 年间,这些技术将逐步成熟并规模化部署,最终实现 L4 级无人驾驶。
为什么是由理想率先提出
在全行业都在谈论 "AI 大模型上车 "、" 城市辅助驾驶开城 " 的当下,为什么是理想汽车这样一家以增程和家庭用户著称的车企率先以如此系统和决绝的方式,提出 " 具身智能上下半场 " 的完整框架?
答案不仅仅在于李想的个人远见,更在于理想汽车在过去数年的技术布局中,这已经客观上为该定义积累了最底层的支撑。
根据官方信息,理想汽车从 2022 年便开始自研芯片(马赫 M100),从 2023 年开始自研基座大模型,同时自研了操作系统星环 OS 和完全体线控底盘。这些投入的方向,从一开始就不是为了 " 把辅助驾驶做得更好一点 ",而是为了打造一个能够感知 3D 世界、自主决策、并比人类更快执行物理动作的智能体。
换言之,当友商仍在用第三方芯片、通用模型和传统底盘来优化 L2+ 体验时,理想已经、按照 " 造机器人 " 的逻辑,重构了从芯片到操作系统再到执行器的全栈技术体系。李想之所以敢于提出 " 自动驾驶是具身智能的上半场 ",是因为他的技术团队已经在用 " 下半场 " 的架构,来开发 " 上半场 " 的产品。
这正是这一定义具有行业说服力的关键所在,它不是对未来的畅想,而是对已有技术路线的一种理论总结。理想已经将 3D ViT 感知、数据流架构芯片、全线控底盘、自研操作系统等具身智能的核心技术全部量产装车。定义,不过是果;技术落地,才是因。
需要关注的是,理想汽车在芯片上的选择,不是采购行业现成的高算力芯片,而是从 2022 年起立项自研。2026 年 3 月,理想汽车自研的 5 纳米马赫 M100 芯片论文入选 ISCA 2026(国际计算机体系结构领域最具影响力的会议)工业分区。理想汽车是该会议工业分区论文录用的全球首家汽车企业。这一学术背书,说明其技术路径得到了顶级学术界的认可。
李想将未来汽车竞争壁垒类比手机行业:" 苹果的核心壁垒是芯片和操作系统,手机行业的核心壁垒是高通芯片和安卓系统。到了具身智能时代,芯片和模型变成技术的制高点。" 自研芯片,不是为了炫技,而是为了掌握从算力到算法到应用的完整闭环,这是通往 L4 乃至人形机器人的必经之路。
如果说芯片是 " 心脏 ",那么线控底盘就是 " 手脚 "。李想对 " 手脚 " 的要求非常明确:必须比人更快。
全新理想 L9 Livis 搭载的 " 完全体 " 线控底盘,由线控转向、后轮转向和 EMB 线控机械制动构成。其核心变化在于:转向、刹车由电信号取代机械连接。与传统液压制动系统不同,EMB 线控机械制动直接由电机驱动卡钳,响应时间大幅缩短。理想给出的量化数据是:120 公里 / 小时高速制动距离缩短 3 米以上。
理想汽车在技术落地上的节奏感也值得注意。从 2022 年芯片立项、主动悬架立项,到 2023 年大模型立项,到 2024 年星环 OS 量产交付、端到端大模型上车,再到 2025 年 VLA 模型上车,直至 2026 年 5 月全新理想 L9 Livis 发布。
这是一条持续 4 至 5 年的技术投入长线,而非为了某个新品发布而临时拼凑的 " 噱头配置 "。
为 " 造硅基人 " 重构组织
在商业史上,一家公司可以喊出最宏伟的愿景,但战略与组织错位的案例不胜枚举。理想汽车的独特之处在于,它不仅为 " 具身智能上下半场 " 制定了详细的路线图,还为此彻底重构了自身的研发组织。
2026 年 1 月,理想汽车进行了一次重大的组织调整。这次调整的核心逻辑是,不再按传统的软硬件功能划分部门(如软件部、硬件部、测试部等),而是按照创造数字人和硅基人的方式来组织研发体系。
李想对此的表述非常直接:" 本质上‘造产品就是在造人’。我们按照人体结构重构了四大体系。"
具体来看,脏器系统对应马赫 M100 芯片(心脏)、星环 OS(神经系统),以及支撑模型训练的大规模数据集(肺,提供氧气 / 数据供给)。脑系统对应 MindVLA、MindVLA-o1 等基座模型,负责从 3D 感知到决策规划的所有认知功能。软件本体对应理想同学、自动驾驶 Agent 等应用层软件,负责调用底层模型和执行器,完成具体任务。硬件本体对应完全体线控底盘、800V 主动悬架、以及未来人形机器人的关节、驱动等物理执行部件。
这种划分方式,与传统车企 " 动力总成部门 "、" 底盘部门 "、" 电子电气部门 " 的架构有着本质区别。它的出发点是:一个具身智能体(无论是自动驾驶汽车还是人形机器人)的能力上限,取决于其 " 大脑 "、" 心脏 " 和 " 手脚 " 的协同效率,而非任何一个单点的局部最优。
因此,组织必须按照系统集成的方式重构,让负责模型的人、负责芯片的人、负责执行器的人从一开始就坐在一起,而不是在部门墙之间递交接力棒。
任何组织调整的效果,最终都要用研发效率来衡量。理想汽车给出了一个量化指标:调整前,智能驾驶模型的训练迭代周期约为两周一次。调整后,这一周期缩短至一天一次。
李想对此的解释是:" 虽然团队在一开始不理解,但最近大家都发现工作效率变得更高了……团队之间的协作也完全不一样,过去还有部门墙的各个团队,今天大家真正坐在一起协作。"
在传统架构下,数据团队、模型团队、部署团队、测试团队分属不同部门,一次模型更新需要跨部门协调、排期、联调,耗时以周计。而在新架构下,所有相关团队归属于同一个 " 脑系统 " 大体系下,且与软件本体、硬件本体团队的接口被标准化(如 MCP 协议),迭代速度自然大幅提升。
更重要的是,这种组织模式为 " 具身智能上下半场 " 的能力迁移提供了制度保障。当理想汽车从自动驾驶(上半场)向通用人形机器人(下半场)扩展时,其脑系统团队积累的 3D 感知、VLA 模型等能力,可以无缝对接到硬件本体团队正在开发的人形机器人执行器上。
这是因为,双方从一开始就在同一套组织框架下工作,遵循同样的接口协议(如 MCP),共享同一套基础设施。这种 " 基因级 " 的组织协同,是那些临时组建机器人事业部、或通过外部收购来布局机器人的企业所无法比拟的。
这一组织重构,最终指向的是理想汽车在 " 具身智能下半场 " 的终极目标:通用人形机器人。根据官方信息,理想汽车已正式立项研发人形机器人产品,且采取 " 两条腿走路 " 的策略。
李想将人形机器人的能力演化分为三个阶段:6 岁泛化能力、12 岁泛化能力、18 岁泛化能力(接近 AGI),他预计这是一个 15 到 20 年的过程。
普世化超级富豪的生活
在商业与技术分析中,人们很容易沉迷于算力数字、芯片制程、模型参数这些硬指标,而忽略了这一切投入的终极目的。
理想汽车的 " 具身智能上下半场 " 定义,如果仅仅停留在技术路线图和组织架构层面,它仍然只是一个产业战略,而非一个值得被广泛记住的价值主张。
但李想为这个宏大的技术叙事赋予了极其实、也极具感召力的终极目标。他用一句平实的话,将一系列技术术语,还原为一种人人可以感知的生活方式。
" 过去那些超级富豪有什么?有司机——不只是开车,还是生活助理,帮你接孩子、跑腿;有家政、有保姆,回家就能吃饭,卫生有人打扫。我们要做的,就是用 L4 无人驾驶替代司机,让家政机器人进入家庭,让几亿人、几十亿人都能消费得起这种生活。"


登录后才可以发布评论哦
打开小程序可以发布评论哦