36氪 05-28
前小米智驾刘方:如果VLA跑通,自动驾驶会变成具身智能子问题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

"VLA 是一个像人类司机一样工作的司机大模型。"5 月 7 日晚,理想汽车 CEO 李想在 AI Talk 中说道。

这是智能驾驶行业继 " 端到端 " 之后,出现的最新技术方向。

VLA(Vision-Language-Action,视觉语言动作)模型,最早由谷歌 AI 公司 Deepmind 推出,主要用于机器人领域,随后逐渐成为具身智能领域的主流技术范式与框架,Open AI、字节跳动等公司都在践行这个路线。

与 ChatGPT、Sora 等注重文本、图像与视频的视觉语言模型(VLM)不同,VLA 在前者的基础上,新增了与物理世界交互的 " 动作 " 能力。

换句话说,VLA 不仅理解周围环境,还能直接输出控制指令,如机器人动作或车辆驾驶决策等。智能驾驶、具身智能两大热门赛道也因此有了更深刻的交汇。

不过,当下 VLA 的技术实现与工程落地还处于早期。技术创新的迷雾,仍需要在实践中拨开。为此,36 氪汽车近期交流了一个拥有智驾技术背景人才创立的具身机器人项目——阿米奥机器人,希望为行业提供更多参考。

阿米奥机器人成立于 2024 年 9 月,由小米汽车智驾技术产品负责人刘方成立。今年 3 月,阿米奥完成了种子轮融资,资方包括安克创新、智谱 AI 和险峰长青。

刘方曾历经小米自动驾驶团队筹建、技术研发和量产落地的全过程。更早之前,刘方在谷歌中国搜索业务部门履职。

刘方向 36 氪汽车表示,2023 年生成式大模型 GPT 的出现给从业者带来很多冲击:一是更大的数据量能让更大的模型产生智能;二是大模型本身已经理解了很多人类知识,学习新技能不用只靠模仿,而是通过学习模仿数据背后的知识,来建立对事情的理解。

他比喻道,以前做每个具体的 AI 场景,就像是在爬一座山,总是碰到困难;但 GPT 出现后,不用爬山了,而像是海面上的一艘船,当海平面逐步提升,山就被淹没了。

而 VLA 模型,是能让物理硬件具备真正智能的大模型。刘方认为,如果 VLA 这条路能跑通,自动驾驶就变成一个低维度的事,成为具身智能大问题里的子问题。

刘方表示,近年来的智能驾驶,本质上是模仿学习,不依赖人工写规则,而是直接让系统学习海量数据,自主找到驾驶规律。但这也伴随着挑战,模仿学习没有办法处理已有数据之外的 case。

VLA、强化学习等新技术落地,正在带来新的思路。

例如,VLA(视觉语言动作)模型中的 VLM(视觉语言模型),本身就具备了认识世界的能力。"VLM 的性能决定 VLA 超过一半的性能,VLA 大部分工作其实就是在 VLM 上做增强。" 刘方表示。

除了具备看图说话、能感知距离之外,VLA 更关键的一步,是最后的动作环节。" 好比买家具回来组装,首先读一下说明书,看案例,但能不能干得好,还是要实操。"

刘方表示,最后的环节本质上就是 trying out(测试)的过程,机器人也会在最后的实操阶段做强化学习。

强化学习是一种 AI 训练的奖励机制与策略,如果智驾系统开对了就给 " 糖 ",开的不好就挨罚。

不过刘方表示,自动驾驶跟机器人的强化学习最大差别是,竞争博弈问题。" 机器人不用跟旁边的机器人抢一个杯子,但自动驾驶的强化学习中,还包括对手的反应怎么模仿。"

这最终可能需要一个好的世界模型仿真器才能解决问题。但实际落地过程中,不可能忽然出现一个很好的世界模型来帮助模拟。" 只能说,世界模型的一部分模拟先让系统做强化学习、得到提升,然后找到不符合真实的模拟反应,加一些数据加让世界模型变得更好,一步步迭代。我相信世界模型跟驾驶模型一定是绑定在一起迭代的。"

刘方还表示,当下 VLA 还处于创新迷茫阶段,行业各家的实现路径不尽相同,也还没有达到收敛状态。

基于 VLA 模型,阿米奥机器人在探索自己的路径。刘方向 36 氪汽车介绍,公司目前主要聚焦 3C 消费电子领域的机器人柔性生产。

他告诉 36 氪汽车,很多电子产品生命周期并不长,产量小,而自动化产线部署成本高,至少需要两个月时间才能落地," 但一条生产线只生产 3-4 个月就满足需求了,从成本上来看,3C 消费电子的产线自动其实不划算。"

而基于 VLA 模型,刘方表示能让过往的专用机器人变成通用机器人,学习能力和适应能力很快赶上人类水平。

例如,在工厂的固定工位提供一台机器人软硬件,代替人力三班运作,即便 3C 产品产线发生柔性变化,通用机器人也能够在类似的通用任务之间无缝切换。

目前,阿米奥机器人与北大搭建了联合实验室,双方在 VLA 基座模型上开展合作。在模型训练上,阿米奥机器人也能在投资人智谱 AI 的助力下开展预训练;其次,阿米奥机器人已经在工厂里进行数据采集。

商业进度层面,刘方表示,今年三四季度将有一条大的通用机器人产线整体落地。除了消费电子领域,未来阿米奥机器人还将扩展到服务领域、家庭清洁整理等场景。

以下是 36 氪汽车与阿米奥创始人刘方的对谈,内容经编辑:

36 氪汽车:你们不考虑做汽车领域的机器人产线吗?

刘方:汽车行业的劳动强度和需求确实更大,但本质上不存在通用性需求,它是一个设备智能化的好场景,但不是具身智能的好场景。

一条汽车生产线要用 7-9 年,至少也要 5 年。如果有更好的专用设备来解决这个问题,为什么不用专用设备来解决?专用设备比通用设备会更便宜,没有必要用通用化的设备。

36 氪汽车:现在机器手臂的供应商你们是自己做还是找外部?

刘方:现在夹具能够解决 80% 以上的任务,很多产业并不需要灵巧手。灵巧手一是成本吃不消,第二是生命周期,客户要求三班倒、用一年,这至少是 7000 个小时的寿命需求。我们现在的要求寿命就是 8000~1 万个小时,夹具可以做到。

36 氪汽车:机器人代工的利润不高,你们的商业模型是怎么计算的?

刘方:第一,代工就是把人给替下来,能为客户节省多少钱。第二是机器产能要跟上。从人力成本来看,一个人力一年要 10 万块钱。

机器人有两部分成本,第一是实体机器人的固定资产,第二还要有算法模型,模型成本前期投入大,后面运转起来就摊薄了。机器人可以三班倒,一个工位可以替换三个人的成本。

36 氪汽车:你当时为什么选择了消费电子的产线机器人领域创业,而不是自动驾驶? 

刘方:我最早一份工作是在 Google 就是做 language model(大语言模型),2023 年初 GPT3.5 出来后,对我产生了很大冲击。

第一,大数据量会让更大的模型产生智能。用大量数据喂养一个本质上是模仿学习的技术框架,即便没有见过一些 case,也能产生智能。 

第二,大模型本身理解了很多人类知识。学习新技能不需要只靠模仿,而是通过学习模仿数据背后的知识,来建立对事情的理解。这更靠近 AGI,这也是具身智能 VLA 在做的事。 如果这条路能跑通,自动驾驶就变成一个低维度的事,只是一个大问题的子问题。

36 氪汽车:所以 VLA 在自动驾驶落地是一个相当确定的事?

刘方:VLA 在机器人的落地是比较确定的事。雷总(小米 CEO 雷军)一直讲,应该以高维打低维。站在更高维度,机器人做好了,也能开车,自动驾驶就是很自然的事。

36 氪汽车:VLA 能解决自动驾驶行业哪些问题?

刘方:两个问题,第一是数据量太大,以前靠写规则覆盖所有 case 是不可能的。后来大家通过模仿学习,不写规则了,直接通过数据学习的办法让效率变得更高,这是特斯拉去年讲的事情。但还有问题,模仿学习没有办法处理数据之外的 case。这也是 VLA 能够提供的最大帮助。

36 氪汽车:强化学习能解决问题吗?

刘方:我们的方法是在 VLA 上做强化学习。强化学习跟人一样,人通常先学习基础能力:看图说话、知道距离。其次是知道动作怎么做,这个要实操。比如买家具回来组装,首先要读一下说明书,看案例,但能不能干得好,还是要实操。这一步本质上就是 trying out 的过程,我们只在最后实操阶段做强化学习。

因为机器人没有大的模拟环境去模拟交互,只能在实际中能做大量试验。且机器人直接学习和尝试的时间、次数是有限的,所以机器人不可能从 0 开始强化。VLA 大致的学习逻辑和方向是对的,中间做不好的事情,最后靠强化学习来做。我们管这个叫残差强化学习,学习 VLA 模型和实际环境之间的偏差,而不是全部环节都上强化学习。

36 氪汽车:自动驾驶用强化学习难吗?

刘方:其实更难。自动驾驶跟机器人最大的差别是,存在竞争博弈问题。机器人不用跟旁边的机器人抢一个杯子,但自动驾驶的强化学习中,还包括对手的反应怎么模仿。

要么在真实环境采集,但有些数据本来就很难采;要么在模拟环境中生成对手的反应,但生成数据,也不一定真的就覆盖了训练所需要的数据分布,探索空间不够大的时候,强化学习也不会产生实际效果。

36 氪汽车:那怎么解决?世界模型有用吗?

刘方:如果仿真能力很强,世界模型里不同对象的反应模仿做的很好的话,其实就不存在 out of distribution(OOD,指的是当一个模型被训练在特定的数据分布上时,它在处理与训练数据不同的数据分布时的性能可能会变差)的问题了。

这是个逻辑上的悖论,我一直没有想明白,这可能是个一步步往上迭代的过程。不可能忽然出现一个很好的世界模型来帮助模拟。只能说,世界模型的一部分模拟让系统做强化学习,得到提升,然后找到不符合真实的模拟反应,加一些数据加让世界模型变得更好,一步步迭代。我相信世界模型跟驾驶模型一定是绑定在一起迭代的。

36 氪汽车:最近理想汽车说 VLA 进入无人区了,你认同吗?

刘方:创新不容易,VLA 确实还是个迷茫的状态,大家有不同的路径和实现方式。比如 Pi Robotics 的方案跟 Facebook、Google、字节、和我们的方案都不一样。

虽然都是 VLA,但大家在各种细节、算法设计、数据使用上都不一样。机器人 VLA 还没有达到收敛状态,是因为还没有人做出一个百分百靠谱的东西。

不像自动驾驶,特斯拉已经做出标杆且被产品化了。机器人迄今为止还没有,但这也是创业者的机会。

36 氪汽车:这与机器人的落地场景很多有关吗?

刘方:因为 VLA 还没有收敛,没有放之四海皆准的经验。我们的经验是,VLM 的性能决定 VLA 超过一半的性能,VLA 大部分工作就是在 VLM 上做增强。

同时 VLM 的空间能力、空间之后的语义理解能力很差,就是说,它不知道图像里的东西在 3D 空间的位置是怎样的,也不能知道两个物体的 3D 对应关系是怎样的。我们希望通过 3D 增强的方式来强化 VLM 的感知能力。

然后还要把对动作的理解能力加回来,我们是通过生成式的模型来解决问题。以前做 language model 要做很多中间步骤,但 GPT3.5 告诉你干脆就不用做,直接生成。这跟物理学家费曼的观点一样," 只有我创造的,才是我能理解的东西 "。

36 氪汽车:VLA 的底层技术有什么变化吗?现在还是 transformer 的范式。

刘方:短期内可能看不太到。但最近自回归学习和生成式模型发展比较快,这可能对模型性能有蛮大提升。

36 氪汽车:你觉得 AGI 时代的终端会是什么?

刘方:我觉得功能型产品会更加直接和直观一些,能干活的机器人是我想做的事。情感陪伴型、游戏型、玩具型我其实不太能够理解,我只能干自己看得懂的事。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

自动驾驶 机器人 ai 小米 智能驾驶
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论