作者丨齐铖湧
编辑丨马晓宁
在无人机迈向通用飞行智能体的进程中,具身智能正成为其实现认知跃迁的核心技术路径。雷峰网第八届 GAIR 全球人工智能与机器人大会,邀请到了具身智能在飞行机器人赛道的头部玩家微分智飞创始人兼 CEO 高飞,来聊聊具身智能的一个细分领域——飞行具身智能,并探讨了世界模型在其中的作用。
本文整理自高飞与 AI 科技评论的对话:
传统无人机和飞行具身智能
AI 科技评论:您提出 " 飞行具身智能 " 这一概念,它与传统的无人机智能有何本质区别?
高飞:具身智能的本质是 " 智能机器人 ",赋予各种机器人认知、推理和泛化决策的能力,对于飞行也不例外,将会重新定义飞行机器人。拿操作类的机器人打比方,双臂具身智能和传统工业机械臂的本体很相似,甚至可能完全长得一样,但双臂具身智能具备几个关键能力:泛化通用、自主决策。就是这些能力,让它和传统机械臂很不一样。
同样,飞行具身智能和传统无人机最大区别在于智能。传统无人机是一种 machine,最多是一种 automatic machine(自动机器)。但是飞行具身智能,要做的是 autonomous 甚至 intelligent & smart machine,这里的对象是聪明、易于交互、有经验、可以泛化的 , 和人一样能理解语言、环境、做推理的载体。飞行具身智能,可以在断网、无卫星信号、无人操控的情况下,独立完成感知 - 理解 - 决策 - 执行的全闭环流程,相当于物理世界中的飞行智能体。
机器人是一个面向对象的学科
AI 科技评论:您作为一名 90 后,既是浙大长聘副教授、博导,学术背景很扎实,同时又是微分智飞创始人,一边发 paper 一边科技创业,能不能结合学术角度,聊聊您对具身智能的看法?
高飞:我算是一个机器人领域的学院派学者。机器人领域有一个非常显著的特点,它不是面向方法的学科,而是一个典型的面向对象的学科。它的核心目的就是要把机器人造出来并且能 work,在过程中使用的方法总是为这个目标服务。
所以你会发现很多机器人学者都是全栈工程师和实用主义者,对新思想接受度很高。AI 结合实体,完成从信息输入到自主学习到任务执行的闭环,这就是具身智能。在 AI 技术的加持下,无论是基于大模型的大脑能力,还是小脑上端到端强化学习带来的运控能力,还是群体上的分布式群脑能力,都可以让机器人和无人机产生质变。本质上,机器人学者看到了重新定义机器人,做新一代真正 " 智能的 " 机器人的巨大机会,在这样的时代机遇面前,我认为推动技术落地的机会必须要把握。
AI 科技评论:" 机器人不是一个面对方法,而是面向对象的学科 " 这点很有意思,现在很多在做具身智能的从业者,都是从自动驾驶转过来的,能展开讲讲其中的原因么?
高飞:自动驾驶本质上是一种地面轮式机器人,受自身运动学,以及交通规则、人类车辆交互方式等复杂场景约束。目前自动驾驶领域的技术,本质是机器人技术在平面移动领域的投影。
在过往的机器人领域,大家认为足式机器人很难 work,更不用说产业化,所以做足式的少;做轮式机器人 ( 包括自动驾驶 ) 和无人机这类移动载体的更多。现在随着技术的发展,更多形态的机器人让大家看到了落地的曙光,很多自动驾驶的从业者自然会转向新领域,并且将相近领域的 knowhow 带过来复用。
AI 科技评论:那就聊聊飞行具身智能的应用场景吧,能在哪些场景 work ?
高飞:整体来说,我们(微分智飞)现在还处于探索和小批量验证阶段,正寻找有更大市场空间和技术匹配度的方向。
在泛巡检、泛测绘类任务中,我们已经有了一些交付量,积累了上千次实飞数据。目前我们主要面向高危、人工作业困难的场景,产品能在全程自主决策下完成复杂环境的信息采集;这些采集的信息能帮我们进一步训练模型,让基座模型更能适应特定行业的共性需求。更多场景我们正在逐一解锁,比如在市政安防领域,飞行具身智能可以辅助智能巡逻和快速应急。
AI 科技评论:听起来确实很有想象空间,之前了解到飞行具身智能有一个非常关键的部分,叫做 " 分布式集群技术 ",可以展开说说么?
高飞:这个领域的发展很快,我早期在港科大解决单体自主导航,进入浙大工作后开始研究集群协同。
和传统的无人机集中控制不一样,分布式集群技术,类似人类军训走方阵,每个人的分工不同,每个个体会独立思考决策,属于分布式智能协同,这就要求集群中的每一个个体既能自主智能,同时又要高效沟通和分工,不能起冲突。
现在我们能做到在仿真里同时控制 1, 000 个飞行机器人,并且是完全分布式的架构。在真实的场景下,我们可以实现数十机规模的分布式自主搜救、协同建图,甚至多机协同搬运。
AI 科技评论:很有意思,能聊聊 " 分布式集群技术 " 这个领域的学术成果么?(雷峰网)
高飞:我们第一次实现分布式集群自主导航,是在 2022 年的一篇《Science Robotics》工作中。这篇工作被评价为 " 迈出了无人机集群走出受限实验室场景的重要一步 ",是一个重要的里程碑,它证明了多个小型无人机只靠非常便宜的机载传感器和芯片,就可以实现分布式的自主导航、避障和建图。
AI 科技评论 : 您如何看待世界模型在飞行具身智能领域的应用?当前有哪些机遇、挑战与局限?
高飞:这是一个令人兴奋的方向。如果说具身智能是让飞行机器人有了大脑,那么世界模型就是让这个大脑能够预演未来和认识空间。在我看来,它得价值主要体现在应用和认知层面。
首先是应用层面,它能模拟、能预测。飞行机器人的容错率很低,炸机的成本很高。我觉得世界模型本质上是一个针对未知空间和未来时间的预测器。它能辅助机器人提前推演不同飞行路径带来的后果;也能作为一个高保真的仿真器,生成大量长尾场景数据,用来训练和验证。
更本质的是认知维度的补全。现在的 LLM 或者说 MLLM 主要解决的是逻辑。但飞行机器人是在三维物理世界里运动的,光懂逻辑不够,还必须懂几何结构和演变规律,世界模型同时具备这三种能力。打个比方,当机器人面前有一棵树,世界模型不仅能让它知道 " 那是树 ",还能理解树的三维结构、甚至预判树枝怎么摇。
当然现在还是面临一些挑战, 比如模型的准确度、实时性,以及怎么把这么大一个模型 " 塞进 " 机载计算单元里,还要保证毫秒级响应,这也是大家正在攻关的方向。但一旦走通,它很可能成为机器人智能的通用基座,未来只需要微调,就能适应各种真实任务。(雷峰网)
在自己的科研成果上,
没有人比自己理解更深刻
AI 科技评论:您在知乎上发过一篇关于读博的神贴,引起很多学生的共鸣,能聊聊您的学习经历和创业契机么?
高飞:我的求学经历很简单,我是 18 岁上大学,从一个小镇青年考上浙大,选择了自动化专业,之后申请了港科大的直博。我的老师当时给我布置的博士毕业课题是让飞行机器人可以实现全自主(full autonomous)导航,能够在实验室门口一键起飞,全程无人干预,自动飞到学校门口,什么时候做出来就什么时候毕业。
博士毕业后我回到浙大工作,那时我觉得还有很多东西想做,所以组建了一个团队来解决这些问题。2019 年到 2024 年期间,我在科研方面做出了一些有影响力的成绩,比如野外环境下的自主集群、无人机导航规划系统等,完成了多项国际首创成果,这些成果还是让人比较有成就感的。
但我始终抱有将技术落地的愿望。我认为生产力是有三个层次——科学、技术和应用。科学是在发散探索新方向;接下来是技术,就是由发散的诸多科研探索收敛而成的、有较大落地可能的技术路径;最后是应用阶段,也可以说是工程化、产品化阶段,就是让已经收敛的技术路径产生切实应用价值,直到最后有人愿意为此买单。
作为学者,我在研究的过程中逐渐意识到,要真正实现一项新技术的完整闭环,必须走到应用阶段——无论是自己推动还是交给别人去做。当然,在自己的科研成果上,没有人的理解比自己更深刻,因此还是自己去做更直接和有效一些。
当然,最后促使我选择现在创业的部分原因还有具身智能这个巨大的时代机遇:将 AI 赋能到机器人实体上,将会创造无限可能。
AI 科技评论:最后一个问题,你觉得具身智能现在是一个泡沫么?(雷峰网)
高飞:我认为具身智能的泡沫有,但是没有大家想象得那么大。
大家想到机器人,都会下意识地期待它是聪明的、能思考的个体(甚至群体)。但是长期以来,机器人实际上是停留在类似流程自动化、工业自动化的专用设备阶段。这很 " 机器 ",但很不 " 人 "。
要实现真正智能的机器人,关键是机器人的 " 脑 "。过去这些年学界和产业界在小脑和本体上都取得了一些突破,但大脑层面仍几乎是一片空白,更不要提代表群体智能的群脑技术了。我认为具身智能是能真正推动机器人大小脑和群脑发展的关键变量,是历史性的机遇;当下具身智能不是一场泡沫,而是一个历史性拐点。


登录后才可以发布评论哦
打开小程序可以发布评论哦