量子位 昨天
蚂蚁具身智能明牌了:做大脑,和宇树们错位竞争
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

从 3000 小时到整整 20000 小时

真实世界数据里的Scaling Law,直接喂出了个最强 VLA(Vision-Language-Action)基座模型!

这就是蚂蚁灵波今天开源的具身智能基座模型——LingBot-VLA

为什么说它是目前最强?先看数据。

从 "20000 小时 " 这个量上来看,LingBot-VLA 已经解锁了迄今为止开源的最大规模真实机器人数据之一。

并且性能也是够打,在权威评测中也全面超越了此前公认最强 Physical Intelligence 的 π 0.5,以及英伟达 GR00T N1.6 等一众国际顶尖模型。

再看实际表现。

此前具身智能圈子一个很头疼的问题,就是一旦环境发生变化,VLA 就不太好使了:

换了个机器人,Fail;

换了个摄像头,Fail;

换个桌子高度,Fail ……

但在 LingBot-VLA 加持下的机器人,脑子一下子就变聪明了,学会了见招拆招。

例如面对复杂的收纳操作——把桌面物体放进包里并拉上拉链,机器人双手各司其职,动作一气呵成:

更复杂一点的餐具清洁整理——配合多种工具完成餐具清洗并归位,可以看到,机器人依旧是能精准拿捏各种各样的物体。

即便是像透明玻璃杯这样往往让机器人看不清的物体,它也能轻松 hold 住:

并且同样的任务,因为有了一个聪明的脑子,不论是放在 AgileX、AgibotG1 还是 Galaxea 三个不同的机器人身上,统统都能迎刃而解:

而纵观整项研究,除了数据性能和实际表现之外,更关键的一点是,LingBot-VLA 还指明了一条通用具身智能发展路径:

从 3000 小时到 20000 小时,首次在真实世界场景中,系统性地验证了 VLA 模型性能会随着数据规模扩大而持续提升的Scaling Law

并且是在 20000 小时之后,性能提升还没有失效的那种。

正如网友总结的那般:

更多真实数据 → 更高成功率 → 还未达到饱和。

一个大脑,多个身体,这就是规模化之道。

那么 LingBot-VLA 具体又是如何实现的?我们继续往下看。

主打一个真实

在谈 LingBot-VLA 是怎么炼成的之前,我们还需要先了解一下机器人的困境。

之前像 Physical Intelligence 的 π 系列这样的顶尖 VLA 模型,一个很大的问题就是,它们预训练的数据大量依赖仿真环境。

仿真的好处是成本低、可并行,却与真实物理世界的质感存在难以弥合的鸿沟。

打个比方,一个机器人在仿真环境里能丝滑地叠衣服,但到了真实世界里可能连个衣角都抓不稳。

因此,蚂蚁灵波团队的选择是这样的:仿真的不好使,那就全部采用真实世界的机器人操作数据

从 2023 年开始,他们联合星海图、松灵机器人等展开合作,在一间间真实的实验室里,通过遥控操作的方式,让机器人完成成千上万次抓取、放置、组装等动作。

数据规模从最初的 3000 小时,一路扩展到 20000 小时,全部源自物理世界。

并且这些数据并非来自单一机器人。

研究团队动用了 9 种不同品牌和构型的双臂机器人,包括 AgileX、Agibot G1、Galaxea R1Pro/R1Lite、Realman Rs-02、Leju Kuavo 4 Pro、青龙机器人、ARX Lift2 以及 Bimanual Franka。

这意味着,模型从 " 小时候 " 开始就见识了不同机械臂的运动方式、不同摄像头的视角、不同夹爪的特性。

这种数据的异构性和丰富性,成了 LingBot-VLA 具有很强泛化能力的基础。

为了将这些海量视频数据转化为模型可学习的教材,团队还采用了一个巧妙的半自动标注流程:

人工将多视角视频按原子动作拆分成片段;

利用强大的视觉语言模型 Qwen3-VL-235B,为每一段视频生成精确的自然语言描述,例如 " 用左手夹爪靠近红色积木 "、" 将水杯平稳地放入微波炉 "。

最终,这 20000 小时、涵盖无数原子动作的多模态数据,构成了 LingBot-VLA 的养料。

除了海量真实数据之外,模型架构上的创新,也是 LingBot-VLA 的关键所在。

它采用了一种名为专家混合 Transformer的架构,可以将其理解为为机器人设计了一套大脑与小脑协同工作的系统:

大脑:一个已经过预训练的强大视觉语言模型。LingBot-VLA 选用了 Qwen2.5-VL。它的职责是进行高层次的语义理解——观察环境(多视角图像),理解任务指令(自然语言),并思考出当前状况和任务目标。

小脑:一个专门初始化的动作专家模块。它的职责是接收来自大脑的语义信息,结合机器人当前的自身状态,规划并生成具体、连续、可执行的动作序列。

而且二者之间并非是各玩各的,它们通过一个共享的自注意力机制进行深度耦合,实现了在模型每一层的信息交互。

在动作生成技术上,LingBot-VLA 还摒弃了传统的离散预测,引入了先进的流匹配模型。

简单来说,它不再预测 " 下一步关节应该转多少度 " 这样一个具体的点,而是学习整个动作变化的平滑流场。

这使得机器人产生的动作更加丝滑、连贯,更接近人类演示的自然度,对于需要精细控制的长序列任务至关重要。

除此之外,深度感知,是另一个技术上的点睛之笔。

为的就是让机器人不仅看得见,还能感知距离——引入了自研的LingBot-Depth深度估计模型提供的深度信息。

也就是昨天蚂蚁灵波开源的让机器人能看清透明和反光物体的新技术。

这种方法通过一种可学习的查询对齐技术,将深度信息蒸馏注入到 VLA 模型的视觉理解中。

相当于让机器人获得了对三维空间的直观感知能力,使其在面对 " 将芯片插入狭小卡槽 "、" 避免抓取时碰撞杯壁 " 等需要精确空间关系的任务时,表现大幅提升。

然而,要将 20000 小时高维度的视频和动作数据训练成一个模型,对算力是恐怖的消耗。

蚂蚁灵波团队对此的回应是:对训练基础设施进行系统级优化,打造了一个高性能开源代码库。

他们在分布式策略、算子级别和数据处理管道上进行了全方位革新:

采用完全分片数据并行策略,极致优化 GPU 内存占用。

针对动作专家模块设计特定的分片组,大幅降低通信开销。

利用 FlexAttention 等技术对稀疏注意力计算进行加速。

效果是立竿见影的。

在 8 卡 GPU 的配置下,LingBot-VLA 代码库实现了每秒每 GPU 261 个样本的吞吐量;与社区主流的 OpenPI、StarVLA 等框架相比,训练速度提升了 1.5 倍至 2.8 倍。

以往需要一个月完成的实验,现在可能只需一到两周就能搞定了。

这不仅大大降低了科研创新的周期和成本,更重要的是,它让基于万小时级真实数据迭代 VLA 模型,从此变得可行。效率的提升,是解锁数据缩放定律的前提。

100 个任务,22500 次的全面测试

模型好不好,不能只在论文里说。

为此,蚂蚁灵波团队在权威的评测体系做了测试——GM-100 基准

这一测评集是由上海交通大学等机构联合研发,旨在为衡量机器人大脑(智能模型)与身体(物理执行)的协同能力,提供一个更系统、开放且可复现的评估基准。

它包含 100 个从易到难的精细操作任务,从简单的 " 抓取积木 ",到复杂的 " 制作三明治 "、" 叠放衣服 "。

评测在 Agibot G1、AgileX 和 Galaxea R1Pro 三种真实机器人平台上进行。

每个模型在每个任务上都要进行多轮测试,总计产生了 22500 次真实机器人测试录像。所有录像均已开源,确保了评测的完全可复现和透明。

在这场同台竞技中,LingBot-VLA 迎来了三位重量级对手:π 0.5、英伟达的 GR00T N1.6,以及 WALL-OSS。

所有模型都在相同的数据、相同的超参数下进行后训练,以确保公平比较。

在综合了任务成功率和进度得分两项核心指标后,LingBot-VLA(无深度版本)已在三项指标上全面领先 WALL-OSS 与 GR00T N1.6。

而融合了深度信息的 LingBot-VLA,则在三项指标上均显著超越了目前公认的强基准—— π 0.5。

例如,在 AgileX 平台上,LingBot-VLA(含深度)的平均任务成功率达到了 18.93%,而 π 0.5 为 17.20%;在更具挑战性的 Galaxea R1Pro 平台上,优势同样明显(20.98% vs 14.10%)。

在仿真基准 RoboTwin 2.0 上,优势依旧明显。

在物体位置、背景、灯光高度随机化的复杂场景中,LingBot-VLA 相比 π 0.5 取得了近 10 个百分点的绝对成功率提升。

这证明其学到的能力是鲁棒的、可泛化的,而非对特定环境的过拟合。

更重要的是,研究团队通过控制预训练数据量(从 3000 小时到 20000 小时)进行的实验清晰表明:

随着真实世界数据量的增加,模型在下游各项任务上的性能呈现持续、稳定的提升,且尚未看到饱和迹象。

不造机器人,但要搞个聪明大脑

最后,来谈一谈蚂蚁灵波要做的事情。

与当前机器人行业存在的一个核心痛点息息相关,即场景碎片化与硬件非标化。

不同的机器人本体,关节构型、传感器配置、驱动方式千差万别。传统的解决方式是为每个场景、每种硬件定制开发算法,成本高、周期长、难以复制。

LingBot-VLA 提供的是一种通用智能基座思路,也就是不做机器人的本体,但求做一个通用大脑:通过在海量异构真实数据上预训练,模型学会了跨越不同硬件平台的、本质性的操作逻辑和物理理解。

就像一个学会了 " 抓握 " 本质概念的人,无论给他筷子、夹子还是机械爪,他都能通过简单适应掌握使用方法。

LingBot-VLA 展示的跨本体泛化能力正是如此。

模型在 9 种机器人数据上预训练后,在 3 种未见过的机器人平台上依然表现优异,证明了其能力并非绑定于特定硬件。

这为实现 " 一次训练,多端部署 " 的规模化落地愿景提供了坚实的技术基础。

为了降低行业的使用门槛,蚂蚁灵波团队不仅开源了模型和代码,还贡献了 " 交钥匙 " 式的评估基准和高效后训练方案:

可复现的评估:GM-100 基准与全部 22500 次测试录像开源,树立了行业评测新标准。

低成本后训练:高效的代码库与数据高效性优势(实验显示,仅用对手 60% 的数据量就能达到更好效果),让企业能用更少的数据、更低的算力成本完成对特定场景的适配。

遥想 2024 年,π 0 的开源虽然引爆了全球 VLA 的研究热潮,但它主要基于仿真数据,在真机落地上存在局限。

而 LingBot-VLA 的价值在于,它首次提供了一个基于万小时级真机数据开源的全栈解决方案,推动行业从实验室演示迈向可规模化落地的新阶段。

如果说蚂蚁灵波 LingBot-VLA 是一个单点,那么它所影射的是蚂蚁集团在通往 AGI 探索的技术路径与行业愿景:

蚂蚁百灵:作为底层基础大模型,提供通用的语言与逻辑能力基石。

蚂蚁灵光:面向应用的通用 AI 助手,探索 AI 的交互与服务边界。

蚂蚁灵波:正是本文主角,专注攻克具身智能,旨在为物理世界中的智能体赋予大脑。

从基础大模型到多模态,再到如今的具身智能,蚂蚁的 AGI 拼图正在一块块补全。

这条路,注定是漫长且需要生态协作的。但当行业领先者开始体系化布局,并主动拆掉围墙,或许正如他们所期待的那样——那个属于通用人工智能的未来,会以更开放、更协作的方式,更早地到来。

或许在不久的将来,人们的生活就会变得像《连线》杂志所说的那样:

你的第一个机器人同事,大概率是个 " 中国人 "。

项目主页:

https://technology.robbyant.com/lingbot-vla

GitHub:

https://github.com/robbyant/lingbot-vla

模型权重:

https://huggingface.co/robbyant/lingbot-vla

https://www.modelscope.cn/collections/Robbyant/LingBot-VLA

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 英伟达 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论