钛媒体 5小时前
VLA模型走不通,机器人的下一步该怎么走?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

商汤科技联合创始人、执行董事、大晓机器人董事长王晓刚

具身智能一直仰仗的 VLA 技术线路,在实际开发过程中正在面临越来越多的挑战。

所谓 VLA 模型,即视觉 - 语言 - 动作模型。它的技术逻辑可以简单描述为,将人类指令和外界多模态信息(声音、图像、视频)转化为计算机语言,继而控制机器人行为。

但在 VLA 模型的训练中,互联网上的静态、非结构化文本和图像数据,并不是训练所需的核心数据。训练 VLA 模型需要的具身智能数据,是连续的、动态的、三维甚至四维的时空轨迹流。而物理世界数据的稀缺与复杂性,成为了制约 VLA 模型能力跃升的主要瓶颈。

" 具身智能的大脑,靠读文章、看图片永远不可能理解真实的物理世界。"

商汤科技联合创始人、执行董事、大晓机器人董事长王晓刚对笔者表示,AI 的研究范式,要从以机器为中心转变成以人为中心,通过采集人类的真实行为数据,学习真实的物理规律,去训练具身智能的世界模型。

" 以人为中心 " 的 ACE 范式

12 月 18 日,基于 " 以人为中心 " 的研究路径,大晓机器人推出了 ACE 具身研发范式。

具体来讲,ACE 范式就是以人类与物理世界的互动规律作为研究起点,以环境式数据采集为引擎,构建了一套从 " 环境式数据采集—开悟世界模型 3.0 —具身交互 " 的技术体系。

在环境式数据采集中,通过整合第一视角与第三视角视频、力触觉信息、运动轨迹、语音等多模态数据,构建基于物理基础的 3D 资产库。

在数据处理环节,通过时序一致性对齐、交互动态轨迹预测建模与物理正确性仿真校正,将采集到的 " 人—物—场 " 信息转化为可直接用于模型训练的动态场景数据。

同时,以环境式采集数据为基,大晓机器人发布了首个开源且商业化应用的世界模型——开悟世界模型 3.0,形成跨本体的统一世界理解框架,融合物理规律、人类行为和真机动作,使机器不仅能 " 理解 " 物理世界因果规律,还能 " 生成 " 长时动静态交互场景。

" 在跟物理世界的交互过程中产生智能,这也是世界模型存在的价值。"

王晓刚对笔者表示,至于模型能否覆盖更多的场景以及人类的更多的动作,这则是大晓机器人的目标。实现这一切核心的关键是,ACE 范式能否实现更大范围的快速扩展,让更多的厂商和开发者使用这种方式采集数据,产生回流。

模型开源,行业共建

为了让 ACE 范式实现更大范围内的适用,大晓机器人宣布 " 开悟世界模型 3.0" 面向全行业开源。

据介绍,开悟具身智能世界模型产品平台集成了多模态生成能力,内置支持 11 大类、54 细类,累计 328 个标签,覆盖 115 个垂类具身场景,开发者只需输入简单指令,就能快速生成可视化的任务模拟内容,以此降低具身智能的开发门槛。

在具身本体领域,大晓机器人已携手智元机器人、银河通用、钛虎机器人、国地中心等多家具身智能企业,打通 ACE 技术范式、世界模型与机器人硬件的适配链路,共同打造适用于不同场景的解决方案。

在算力侧,开悟世界模型 3.0 则与沐曦、壁仞科技、中科曙光、辉曦智能、影微创新等多款国产厂商芯片完成适配。

硬件领域,大晓机器人与 Insta360、卧龙电驱、帕西尼等深度绑定,依托硬件厂商的感知等各类硬件,强化世界模型、模组产品对多视角、动态场景的信息采集能力。

而在具身智能产品的落地节奏上,王晓刚则认为:

短期内,以具备自主导航能力的四足机器狗为主,在安防、巡检等 B 端场景快速推广;中期,机器人会聚焦前置仓、闪购仓等物流场景,解决人力密集型作业痛点;长期来看,机器人将探索家庭场景,但需解决安全性、责任界定等复杂问题。

" 从明年开始,国内将出现大量前置仓与闪购仓,这类场景需要大量人力支持 7 × 24 小时服务,而机器人的加入不仅能提升生产效率,还具备较强的可复制性,能够充分发挥其在这类环境中的优势。"

王晓刚表示," 以人为中心 " 的 ACE 范式,大方向是正确的,特斯拉、Figure AI 等企业,也在朝着这个方向转变。" 这个赛道还没到收敛阶段,仍在不断涌现新的机会点,接下来的一到两年会是非常关键的时期。"(作者 | 科技潜线,文 | 饶翔宇 编辑 | 钟毅)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 王晓 物理 规律 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论