基于人类视频数据学习，「零次方科技」四个月已完成两款人形机器人研发

作者｜黄楠

编辑｜袁斯来

数据之于技术发展的重要性长期存在。但由于它的采集难度大，训练数据成了横亘在机器人规模化落地面前的一座大山。

目前，机器人的训练数据大体上可分为三类：第一类是真实的遥操数据，第二类是高质量的仿真合成数据，第三类是人类的行为数据、其主要源于互联网视频。

机器人训练数据（图源：零次方科技）

随着 Scaling Law 在人工智能领域被验证，大语言模型和以特斯拉 FSD（Full-Self Driving）推理为代表的端到端高速大模型，给具身智能领域带来了新的启发。

要实现具身智能，无论是遵循多模态大模型、采取构建高维世界模型、亦或是组合专有领域小模型的多种路径，其核心就在于能否解决对多样性、高质量数据的需求。通过对这一核心问题的思考，硬氪近日接触到的具身智能创业公司「零次方科技」提出了他们的解法——基于人类视频数据学习（Learn from hunman video）。

「零次方科技」成立于今年 5 月，由清华大学和江淮前沿技术协同创新中心共同孵化，核心成员来自清华大学 AI&Robot 智能机器人实验室，团队中还有多位主创曾就职于字节跳动、百度等互联网大厂、节卡等协作机器人公司。

数据量是实现通用具身操作的必需因素，单位数据成本是产品落地的基础条件。一个现实情况是，真实遥感数据和仿真数据都存在单位成本高的问题，而人类数据虽然数据量最庞大、但其数据质量是最低的。如何利用好海量的人类视频数据成为「零次方科技」探索的主要技术路径。

数据量与应用场景（图源：零次方科技）

区别于当前主流的遥操作技术，「零次方科技」借助三维人体运动姿态感知模型，通过提取人类关键关节的运动数据、并重映射到机器人身上，可在一定程度上降低算法的学习成本；同时，基于 4D 高斯溅射技术对机器人所观测信息进行重建，获得一个基于扩散模型的机器人动作生成策略，驱动机器人自主完成任务，使其具备直接向人类学习的能力（LFWH）。

测试结果显示，在 LFWH 基础上，机器人能够在仿真训练中进行强化学习，实现更加灵活泛化的操作，以弥补机器人与人之间的先天性结构差异，进而赶超人类专家的工作效率，并实现快速部署。

根据专项场景的数据及互联网数据训练想象生成模型（Imaginator），随着 imaginator 能力提升，模型训练中所需的真实数据逐渐减少，生成数据的比例越来越高，算法的泛化性也随之增强，进而实现 Imaginator 的生成能力愈发接近真实世界，逼近现实物理规律的世界模型，最终实现真正的通用人工智能。

想象生成模型（图源：零次方科技）

以「零次方科技」9 月发布的双臂机器人 F1 为例。F1 当前正尝试将其引入专业工厂的专项操作中落地使用，通过逐步拓展场景、推动数据飞轮滚动，可以有效提高模型和机器人的泛化能力。

比如中小企业工厂改造难、手动编程等问题，「零次方科技」提出，用机器人自主学习实现原位替代，不需要改变工厂布局、也不需要编程，只需把机器人引入人类岗位中，通过其持续学习的能力、不断填入数据，以增强机器人在场景方面的泛化能力。

用机器人模拟人类行为进行数据训练（图源：零次方科技）

在机器人整机方面，「零次方科技」四个月共完成了两款人形机器人的研发工作。除上述提到的 F1 双臂机器人外，10 月 23 日，公司正式发布首款人形机器人 Z1，该机器人可以在多种不规则路面、复杂地形中长时间稳定行走，且具备优秀的抗干扰性能，即使受到各方向的强冲击也能保持稳定站立。

Z1 配备有 150Nm 关节电机，全身具备 27 个自由度，载重测试极限高达 20 公斤，负载 / 自重比超 70%。其搭载了自研的 EtherCAT 通讯模组，整体系统可实现低延时、高带宽；同时，团队还采用了 AI 技术辅助进行机器人的结构参数设计，能耗更低、其动态运动性能更高。

目前，「零次方科技」正在尝试让机器人学习电影《钢甲铁拳》中的画面，已实现对人类双臂动作的准确复刻。根据官方公布的视频画面，通过观察人类的行为动作，Z1 可以模仿人学习攻击招式，以灵活的全身协同控制能力为基础，进行动态防御。

宙世代

逗玩.AI

相关标签