当 Robotaxi 还在为 L4 苦苦挣扎时,酷哇的环卫机器人、无人小巴、机器狗已经在 50 多个城市 " 上岗 " 赚钱了。
具身智能最大的瓶颈不是算法,而是数据——没有量产就没有数据,没有数据就无法进化。酷哇的解法是 " 以战养战 ":让机器人在真实运营中一边干活一边成长,用万台规模反哺模型迭代。李柯宏强调,中国是全球少有的支持机器人规模化应用的市场,酷哇正依托 " 一带一路 " 先行布点,用真实的运营数据驱动具身智能的持续进化。
以下为酷哇科技联合创始人、COO 李柯宏 演讲内容,经 36 氪整理编辑:

李柯宏丨酷哇科技联合创始人、COO
非常感谢 36 氪和亦庄的邀请,今天我分享的主题是:作为一家以统一世界模型驱动的具身智能企业,我们如何在全时空城市场景中实现机器人的规模化部署。
从大语言模型和具身智能的演进来看,2023 年是一个关键分水岭。此前行业更多采用分模块或端到端的机器人架构;2023 年后,以生成式 AI 为底座,诞生了面向物理世界的世界模型(World Model)。它与上一代模型的本质差异在于:能够基于对环境的观测,生成对未来的动作预测,并将物理因果关系嵌入决策链条。
过去两年,中美顶尖 AI 公司发布了大量世界模型,无论是应用于机器人、智驾还是视频生成,大方向是统一的——将生成式算法落地于物理世界。
生成式算法仍遵循 Scaling Law。以 Robotaxi 为例:Waymo 从 Google X 起步,耕耘十余年;特斯拉依托千万级车队众包数据训练,已逼近 L4 门槛。但具身智能的复杂度远超自动驾驶——理论上需要的数据量级更大。现实困境在于:全球没有一个像汽车那样普及的 " 具身智能终端 ",能让用户边用边采集数据。具身数据从何而来,是目前行业最大的瓶颈。
我们酷哇的解法,我们做了 Coowa WAIM ( World-Action Model ) ,基于这个模型做一脑多行,具体应用在五大场景,环卫、出行、即时配送、物业、家庭,前三个要么是规模化,要么快速做 POC,后面两个还是需要一点时间。再来介绍以下我们模型的结构。
酷哇的解法是,我们构建了 CooWAIM(World-Action Interactive Model)通用世界模型,以 " 一脑多形 " 架构驱动不同形态本体,覆盖环卫、出行、即时配送、物业、家庭五大核心场景。前三者已进入规模化或快速 POC 阶段,后两者仍需时间爬坡。下面具体介绍模型的结构:
整个模型采用双系统架构:
一、直觉行动系统:基于视觉的端侧实时推理,负责当下安全与效率;
二、长程任务推理系统:负责全局规划与语义理解。
两者叠加,输出映射为两大具身能力域:
Drive(全域移动):覆盖结构化与非结构化场景,城市主干道、辅道、人行道、园区楼宇内均可自由穿行;
Work(多关节协作操作):超越传统 " 抓取 - 放下 " 范式,将环卫扫盘、风机模组、机械臂等执行器统一纳入操作空间,实现移动与操作的不可解耦融合。
酷哇的路径是 " 以战养战 ":拆解行业特性,匹配技术成熟度、产品成熟度与商业成熟度,按经济性节奏部署,最终实现具身智能的规模化落地。在城市服务领域,大家广义理解的 drive 层面做到万台规模,无序移动的数据或者能力基本实现。
再往上走,我们找到即时配送场景,基于 " 无序移动 + 简单操作 " 实现产品匹配,我们认为即时配送场景在短期内有规模化空间。长期来看,具身智能的落地路径是从开放场景走向半封闭、再走向封闭,最后进入家庭——从移动到操作,逐步把数据收集起来。
酷哇成立于 2015 年,深耕城市开放场景十年时间,推出适配各类场景的产品矩阵,包括 1 吨级、3 吨级环卫机器人及无人小巴,覆盖市政清扫与出行接驳。以下场景为标准中国人行道——环境高度复杂,感知精度要求高于主干道,是我们的机器人产品在非结构化环境下移动能力的直接体现。
我认为这是世界模型在端侧应用的典型范例。讲一个大前提:我们的机器人在上下班高峰期过路口时,需实时处理上百个动态特征(行人、非机动车),生成未来轨迹预测,评估对自身的影响,再输出自适应行动轨迹。在拥挤道路环境下,其交互博弈能力直接决定通行效率。有人会问为什么小车需要这么强的能力——这跟具身智能的经济性直接相关:每过一个路口,通行率更高或通行时长更短,第一覆盖距离加大;第二单机清扫时间效率变快,就可以覆盖更大面积,帮助客户节约更多成本。比如你能节约 20% 的时间,基本约等于 20% 的毛利,这是机器人规模化应用的前提条件。
清扫作业过程中,机器人跟主干道的交互不仅是有避障,还有主动寻求碰撞的 action,比如贴边清扫、识别垃圾、控制风机模组——多关节协作,既有 Drive,又有 Work,这是不可解耦的。机器人会实时根据垃圾的分布,再做 locomotion,进而把 Drive、Walk 融合到一个场景任务中来。
之后是我们的物业服务场景的代表产品瓦力机器人 R0,作业范围覆盖整个物业场景包括室外、室内,都会有类似的 Work 能力体现。
在出行场景的无人小巴方面,目前 Coobus 已在全球 10 个城市左右落地,目前亦庄很快也可以看得到。
接下来是酷哇实现机器人规模化落地的关键数据:真实里程 5500 万公里,全国 50 多个城市和地区部署。
在即时配送场景,基于通用的无序移动 + 简单 Work 能力,我们部署了四足配送机器狗。在末端配送环节中,我们发现一个痛点:占用配送小哥大部分时间并不是在主干道上骑电瓶车——这个效率已经非常高了——真正损耗时间的是如何在封闭楼宇或大型小区找门牌号,这是地图无法标注出来的。我们通过机器狗来解决:一只狗送万家货,一方面我们与客单价相对较高、对履约时效有较高要求的品牌专送达成合作。另一方面,在物业层面,我们积极接入他们的系统,争取在不改变物理基础设施、不做梯控改造的前提下完成履约,现在也做到三公里以内 30 分钟送到。
如图所示,这是我们抓取冷启动的动作,包括柔性物体或长程任务抓取也能够完成。这是机器狗送咖啡的场景:袋子的颜色、大小都不一样,抓取位置偏柔性,还是得用真机训练——因为袋子的材质构成在开源数据集中很难抓到,包括 action 和 VOA 对齐的动作数据是不存在的,只能在真实场景中采集,再用收集到的数据进行训练。
这是比较好的小区,也会出现 " 看似路又不似路 " 的场景。即便在小区内,对机器人的寻址能力要求也非常高。目前我们的机器狗在电梯里送货——在不改变任何基础设施的情况下,自主识别电梯,不需要做梯控,楼层也可以自主识别。这是最后送到家的环节,跟上游系统打通,通过 AI 短信、电话通知客户东西到了。虽然看似不那么难,里面的非标环节非常多,非常非结构化,这是我们一整套具身智能战略目前的应用效果。
目前酷哇的全系列产品,已经在全国 50 余个地区落地,累计收到 1000 万条视频 - 语义 - 动作对齐的 clips。给予现在以战养战的经营策略,和万台级机器人的部署,公司目前每年也能实现大几个亿的利润流入。
全世界各地像中国这样支持机器人、AI 规模化应用的国家不多,或者几乎没有。我们尽早去各地先布点,在等别的国家开放应用、市场认可的同时,先行把这个市场的意识形态掌握,主要采用 " 一带一路 " 国家为主。
最后是公司介绍:酷哇科技成立于 2015 年,以上海交大为班底,总部落在北京。我们依托于北京的自动驾驶、机器人生态,进行具身智能的进一步示范落地。
我的整体介绍到此为止,谢谢大家!


登录后才可以发布评论哦
打开小程序可以发布评论哦