波士顿动力狗gogo回来了！“五条腿”协同发力

机器狗搬轮胎，" 五只腿 " 齐发力！

在波士顿动力人工智能研究所的最新方法——结合采样与学习的动态全身操作中，波士顿动力的机器狗Spot最快仅用3.7秒就能搬起轮胎。

搬运的轮胎重达15公斤，相当于 Spot 自身重量的一半（32.7 千克），并远超其最大臂力。

而且，搬起轮胎后，它还能将轮胎滚动到指定位置。

甚至还能把一个轮胎叠到另一个轮胎上面（还会用头帮忙顶一下）。

这一方法克服了传统操作策略（如摇操）在不同机器人形态学结构上的迁移限制，并通过分层控制实现了机器狗四肢与全身的协调动力学操作。

网友表示，狗子快去回收站去搬轮胎吧！

这是怎么做到的？

结合采样与学习的动态全身操作

总的来说，结合采样与学习的动态全身操作（Combining Sampling and Learning for Dynamic Whole-Body Manipulation）利用强化学习与基于采样的控制（sampling-based control）相结合的方法，使机器人能够执行需要手臂、双腿和躯干协同配合的动态力交互任务。

为应对复杂的操作任务，研究采用了分层控制（hierarchical control）方法，将控制问题划分为两个互补且同步的层级。

在低层，基于强化学习的运动策略直接控制电机力矩，以实现平衡、稳定性与运动执行。

高层控制则根据任务类型而有所不同：

对于轮胎扶正、拖拽与堆叠等任务，系统采用基于采样的控制，通过模拟潜在的未来情境来发现最优操作策略。

对于轮胎滚动任务，则使用强化学习来捕捉维持物体稳定运动所需的细微动力学特征与反应性控制机制。

所有的高层方法，最终都会输出包括底盘速度、姿态参数（包括滚转、俯仰、高度）、腿部控制以及手臂动作等指令。

在采样控制中，采样控制器通过并行模拟多个未来情境，寻找最有效的操作策略，从而选择最能实现任务目标的动作。

对于那些需要精确施力和多接触协调的任务，系统会运行 32 个并行 CPU 线程，每个线程使用 MuJoCo 模拟未来几秒内的不同动作序列。

与直接采样原始轨迹不同，研究在样条曲线空间（space of splines）中进行采样，这种方式能生成更平滑、更自然的运动轨迹，同时降低搜索空间的维度。

该控制器展现出源自物理仿真的机会性行为。在轮胎扶正过程中，控制器自主发现了复杂的操作策略：机器人通过 Spot Arm 与前腿动作的协调，产生足够的杠杆力以抬起沉重的轮胎。

为了适应多样的初始构型，机器人可能使用手臂、前腿、身体，或这些部位的组合来灵活调整操作策略。

值得一提的是，系统并未预设任何固定的操作模式。这种多肢体、多接触的行为，是在采样过程中优化自然涌现的结果，而非通过显式编程设定接触顺序实现的。

此外，控制器会根据实验室空间中机器人与轮胎的当前构型动态调整策略。

在具体的强化学习策略方面，研究通过 PPO 算法在 IsaacLab 中训练得到的运动策略。

这一策略为高层控制提供了稳健的低层控制抽象，能够在多种操作场景中保持平衡，从而使高层控制问题更易处理。

在轮胎滚动任务中，研究利用强化学习来应对难以精确建模的复杂摩擦与接触动力学。

其采用非对称演员 - 评论家（asymmetric actor-critic architecture）方法，在单块 GPU 上经过约 24 小时训练，得到高层技能策略。

该策略接收的观测状态包括机器人、轮胎与目标之间的相对姿态，以及关节位置与速度。奖励函数则根据物体几何形状及其与环境的空间关系，计算期望的躯干与末端执行器位置，引导策略学习达到目标姿态。

训练得到的轮胎滚动策略使机器人能够动态调整其躯干与 Spot Arm 的位置，以稳定控制滚动的轮胎，防止其倾倒，并将其引导至目标位置。

最后，为解决从仿真到现实的差距，训练过程中引入了随机化，包括对物体的质量、摩擦系数与形状等属性进行随机变化。

实测表现

正如我们开头提到的，在轮胎扶正任务中，机器人最佳成绩为 3.7 秒，平均每个轮胎用时 5.9 秒，几乎达到人类在该任务中的操作速度。

这一表现远超传统的准静态假设。

在准静态假设下，机器人操作物体时速度很慢，加速度产生的惯性被忽略，关节驱动力矩主要依赖静态平衡。

而在这篇研究中，机器狗能够高效搬运重达 15 千克的轮胎——远超其夹持器的峰值举升能力（11 千克）和持续能力（5 千克）。

这说明机器人通过动态协调全身动作，将运动与操作紧密耦合，拓展了操作范围，超越了传统的拾取与放置方式。

此外，研究表明，将高层控制与低层控制分离能够显著简化控制问题。

高层控制器无需在拥有数十个自由度的系统中推理关节力矩、接触力以及稳定性约束，而是仅在一个简化的动作空间中工作，该空间由底盘速度和姿态参数构成，其将执行细节交由运动控制器处理，从而极大降低了复杂度。

分层控制架构使得高层控制器能够专注于任务完成，而无需显式地推理平衡约束或地面接触。

由此，学习得到的运动抽象层让高层控制更简单、计算更可行，控制器只需专注于 " 在哪里 " 和 " 如何操作物体 "，无需处理复杂的低层动力学细节。

参考链接：

[ 1 ] https://rai-inst.com/resources/blog/combining-sampling-and-learning-for-dynamic-whole-body-manipulation/

[ 2 ] https://x.com/rai_inst/status/1978113805604258161

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度科技风向标「2025 人工智能年度榜单」评选报名开启啦！我们正在寻找 AI+ 时代领航者点击了解详情

❤️‍ 企业、产品、人物 3 大维度，共设立了 5 类奖项，欢迎企业报名参与

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签