让机器人动作流畅丝滑如「连音」，千寻智能高阳团队提出Legato，入选RSS 2026

来源：公众号 " 机器之心 "

链接：https://mp.weixin.qq.com/s/SmpQ7MKd2R_z9oqkMngGWw

在音乐术语中，Legato（连音）意味着音符之间平滑过渡、毫无间断，演奏出流畅优美的旋律。钢琴家的手指在琴键上滑动，小提琴家的弓在琴弦上连贯运行 —— 这种 " 连音 " 技巧让音乐充满生命力。一位真正掌握连音技巧的演奏者，不需要靠后期剪辑来弥补断点，而是能够知道如何让每一个音符自然地流向下一个。

机器人领域同样在追求这样的 " 连音 " 效果：让机器人的动作像音乐一样流畅自然，没有犹豫和停顿。然而，要让一台机器人真正做到这一点，远比想象中困难。

近日，千寻智能高阳团队的研究成果《Learning Native Continuation for Action Chunking Flow Policies》被机器人顶会 RSS 2026 接收！这项工作从训练机制出发，让机器人动作天然具有连续性，实现了 " 连音 " 般的流畅执行，在五个真实世界操作任务上超越了现有方法，为具身智能领域的动作生成研究提供了新的思路。

论文标题：Learning Native Continuation for Action Chunking Flow Policies

论文链接：https://arxiv.org/pdf/2602.12978

项目主页：https://lyfeng001.github.io/Legato/

1. 机器人为什么会 " 犹豫 "？

想象一下，你让机器人倒水、叠碗或折毛巾，它却在执行过程中频繁停顿、犹豫不决，甚至突然改变主意 —— 比如原本计划用左手抓取物体，执行到一半却又想换成右手，结果两只手都没抓到，白白浪费了时间。这种 " 犹豫 " 不仅让动作看起来别扭，还会直接拖慢任务完成的速度，在需要精准配合的场景下甚至会导致任务失败。

这背后的根源，要从当前主流的机器人基础模型的动作建模方式说起。

1.1 动作分块：一把双刃剑

目前，主流的 Vision Language Action（VLA）模型普遍采用一种叫做 " 动作分块 "（Action Chunking）的技术：机器人不是每次只规划下一个动作，而是一口气规划出未来一段时间（比如接下来 1 秒）的完整动作序列，然后依次执行。这样做有两个明显的好处：

动作更连贯，因为模型能看到更长时间范围内的规划；

推理效率更高，不需要每个单独的时间步的动作都调用一次模型。

但问题也随之而来：每当一段动作序列执行完毕、下一段序列接上来的时候，两段序列之间往往存在明显的不连续性。就像两段录音硬拼在一起，接缝处总会有一个突兀的 " 断点 " —— 机器人会在这个瞬间出现停顿、抖动，甚至方向突变。这个问题在需要高频控制的精细操作任务中尤为明显。

更深层的原因在于，基于流匹配（Flow Matching）的 VLA 模型本身具有多模态性 —— 面对同一个场景，模型可能规划出多种合理的动作方案（比如用左手或右手抓取）。当两段动作序列独立生成时，前一段选择了方案 A，后一段却可能选择了方案 B，两者在接缝处发生 " 模态切换 "，导致机器人的动作出现突兀的跳变。

这种现象在任务中途尤为危险：机器人已经伸出了左手，却在下一个动作块里突然决定改用右手，不仅动作难看，还可能直接碰倒目标物体。

1.2 RTC 的修补

为了解决这个问题，研究者们提出了 Real-Time Chunking（RTC）方法。它的思路是：在生成新的动作序列时，把上一段序列末尾还没执行完的部分 " 借 " 过来，用来引导下一个序列的生成，通过让下一个序列的前半部分和上一个序列没有执行的部分比较像，来保证两段序列之间的平滑过渡。

这个方法具有非常好的效果，也因此得到了广泛应用。可以把它理解为一种 " 接力棒传递 " 的机制：新的动作序列不是凭空开始，而是从上一段序列的后半部分 " 接棒 " 继续。

然而，这个方法实际上存在一些不可避免的缺陷：

推理阶段 RTC：连续性机制只在推理时临时 " 打补丁 "，模型在训练时从未见过这种情况。训练和推理的条件不一致，就像一个学生平时练习的题型和考试题型完全不同 —— 模型在推理时面对 " 部分已知的前缀 " 时，并不知道该如何正确利用这些信息，容易产生 " 虚假的多模态切换 "，也就是机器人在执行过程中突然 " 改变主意 "。

训练阶段 RTC：虽然在训练时也引入了这种拼接机制，但做法是直接把前缀片段硬拼接到执行部分的前面，并将这部分固定、不再更新。这样一来，前缀和后续动作之间依然缺乏有机联系：模型只是被告知 " 前面这段是固定的，你只需要生成后面的部分 "。

两种方式都没有从根本上解决问题：连续性是从外部强加给模型的，而不是模型自己学会的。这就好比一个演奏者不是真正掌握了连音技巧，而是靠后期剪辑把两段录音拼在一起 —— 听起来勉强过得去，但终究缺少那种浑然天成的流畅感。

2. Legato 的解决方案

让连续性成为模型的 " 天赋 "

Legato 的核心思想可以用一句话概括：与其在推理时给模型 " 打补丁 "，不如在训练时就让模型学会如何天然地生成连续的动作。

这个思路的转变看似简单，实现起来却需要解决两个关键问题：

第一，如何在训练时让模型真正 " 看到 " 并学会利用已知的前缀信息；

第二，如何确保训练时学到的行为和推理时实际执行的行为完全一致，不出现 " 双重标准 "。

Legato 通过四个精心设计的机制，系统性地解决了这两个问题。一个直觉上的类比是：我们希望机器人就像一位经验丰富的接力跑运动员：不仅知道自己该跑哪一段，还清楚地知道上一棒跑到了哪里、速度是多少，并据此调整自己起跑的节奏，而不是每次都从静止状态重新出发。

2.1 噪声 - 真实值混合机制

在标准的流匹配（Flow Matching）训练中，模型每次都是从完全随机的噪声出发，通过多步去噪，最终生成完整的动作序列。这就好比让一个学生每次都从一张白纸开始作答 —— 他永远不知道 " 如果已经写了一半，接下来该怎么写 "。长此以往，模型只会从零开始规划，一旦推理时被要求 " 接着已有的动作继续 "，就会手足无措。

Legato 改变了这一点，它引入了引导向量 ω ∈ [ 0,1 ] ^H，用来控制每个时间步的初始状态，将训练时的起点从 " 纯噪声 " 变成 " 噪声与真实动作的混合 "：

对于已经执行过的前缀部分（ω =1）：初始状态直接就是真实动作，模型知道 " 这里已经发生了什么 "，需要在此基础上继续规划

对于需要自由预测的未来部分（ω =0）：初始状态是纯噪声，模型需要完全自主规划

对于中间的过渡区域（0

宙世代

一起剪

相关标签