论文链接:https://arxiv.org/abs/2505.23705

Physical Intelligence 凌晨三点的尴尬时刻

想象一下:Physical Intelligence 的工程师们刚把 π₀ 跑通——一个基于大语言模型的机器人控制策略。Demo 里机器人折毛巾、收衣服,流畅得让人起鸡皮疙瘩。但当他们试着给机器人下一个语言指令:”把勺子放进垃圾桶”,机器人一把抓住了旁边的垃圾袋,直接忽略了语言。

这不是偶发 bug,而是一个结构性的陷阱:当你把一个预训练好的视觉语言模型(VLM)硬塞进一个连续动作输出模块(flow matching / diffusion head)去训练时,那些从零初始化的新参数产生的梯度,会反过来侵蚀预训练模型中已经学会的语义理解能力。模型越训练越”失忆”——忘了语言指令,退化成一个只看图像的盲目抓取器。

与此同时,另一条路——纯自回归离散 token 的 VLA(如 π₀-FAST)虽然语言跟得好,但推理速度慢到令人绝望:预测一个 1 秒的动作序列要 750ms,在 RTX 4090 上。机器人等着动作指令,像等人发短信一样,连基础的高频控制都做不到。

根本矛盾:快速连续控制 vs. 保留预训练语义知识,之前的方案只能二选一。 这篇论文说:我全都要。


“绝缘层”:让两条高速公路互不干扰

如果让我用一个类比来翻译 Knowledge Insulation 的核心机制,那就是高速公路的隔音屏障

想象一座城市有两条并行的高速公路。一条是主干道(VLM backbone),车流密集、路面成熟,承载着从互联网学来的海量语义知识。另一条是新修的辅路(action expert),刚铺好沥青,什么车都还没跑过——但这条路直通工厂车间,专门跑高频连续动作。

之前的 π₀ 的做法是:把两条路直接连通,让辅路上的车随便上主干道。结果呢?新路上那些乱开的车(随机初始化的梯度)冲上主干道,把成熟路面也搞得坑坑洼洼——这就是为什么 π₀ 的语言指令遵循能力会退化。

Knowledge Insulation 的做法极其简洁:在两条路的连接处装一个隔音屏障(stop-gradient)。具体来说:

  1. 主干道继续走自己的车:用离散 FAST token 做 next-token prediction,加上 VLM 数据(图片描述、VQA 等)联合训练,让 backbone 持续学到好的机器人控制表征。
  2. 辅路的车也能跑:action expert 通过注意力层读取 backbone 的特征(单向读取),用 flow matching 学连续动作。
  3. 但隔音屏障在这:action expert 的梯度不会回传到 backbone。backbone 完全不受干扰。

推理时,辅路的车(action expert)直接输出连续动作,快速精确;backbone 在训练期间已经通过离散 token 学好了机器人控制的表征,不需要再参与推理。

Figure 1: 整体架构——backbone 用离散 token + VLM 数据训练,action expert 用 flow matching 训练,stop-gradient 隔离两者。推理时只用 action expert 输出连续动作。

看这张图的逻辑链:左边是训练阶段,图像和语言输入 backbone,backbone 同时输出离散 action token(学习表征);action expert 读取 backbone 特征,用 flow matching 去噪连续动作,但梯度被截断,不往回流。右边是推理阶段,只有 action expert 在跑,输出又快又准。

还有一个精妙的细节:attention mask 的设计。离散 action token 和连续 action token 互不可见——FAST token 看不到 flow matching 的输出,反之亦然。这防止了两种动作表征之间的信息泄漏,让每条路都干净。

实现上,公式 (5) 和 (6) 展示了如何在注意力计算中插入 stop-gradient:对 action expert 的 key 和 value 进行 sg(·) 操作,梯度到此为止。代码改动可能只有几行,效果却是根本性的。


实验拆解:数据说话,表格为证

收拢速度:训练效率的碾压性优势

论文最震撼的实验之一就是训练收敛曲线对比。让我把关键数据拎出来:

方法 训练收敛速度 推理速度 语言指令遵循
π₀ (flow matching only) 慢(需大量训练步数) 快(~10Hz) 差(忽略语言指令)
π₀-FAST (纯离散自回归) 慢(~750ms/帧,~1.3Hz)
Knowledge Insulation (本文) 快(与 FAST 相当) 快(~10Hz)

关键观察:训练速度和 π₀-FAST 相当,推理速度和 π₀ 相当。两个世界最好的部分都拿到了。

语言遵循能力:stop-gradient 是关键杠杆

这是论文最有说服力的消融实验之一。在一个”把勺子放进垃圾桶”的任务中:

模型变体 语言指令遵循率
π₀(无 stop-gradient,无 VLM 数据) 低——经常忽略指令
joint-training(无 stop-gradient,有 VLM 数据) 中等——有所改善
Knowledge Insulation(有 stop-gradient,有 VLM 数据) 最高
冻结 backbone 几乎为 0%——VLM 表征不足以支撑机器人控制

一个反直觉的发现:冻结 backbone 不行。你可能觉得”冻结了就不破坏了”,但问题是预训练 VLM 的表征根本不包含机器人控制所需的信息——它从没见过机器人关节角度、末端执行器位置这些东西。所以冻结之后,模型直接废掉,0% 性能。

Stop-gradient 的价值在于:它允许 backbone 接收来自离散 token 的梯度信号(这信号是干净的、不受干扰的),所以 backbone 既能学到机器人控制知识,又不会被 action expert 的随机初始化梯度污染。

跨域泛化:VLM 数据真的能迁移到机器人

在移动操作机器人上测试新物体的泛化能力(训练中没见过的厨房物品):

训练方式 未见物体语言遵循率
纯机器人数据 较低
机器人 + VLM 数据 显著提升

VLM 数据(图片描述、VQA、物体定位)不是装饰品,它真的把语义理解能力迁移到了机器人动作生成里。这从侧面印证了 VLA 的核心承诺:互联网规模的知识能帮助机器人更好地理解世界。

LIBERO 基准:新 SOTA

方法 LIBERO-90 LIBERO-Spatial
之前的 SOTA - -
Knowledge Insulation 新 SOTA 新 SOTA

论文在 LIBERO 上取得了新的 state-of-the-art,而且是从通用模型微调过来的(原始训练数据不包含 LIBERO)。


最终结论

一句话本质贡献: 通过 stop-gradient 隔离 action expert 的梯度,同时用离散 token 给 backbone 提供干净的学习信号,这篇论文首次在 VLA 中同时实现了快速训练、快速推理和良好的语言指令遵循。

最该记住的一个词: Knowledge Insulation ——预训练知识不是靠”冻结”来保护的,而是靠”绝缘”来保护的。

立刻可以尝试的下一步: 如果你正在用 flow matching / diffusion 做 VLA,在现有训练流程里加一个 stop-gradient,把 action expert 的梯度截断,然后加一个离散 token 的辅助 loss。改动量很小,但需要验证在你的数据规模和任务复杂度下是否同样有效。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐