Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

Stop-gradient 的价值在于：它允许 backbone 接收来自离散 token 的梯度信号（这信号是干净的、不受干扰的），所以 backbone 既能学到机器人控制知识，又不会被 action expert 的随机初始化梯度污染。这不是偶发 bug，而是一个结构性的陷阱：当你把一个预训练好的视觉语言模型（VLM）硬塞进一个连续动作输出模块（flow matching / diffusi

Coolver candy

67人浏览 · 2026-05-25 16:31:34

Coolver candy · 2026-05-25 16:31:34 发布

论文链接：https://arxiv.org/abs/2505.23705

Physical Intelligence 凌晨三点的尴尬时刻

想象一下：Physical Intelligence 的工程师们刚把 π₀ 跑通——一个基于大语言模型的机器人控制策略。Demo 里机器人折毛巾、收衣服，流畅得让人起鸡皮疙瘩。但当他们试着给机器人下一个语言指令：”把勺子放进垃圾桶”，机器人一把抓住了旁边的垃圾袋，直接忽略了语言。

这不是偶发 bug，而是一个结构性的陷阱：当你把一个预训练好的视觉语言模型（VLM）硬塞进一个连续动作输出模块（flow matching / diffusion head）去训练时，那些从零初始化的新参数产生的梯度，会反过来侵蚀预训练模型中已经学会的语义理解能力。模型越训练越”失忆”——忘了语言指令，退化成一个只看图像的盲目抓取器。

与此同时，另一条路——纯自回归离散 token 的 VLA（如 π₀-FAST）虽然语言跟得好，但推理速度慢到令人绝望：预测一个 1 秒的动作序列要 750ms，在 RTX 4090 上。机器人等着动作指令，像等人发短信一样，连基础的高频控制都做不到。

根本矛盾：快速连续控制 vs. 保留预训练语义知识，之前的方案只能二选一。 这篇论文说：我全都要。

“绝缘层”：让两条高速公路互不干扰

如果让我用一个类比来翻译 Knowledge Insulation 的核心机制，那就是高速公路的隔音屏障。

想象一座城市有两条并行的高速公路。一条是主干道（VLM backbone），车流密集、路面成熟，承载着从互联网学来的海量语义知识。另一条是新修的辅路（action expert），刚铺好沥青，什么车都还没跑过——但这条路直通工厂车间，专门跑高频连续动作。

之前的 π₀ 的做法是：把两条路直接连通，让辅路上的车随便上主干道。结果呢？新路上那些乱开的车（随机初始化的梯度）冲上主干道，把成熟路面也搞得坑坑洼洼——这就是为什么 π₀ 的语言指令遵循能力会退化。

Knowledge Insulation 的做法极其简洁：在两条路的连接处装一个隔音屏障（stop-gradient）。具体来说：

主干道继续走自己的车：用离散 FAST token 做 next-token prediction，加上 VLM 数据（图片描述、VQA 等）联合训练，让 backbone 持续学到好的机器人控制表征。
辅路的车也能跑：action expert 通过注意力层读取 backbone 的特征（单向读取），用 flow matching 学连续动作。
但隔音屏障在这：action expert 的梯度不会回传到 backbone。backbone 完全不受干扰。

推理时，辅路的车（action expert）直接输出连续动作，快速精确；backbone 在训练期间已经通过离散 token 学好了机器人控制的表征，不需要再参与推理。

Figure 1: 整体架构——backbone 用离散 token + VLM 数据训练，action expert 用 flow matching 训练，stop-gradient 隔离两者。推理时只用 action expert 输出连续动作。

看这张图的逻辑链：左边是训练阶段，图像和语言输入 backbone，backbone 同时输出离散 action token（学习表征）；action expert 读取 backbone 特征，用 flow matching 去噪连续动作，但梯度被截断，不往回流。右边是推理阶段，只有 action expert 在跑，输出又快又准。

还有一个精妙的细节：attention mask 的设计。离散 action token 和连续 action token 互不可见——FAST token 看不到 flow matching 的输出，反之亦然。这防止了两种动作表征之间的信息泄漏，让每条路都干净。

实现上，公式 (5) 和 (6) 展示了如何在注意力计算中插入 stop-gradient：对 action expert 的 key 和 value 进行 sg(·) 操作，梯度到此为止。代码改动可能只有几行，效果却是根本性的。

实验拆解：数据说话，表格为证

收拢速度：训练效率的碾压性优势

论文最震撼的实验之一就是训练收敛曲线对比。让我把关键数据拎出来：

方法	训练收敛速度	推理速度	语言指令遵循
π₀ (flow matching only)	慢（需大量训练步数）	快（~10Hz）	差（忽略语言指令）
π₀-FAST (纯离散自回归)	快	慢（~750ms/帧，~1.3Hz）	好
Knowledge Insulation (本文)	快（与 FAST 相当）	快（~10Hz）	好

关键观察：训练速度和 π₀-FAST 相当，推理速度和 π₀ 相当。两个世界最好的部分都拿到了。

语言遵循能力：stop-gradient 是关键杠杆

这是论文最有说服力的消融实验之一。在一个”把勺子放进垃圾桶”的任务中：

模型变体	语言指令遵循率
π₀（无 stop-gradient，无 VLM 数据）	低——经常忽略指令
joint-training（无 stop-gradient，有 VLM 数据）	中等——有所改善
Knowledge Insulation（有 stop-gradient，有 VLM 数据）	最高
冻结 backbone	几乎为 0%——VLM 表征不足以支撑机器人控制

一个反直觉的发现：冻结 backbone 不行。你可能觉得”冻结了就不破坏了”，但问题是预训练 VLM 的表征根本不包含机器人控制所需的信息——它从没见过机器人关节角度、末端执行器位置这些东西。所以冻结之后，模型直接废掉，0% 性能。

Stop-gradient 的价值在于：它允许 backbone 接收来自离散 token 的梯度信号（这信号是干净的、不受干扰的），所以 backbone 既能学到机器人控制知识，又不会被 action expert 的随机初始化梯度污染。

跨域泛化：VLM 数据真的能迁移到机器人

在移动操作机器人上测试新物体的泛化能力（训练中没见过的厨房物品）：

训练方式	未见物体语言遵循率
纯机器人数据	较低
机器人 + VLM 数据	显著提升

VLM 数据（图片描述、VQA、物体定位）不是装饰品，它真的把语义理解能力迁移到了机器人动作生成里。这从侧面印证了 VLA 的核心承诺：互联网规模的知识能帮助机器人更好地理解世界。

LIBERO 基准：新 SOTA

方法	LIBERO-90	LIBERO-Spatial
之前的 SOTA	-	-
Knowledge Insulation	新 SOTA	新 SOTA

论文在 LIBERO 上取得了新的 state-of-the-art，而且是从通用模型微调过来的（原始训练数据不包含 LIBERO）。

最终结论

一句话本质贡献： 通过 stop-gradient 隔离 action expert 的梯度，同时用离散 token 给 backbone 提供干净的学习信号，这篇论文首次在 VLA 中同时实现了快速训练、快速推理和良好的语言指令遵循。

最该记住的一个词： Knowledge Insulation ——预训练知识不是靠”冻结”来保护的，而是靠”绝缘”来保护的。

立刻可以尝试的下一步： 如果你正在用 flow matching / diffusion 做 VLA，在现有训练流程里加一个 stop-gradient，把 action expert 的梯度截断，然后加一个离散 token 的辅助 loss。改动量很小，但需要验证在你的数据规模和任务复杂度下是否同样有效。