【论文自动阅读】Hierarchical Vision Language Action Model Using Success and Failure Demonstrations
本文设计了一个名为VINE的分层视觉-语言-动作(VLA)模型,不再像以往只利用成功的机器人操作数据训练,而是充分挖掘了训练过程中自然产生的失败数据的价值。模型分为负责高层规划的System 2和负责底层执行的System 1,System 2通过分析成功与失败数据学习判断行动可行性,提前避开容易失败的路径,再由System 1执行筛选后的可靠行动序列,最终让机器人在复杂操作任务中表现更稳健、成功
·
1. 题目、时间、机构、关键词
- 题目:Hierarchical Vision Language Action Model Using Success and Failure Demonstrations
- 时间:2025年12月
- 机构:Korea Univ., KAIST, Seoul Natl. Univ., NAVER AI Lab
- 关键词:Vision-Language-Action, Failure Data, Hierarchical Reinforcement Learning
2. 通俗总结
本文设计了一个名为VINE的分层视觉-语言-动作(VLA)模型,不再像以往只利用成功的机器人操作数据训练,而是充分挖掘了训练过程中自然产生的失败数据的价值。模型分为负责高层规划的System 2和负责底层执行的System 1,System 2通过分析成功与失败数据学习判断行动可行性,提前避开容易失败的路径,再由System 1执行筛选后的可靠行动序列,最终让机器人在复杂操作任务中表现更稳健、成功率更高。
3. 核心创新点(相比前人)
- 首次将失败数据作为结构化学习信号融入VLA模型的规划环节,而非视为噪声丢弃,通过失败感知推理提升鲁棒性;
- 提出分层架构分离高层可行性规划(System 2)与底层动作执行(System 1),高层采用基于场景图的树搜索,结合成功/失败数据预测成功率,底层复用预训练VLA的核心技能无需修改;
- 基于分层强化学习(HRL)形式化框架,实现离线融合失败数据训练,无需在线交互即可提升模型对未知场景的适应能力。
4. 要解决的问题
- 传统VLA模型仅依赖成功演示数据,忽略失败数据中包含的“哪些路径不可行”的关键信息,导致鲁棒性不足,在未知场景中易失败;
- 模仿学习难以有效利用失败数据(惩罚调优复杂),而现有强化学习框架未充分结合VLA的视觉-语言-动作一体化特性;
- 现有模型缺乏显式的失败感知规划机制,无法提前规避高风险行动序列,在长周期、接触密集型操作任务中表现不佳。
5. 解决方法/算法通俗解释及整体流程
通俗解释
- System 2(大脑规划层):把机器人所处的环境抽象成“场景图”(类似物体及它们之间关系的结构图),像“思考树”一样探索可能的行动路径。它通过学习成功和失败数据,给每条路径打分(成功率),提前剪掉成功率低的“脆弱分支”,选出最靠谱的行动序列;
- System 1(手脚执行层):接收System 2的规划结果,负责精准执行具体动作,比如抓取、放置等,无需改变已掌握的核心技能;
- 整体流程:先由System 2基于当前场景和任务指令,通过树搜索生成高可行性行动计划,再由System 1按计划执行,执行中通过终止检测器判断是否完成当前子任务,逐步推进直至任务结束。
整体流程
- 数据准备:收集包含成功和失败标签的机器人遥控操作轨迹数据集,拆分出供System 2学习的高层规划数据和供System 1学习的底层动作数据;
- 模型训练:System 2训练场景图生成、行动候选提议、成功率预测等模块;System 2训练动作执行和子任务终止检测模块;
- 推理阶段:System 2通过批量MCTS树搜索生成最优行动序列,System 2按序列执行动作,直至任务完成或终止。
6. 基于的前人方法
- 视觉-语言-动作(VLA)基础模型:如π₀(连续动作生成)、OpenVLA(通用机器人基础模型)、RT-X(多机器人数据训练模型);
- 分层强化学习(HRL):借鉴“元控制器-执行器”框架,分离高层规划与底层控制;
- 树搜索与语言模型推理:参考Tree-of-Thoughts(思维树)和MCTS(蒙特卡洛树搜索),用于结构化探索行动路径;
- 场景图表示:采用Grounding DINO等目标检测工具和VLM生成场景图,编码物体及关系信息;
- 离线强化学习与价值估计:借鉴IQL的非对称期望损失,避免价值估计过高,适配离线失败数据训练。
7. 实验设置、数据、评估方式
实验设置
- 环境:仿真环境(基于MuJoCo的插头插入、抽屉打包任务)、真实世界环境(6自由度机械臂执行海绵/毛巾收纳任务);
- 任务拆分:“见过”场景(训练中接触过的物体配置)和“未见过”场景(新物体颜色、形状、位置等分布外情况);
- 基线模型:统一VLA模型(OpenVLA-OFT、GR00T N1.5、π₀)、VLM作为规划器(GPT-4o、Gemini-2.5-Flash)、自身变体(无树搜索/无失败数据)。
数据
- 仿真数据:插头插入(450条轨迹,含成功/失败标签)、抽屉打包(240条轨迹,覆盖Pick/Push/Leave三种策略);
- 真实世界数据:100条轨迹,含海绵(3种策略)和毛巾(2种策略)收纳任务;
- 数据特征:标注成功/失败结果,拆分高层规划用的场景图-子目标序列和底层执行用的动作序列。
评估方式
- 核心指标:任务成功率(见过/未见过场景分别统计);
- 辅助指标:推理时间、测试时扩展性(调整搜索宽度K的性能变化);
- 定性分析:可视化行动轨迹、规划树结构,对比模型与基线的决策差异。
8. 客观评价本文的价值
理论价值
- 提出了失败数据在VLA模型中的有效利用框架,证明失败数据是提升鲁棒性的关键资源,拓展了VLA模型的训练数据范式;
- 融合HRL、树搜索与VLM推理,构建了可解释的分层规划机制,为长周期、高不确定性机器人任务提供了新的建模思路;
- 验证了“离线训练+测试时自适应推理”的可行性,为部署阶段平衡性能与计算成本提供了参考。
应用价值
- 在仿真和真实世界任务中均显著优于基线,尤其在未见过的场景中提升明显,为机器人在复杂真实环境中的应用奠定基础;
- 复用现有预训练VLA模型的底层技能,无需从零训练,降低了实际部署的成本;
- 支持测试时调整推理宽度,可根据任务复杂度灵活权衡成功率与 latency,适配不同应用场景需求。
局限性
- 高层规划缺乏实时反馈,动态场景中可能因姿态误差累积导致执行漂移;
- 底层执行器仅用成功数据训练,抗干扰和自我校正能力有限;
- 场景图依赖2D信息,忽略3D几何和接触动力学,在遮挡或摩擦敏感任务中可能误判可行性。
9. 相关性最高的3个文献
- Black K, et al. π₀: A vision-language-action flow model for general robot control. arXiv preprint arXiv:2410.24164, 2024.(VLA基础模型,提供动作生成 backbone)
- Bjorck J, et al. Gr00t n1: An open foundation model for generalist humanoid robots. arXiv preprint arXiv:2503.14734, 2025.(通用机器人基础模型,基线之一)
- Kim MJ, et al. OpenVLA: An open-source vision-language-action model. In CoRL, 2024.(开源VLA模型,核心基线,代表现有通用VLA水平)
更多推荐



所有评论(0)