【论文自动阅读】Hierarchical Vision Language Action Model Using Success and Failure Demonstrations

本文设计了一个名为VINE的分层视觉-语言-动作（VLA）模型，不再像以往只利用成功的机器人操作数据训练，而是充分挖掘了训练过程中自然产生的失败数据的价值。模型分为负责高层规划的System 2和负责底层执行的System 1，System 2通过分析成功与失败数据学习判断行动可行性，提前避开容易失败的路径，再由System 1执行筛选后的可靠行动序列，最终让机器人在复杂操作任务中表现更稳健、成功

萌新一个啥都不会

953人浏览 · 2025-12-08 21:30:17

萌新一个啥都不会 · 2025-12-08 21:30:17 发布

1. 题目、时间、机构、关键词

题目：Hierarchical Vision Language Action Model Using Success and Failure Demonstrations
时间：2025年12月
机构：Korea Univ., KAIST, Seoul Natl. Univ., NAVER AI Lab
关键词：Vision-Language-Action, Failure Data, Hierarchical Reinforcement Learning

2. 通俗总结

3. 核心创新点（相比前人）

首次将失败数据作为结构化学习信号融入VLA模型的规划环节，而非视为噪声丢弃，通过失败感知推理提升鲁棒性；
提出分层架构分离高层可行性规划（System 2）与底层动作执行（System 1），高层采用基于场景图的树搜索，结合成功/失败数据预测成功率，底层复用预训练VLA的核心技能无需修改；
基于分层强化学习（HRL）形式化框架，实现离线融合失败数据训练，无需在线交互即可提升模型对未知场景的适应能力。

4. 要解决的问题

传统VLA模型仅依赖成功演示数据，忽略失败数据中包含的“哪些路径不可行”的关键信息，导致鲁棒性不足，在未知场景中易失败；
模仿学习难以有效利用失败数据（惩罚调优复杂），而现有强化学习框架未充分结合VLA的视觉-语言-动作一体化特性；
现有模型缺乏显式的失败感知规划机制，无法提前规避高风险行动序列，在长周期、接触密集型操作任务中表现不佳。

5. 解决方法/算法通俗解释及整体流程

通俗解释

System 2（大脑规划层）：把机器人所处的环境抽象成“场景图”（类似物体及它们之间关系的结构图），像“思考树”一样探索可能的行动路径。它通过学习成功和失败数据，给每条路径打分（成功率），提前剪掉成功率低的“脆弱分支”，选出最靠谱的行动序列；
System 1（手脚执行层）：接收System 2的规划结果，负责精准执行具体动作，比如抓取、放置等，无需改变已掌握的核心技能；
整体流程：先由System 2基于当前场景和任务指令，通过树搜索生成高可行性行动计划，再由System 1按计划执行，执行中通过终止检测器判断是否完成当前子任务，逐步推进直至任务结束。

整体流程

数据准备：收集包含成功和失败标签的机器人遥控操作轨迹数据集，拆分出供System 2学习的高层规划数据和供System 1学习的底层动作数据；
模型训练：System 2训练场景图生成、行动候选提议、成功率预测等模块；System 2训练动作执行和子任务终止检测模块；
推理阶段：System 2通过批量MCTS树搜索生成最优行动序列，System 2按序列执行动作，直至任务完成或终止。

6. 基于的前人方法

视觉-语言-动作（VLA）基础模型：如π₀（连续动作生成）、OpenVLA（通用机器人基础模型）、RT-X（多机器人数据训练模型）；
分层强化学习（HRL）：借鉴“元控制器-执行器”框架，分离高层规划与底层控制；
树搜索与语言模型推理：参考Tree-of-Thoughts（思维树）和MCTS（蒙特卡洛树搜索），用于结构化探索行动路径；
场景图表示：采用Grounding DINO等目标检测工具和VLM生成场景图，编码物体及关系信息；
离线强化学习与价值估计：借鉴IQL的非对称期望损失，避免价值估计过高，适配离线失败数据训练。

7. 实验设置、数据、评估方式

实验设置

环境：仿真环境（基于MuJoCo的插头插入、抽屉打包任务）、真实世界环境（6自由度机械臂执行海绵/毛巾收纳任务）；
任务拆分：“见过”场景（训练中接触过的物体配置）和“未见过”场景（新物体颜色、形状、位置等分布外情况）；
基线模型：统一VLA模型（OpenVLA-OFT、GR00T N1.5、π₀）、VLM作为规划器（GPT-4o、Gemini-2.5-Flash）、自身变体（无树搜索/无失败数据）。

数据

仿真数据：插头插入（450条轨迹，含成功/失败标签）、抽屉打包（240条轨迹，覆盖Pick/Push/Leave三种策略）；
真实世界数据：100条轨迹，含海绵（3种策略）和毛巾（2种策略）收纳任务；
数据特征：标注成功/失败结果，拆分高层规划用的场景图-子目标序列和底层执行用的动作序列。

评估方式

核心指标：任务成功率（见过/未见过场景分别统计）；
辅助指标：推理时间、测试时扩展性（调整搜索宽度K的性能变化）；
定性分析：可视化行动轨迹、规划树结构，对比模型与基线的决策差异。

8. 客观评价本文的价值

理论价值

提出了失败数据在VLA模型中的有效利用框架，证明失败数据是提升鲁棒性的关键资源，拓展了VLA模型的训练数据范式；
融合HRL、树搜索与VLM推理，构建了可解释的分层规划机制，为长周期、高不确定性机器人任务提供了新的建模思路；
验证了“离线训练+测试时自适应推理”的可行性，为部署阶段平衡性能与计算成本提供了参考。

应用价值

在仿真和真实世界任务中均显著优于基线，尤其在未见过的场景中提升明显，为机器人在复杂真实环境中的应用奠定基础；
复用现有预训练VLA模型的底层技能，无需从零训练，降低了实际部署的成本；
支持测试时调整推理宽度，可根据任务复杂度灵活权衡成功率与 latency，适配不同应用场景需求。

局限性

高层规划缺乏实时反馈，动态场景中可能因姿态误差累积导致执行漂移；
底层执行器仅用成功数据训练，抗干扰和自我校正能力有限；
场景图依赖2D信息，忽略3D几何和接触动力学，在遮挡或摩擦敏感任务中可能误判可行性。

9. 相关性最高的3个文献

Black K, et al. π₀: A vision-language-action flow model for general robot control. arXiv preprint arXiv:2410.24164, 2024.（VLA基础模型，提供动作生成 backbone）
Bjorck J, et al. Gr00t n1: An open foundation model for generalist humanoid robots. arXiv preprint arXiv:2503.14734, 2025.（通用机器人基础模型，基线之一）
Kim MJ, et al. OpenVLA: An open-source vision-language-action model. In CoRL, 2024.（开源VLA模型，核心基线，代表现有通用VLA水平）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

权威发布：2026 年 3 月 GEO 服务商综合实力 TOP5 全景解析

面对日趋复杂的AI平台生态与多元化的行业需求，如何甄选具备技术硬实力与行业深度的优质服务商，成为众多企业决策者关注的焦点。小叮文化是GEO领域深耕金融行业的标杆企业，核心技术优势集中在自主研发的金融关键词语义网络分析系统，该系统能深度解析金融行业专业术语、用户搜索意图及AI平台推荐逻辑，构建覆盖信贷、保险、理财等细分领域的语义关联网络，精准识别高价值关键词与潜在用户需求，解决传统优化中“金融术语适