BridgeVLA 算法:3D 操作学习的 VLM 对齐新范式

一、算法概述

BridgeVLA是由中科院自动化所与字节跳动 Seed 团队共同开发的 3D 视觉 - 语言 - 动作 (VLA) 模型,旨在解决传统 VLM 与 3D 机器人操作间的输入输出不对齐问题,实现高效、泛化的 3D 操作学习。该模型在 CVPR 2025 GRAIL workshop 的 COLOSSEUM 挑战赛中获得冠军,真实机器人实验性能提升 32%,仅需 3-5 条轨迹即可达到 96.8% 的任务成功率,开创了 "少样本 3D 操作" 新范式。

二、核心问题与解决方案

1. 核心痛点

传统 VLA 模型面临两大困境:
  • 输入不匹配:VLM 接受 2D 图像输入,而 3D 操作需要处理 3D 点云
  • 输出不匹配:VLM 输出文本 tokens,而 3D 操作需要预测 6-DoF 位姿、夹持器状态等结构化动作

2. 解决方案

BridgeVLA 的核心思想是 "输入 - 输出对齐",通过两个创新点实现:
  • 输入对齐:将 3D 点云渲染为多视角 2D 图像,匹配 VLM 输入
  • 输出对齐:将动作预测转换为 2D 热图,统一输入输出空间

三、算法架构与工作流程

1. 整体架构

组件 功能
3D 输入处理 将点云渲染为三视角 (顶、前、右) 2D 图像
VLM 主干 PaliGemma (SigLIP+Gemma Transformer),处理图像和文本指令
2D 热图预测 输出三视角热图,指示末端执行器目标位置
3D 动作解码 反投影热图到 3D 空间,预测位姿、夹持器状态等
执行控制 通过运动规划器执行预测动作,迭代优化

2. 工作流程

Step 1: 3D→2D 投影
  • RGB-D 相机获取场景点云
  • 渲染为三个正交视图 (顶、前、右),与文本指令一起输入 VLM
Step 2: 2D 热图预测
  • VLM 处理输入,输出图像 tokens
  • 重组为空间特征网格,通过凸上采样生成三视角热图
  • 热图高亮显示各视角中末端执行器目标位置
Step 3: 2D→3D 反投影
  • 每个热图独立反投影到 3D 工作空间网格
  • 计算每个 3D 点在各视角的得分,选取得分最高的点作为平移目标
  • 旋转、夹持器状态等通过 MLP 预测,基于全局和局部特征融合
Step 4: 动作执行与优化
  • 使用运动规划器执行预测的关键帧动作
  • 采用 "粗到精" 策略:先全局预测,再在感兴趣区域细化,提高精度
  • 迭代执行直到任务完成或达到最大步数

四、训练流程:两阶段学习

1. 第一阶段:2D 热图预训练

目标:赋予 VLM 空间感知能力,学会预测物体位置热图
  • 输入:图像 + 文本 (描述目标物体)
  • 输出:与输入图像同分辨率的热图,物体中心处概率最高
  • 训练数据:目标检测数据集 (如 COCO)
  • 损失函数:预测热图与 GT 热图的交叉熵
关键创新:不同于传统 VLM 的 "next token prediction",改为空间热图预测,使模型具备几何理解能力

2. 第二阶段:3D 动作微调

目标:将预训练的空间感知能力迁移到 3D 操作任务
  • 输入:3D 点云 (多视角投影)+ 操作指令
  • 输出:末端执行器 6-DoF 位姿、夹持器状态、碰撞标志
  • 训练数据:机器人操作轨迹 (每个任务仅需 3-5 条)
  • 损失函数:多组件联合损失 (热图损失 + 旋转损失 + 夹持器状态损失 + 碰撞损失)

五、核心创新点

  1. "输入 - 输出双对齐" 机制
    • 统一 3D 操作的输入输出于 2D 图像空间,无缝衔接预训练 VLM
    • 解决了传统 3D VLA 模型输入输出模态不匹配的根本问题
  2. "2D 热图→3D 动作" 转换范式
    • 用热图替代传统的 "token 序列" 作为动作表示
    • 使模型输出具有明确空间语义,更适合机器人操作任务
  3. 超高效样本学习
    • 仅需 3-5 条轨迹即可达到 96.8% 任务成功率,远超传统模型 (需百条以上)
    • 在 RLBench、COLOSSEUM、GemBench 等基准测试中大幅超越 SOTA (平均提升 6-7%)
  4. 强大泛化与鲁棒性
    • 在视觉干扰 (光照、背景、干扰物) 和未见任务中表现卓越,比 RVT-2 提升 32%
    • 预训练的物体定位能力在微调后保持,实现知识迁移

六、应用场景

  • 机器人操作:装配、抓取放置、精密操作等
  • 工业自动化:生产线任务执行与调整
  • 家庭服务机器人:智能家电操作、物品整理
  • 医疗微创手术:精准器械控制
  • 人机协作:在人类指导下完成复杂任务

七、性能表现

1. 仿真实验

基准测试 BridgeVLA 对比 SOTA (RVT-2) 提升
RLBench 88.2% 81.4% +6.8%
COLOSSEUM 64.0% 56.7% +7.3%
GemBench 50.0% 48.0% +2.0%
特别优势:在需要高精度对齐的任务 (如 "Insert Peg"、"Sort Shape") 中表现尤为突出

2. 真实机器人实验

  • 在 13 种不同操作任务中,7 种设置里 6 种优于 RVT-2
  • 在视觉干扰 (干扰物、光照、背景变化) 和未见任务 (新物体 - 技能组合) 中,平均提升 32%
  • 在仅提供 3 条轨迹的情况下,10 + 任务成功率达 96.8%,展现 "小样本学习" 强大能力

八、总结

BridgeVLA 通过 "输入 - 输出对齐" 这一简洁而强大的思路,成功架起了 VLM 与 3D 操作之间的桥梁,开创了 "少样本 3D VLA" 的新范式。其创新的 2D 热图机制不仅解决了模态不匹配问题,还赋予模型更强的空间理解能力,使机器人能以惊人的样本效率学习复杂操作。
注:该算法已开源,代码和模型可在 GitHub (https://github.com/bridgevla/bridgevla) 和项目主页 (https://bridgevla.github.io/) 获取。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐