25年10月来自极佳公司的论文“GigaBrain-0: A World Model-Powered Vision-Language- Action Model”。

训练通用机器人的视觉-语言-动作(VLA)模型通常需要大规模的真实世界机器人数据,而收集这些数据既昂贵又耗时。物理数据收集的低效严重限制了当前VLA系统的可扩展性和泛化能力。为了应对这一挑战,本文提出了GigaBrain-0,一种新型的VLA基础模型,它利用世界模型生成的数据(例如视频生成、real-2-real迁移、人类迁移、视图迁移、sim-2-real迁移数据)进行增强。通过利用世界模型大规模生成多样化数据,GigaBrain-0显著降低了对真实机器人数据的依赖,同时提高了跨任务泛化能力。该方法通过RGB-D输入建模和具身的思维链(CoT)监督进一步提高策略鲁棒性,使模型能够在任务执行过程中推理空间几何、物体状态和长时域依赖关系。这显著提升了模型在灵巧操作、长时域操作和移动操作任务上的实际性能。大量实验表明,GigaBrain-0 在外观(例如纹理、颜色)、物体位置和相机视角等方面的变化中均展现出卓越的泛化能力。此外,还推出 GigaBrain-0-Small,这是一个经过优化的轻量级版本,旨在高效运行于 NVIDIA Jetson AGX Orin 等设备上。


GigaBrain-0 是一个端到端的视觉语言模型 (VLA) 𝑔_𝜃,它基于视觉观察和高级语言指令,对具身场景进行推理,从而生成符合指令的动作序列,用于控制轮式双臂机器人(例如 Agilex、G1)。为了提高提示跟随的保真度并实现更流畅的动作生成,如图所示,GigaBrain-0 采用混合 Transformer 架构。它利用预训练的视觉-语言模型 (VLM) PaliGemma2 (Steiner,2024) 对多模态输入进行编码,并采用动作扩散transformer (DiT) (Peebles & Xie,2023) 以及流匹配 (Lipman,2022) 来预测动作块。这种混合架构实现语义理解和连续动作生成的解耦但协同处理。在训练过程中,引入知识隔离(Driess,2025)来减轻连续动作空间学习与VLM语义推理能力之间的干扰。此外,还利用离散动作 token 预测(Pertsch,2025)增强VLM头部,显著加快预训练的收敛速度。
请添加图片描述

为了增强空间推理能力,在预训练过程中融入RGB-D数据。给定一个形状为B×H×W×4(RGB+深度)的输入张量,首先对输入进行归一化,然后使用SigLIP(Zhai,2023)提取视觉特征。为了使SigLIP适应RGB-D输入,扩展其第一个卷积层,为深度通道添加零初始化的卷积核。这既保留预训练的RGB特征提取,又实现深度-觉察表征的学习。值得注意的是,SigLIP 在 GigaBrain-0 的整个训练过程中始终保持完全可训练状态,从而能够自适应地微调以适应具身 RGB-D 感知。在训练过程中,会随机丢弃深度通道(并用零填充代替),以确保推理时与仅 RGB 输入的兼容性。

受 LLM 中思维链 (CoT) 推理的启发(Wei,2022),引入具身 CoT 来提升 GigaBrain-0 在具身环境中的推理能力。与标准 LLM 不同,GigaBrain-0 会显式地生成中间推理 tokens,包括:(1)操作轨迹:末端执行器路径在图像平面上的二维投影,由 10 个均匀采样的关键点表示;(2)子目标语言:对中间目标的自然语言描述; (3) 离散动作 token:离散表示可以加速后续基于 DiT 的连续动作块预测的训练收敛(Pertsch,2025)。

为了平衡模型的表达能力和推理效率,放弃轨迹预测的自回归解码。取而代之的是,引入 10 个可学习的轨迹 tokens作为视觉-语言模型 (VLM) 的辅助输入。在特征提取过程中,这些 tokens 通过双向(非因果)注意机制与完整的视觉上下文进行交互,从而实现对场景的整体空间推理。然后,将生成的输出轨迹 tokens 传递给一个轻量级的 GRU 解码器,以回归末端执行器操作轨迹的二维像素空间坐标。

相比之下,子目标语言和离散动作 tokens 是通过自回归生成的,并通过标准的下一个 token 预测进行监督。所有组件,包括轨迹回归、基于语言的子目标、离散动作 tokens 和由扩散transformer (DiT) 𝑓_𝜃 预测的连续动作块,都在统一的目标下进行联合优化:
请添加图片描述

其并不手动为语言和动作预测项分配损失权重,因为知识隔离(Driess,2025)本质上防止它们优化过程之间的干扰,从而允许每个流独立学习。


对于视觉-语言-动作(VLA)模型而言,训练数据的多样性至关重要(Shi et al., 2025)。尽管存在大量公开数据集(Bu et al., 2025; O’Neill et al., 2024; Wu et al., 2024),但它们在场景变化或任务复杂度方面往往不足以实现稳健的泛化能力。现实世界中的机器人数据采集面临着运营成本高、扩展效率低以及环境多样性有限的问题,因为大多数部署都反复从同一组狭窄的场景中进行采样。

近期的研究进展(Bjorck et al., 2025; Jang et al., 2025)表明,世界模型可以有效地生成多样化且逼真的训练数据,从而增强视觉-语言-动作(VLA)模型的能力。在GigaBrain-0中,整合广泛的世界模型生成的数据源,进一步扩展这一范式。如表所示。 与现有的VLA模型(Bjorck et al., 2025; Black et al., 2024; Cheang et al., 2025; Intelligence et al., 2025; Jiang et al., 2025; Zhai et al., 2025)相比,GigaBrain-0利用更多样化的数据源。这种扩展的数据多样性显著降低了对现实世界机器人采集数据的依赖,同时增强了模型的泛化能力。
请添加图片描述

真实世界数据

数据来源。真实世界数据集整合公开数据集和自主研发的机器人平台所收集的专有数据。公开数据集包括 AgiBotWorld(Bu,2025)、RoboMind(Wu,2024)和 Open X-Embodiment(O’Neill,2024),这些数据集共同提供操作和运动任务的基础数据。此外,用 Agilex Cobot Magic 平台(199 小时)和 AgiBot G1 平台(983 小时)在总面积达 3100 平方米的区域内收集 1182 小时的专有数据,涵盖五大环境类别:工业、商业、办公、住宅和实验室环境。这些场景进一步细分为14个不同的真实世界场景,包括超市、酒店大堂、咖啡店、奶茶店、便利店、餐厅、仓库物料搬运、工业装配线、食品储藏室、私人住宅、公寓室内、会议室、办公工作站和实验室。收集的任务范围从基本的取放操作到长时程序列活动、在动态变化的布局中进行移动操作以及与可变形体的交互,如图所示。
请添加图片描述

数据标注与处理。对于数据标注,如果捕获的RGB帧缺少深度信息,采用MoGe(Wang,2025)生成度量缩放的深度图。关于子目标语言标注,VLM难以将长距离任务准确分割成有意义的子目标,而手动分割又极其耗时。为了解决这个问题,采用了一种受(James,2020)启发的方法,利用机械臂的状态转换(例如,打开/关闭、抓取/释放)自动将轨迹分割成原子子任务。对于每个分割后的子任务,用Qwen-VL-2.5(Bai,2025)生成子目标语言标注。为了减少幻觉并确保标注的一致性,用结构化模板和预定义的标准化动作短语词汇表(例如,拿起[物体]、将[物体]放入[容器]、打开[设备])来约束标注过程,这些词汇表选自精心整理的描述库。对于二维操作轨迹标注,将三维末端执行器的坐标投影到头戴式摄像头的图像平面上,从而得到与视觉观察结果对齐的像素空间运动轨迹。值得注意的是,仅标注收集数据的一个子集,并使用全标注、部分标注和原始未标注轨迹的混合数据来训练模型,以在控制标注成本的同时最大限度地提高数据利用率。为了进一步提高预训练效率并减少冗余,对整个语料库进行去重。对于每个独特的任务,最多保留50条不同的演示轨迹,在保持行为多样性的同时消除近乎相同的重复。这种策略提高样本效率,并促进了更稳健、更具泛化能力的模型学习。

世界模型生成的数据

为了克服物理数据采集的局限性,用世界模型框架 GigaWorld 生成多样化且符合物理规律的训练序列。GigaWorld 通过多个互补的流程合成数据:

real-2-real迁移。真实世界中机器人采集的视频本身就受到拍摄环境的限制,例如静态背景、固定光照条件以及物体材质、纹理和颜色变化有限。为了克服这些限制并显著增强视觉和上下文的多样性,利用 GigaWorld 执行real-2-real迁移:在合成改变但符合物理规律的视觉环境中重渲染真实轨迹。具体来说,训练一个基于扩散的视频生成模型(Dong,2025;Liu,2025),该模型以从真实视频中提取的几何和结构先验信息为条件。采用 VideoDepthAnything(Chen,2025)来估计逐帧深度图,并提取 Canny 边缘图以保留物体边界和场景结构。这些信号通过 ControlNet(Zhang,2023)分支作为空间控制条件,从而能够在保持运动和布局一致性的同时,精确地操控外观。在推理过程中,对于每个真实世界的视频片段,通过文本提示来改变前景/背景材质、表面纹理、光照条件和调色板,从而生成大约 10 个视觉上不同的变体,同时保持原始的动作语义和空间动态,如图所示。这种方法有效地增加了真实数据的有效多样性,而无需额外的物理采集。
请添加图片描述

视角迁移。除了纹理和光照变化之外,跨观察视角的泛化对于稳健的具身感知同样至关重要(Xing et al., 2025)。为此,用GigaWorld的视角泛化能力,在保持3D场景一致性的前提下,用新的相机视角增强真实机器人采集的数据。具体而言,为了确保视角变化下的几何一致性,用采集的深度图将原始RGB帧投影到新的视角。如果源数据中缺少深度信息,用MoGe(Wang et al., 2025)标注度量尺度的深度。重新投影的视角不可避免地包含遮挡或不完整的区域,用基于DiT的视频补全模型(Xu et al., 2025)对这些区域进行修复,该模型以重投影的视角为条件。值得注意的是,当相机视角发生变化时,即使机器人的末端执行器关节构型发生变化,其功能也必须与任务保持一致。基于更新后的自运动姿态和末端执行器姿态,通过逆运动学(IK)计算新的关节角度。然后,使用物理感知仿真引擎,利用其URDF模型渲染生成的关节机器人几何体,并将其作为结构条件(Xu,2025)提供给生成模型。为了减少仿真和真实机器人动力学之间潜在的差异,可以选择性地采用可微分物理引擎(Wang,2025)来微调运动的合理性,并缩小仿真与真实物理之间的差距。如图所示,流程从单个真实世界轨迹出发,生成多个视角一致的场景渲染图,并动态调整机器人姿态,从而保持任务语义和物理可行性。
请添加图片描述

Sim2Real迁移。虽然上述方法增强真实世界数据,但利用仿真资源合成各种具身交互序列,进一步扩展了训练语料库。具体而言,用 Isaac Sim(NVIDIA)构建操作场景,所用资源包括来自 EmbodiedGen(Wang,2025)的程序生成资源以及来自 ArtVIP 等开源资源库(Jin,2025)的精选目标。机器人形态通过 URDF 文件定义,末端执行器轨迹使用逆运动学(IK)计算,以确保运动符合物理规律。为了弥合仿真与真实环境之间的差距,尤其是在视觉效果方面,应用 GigaWorld 的 Sim2Real 迁移流程​​。该方法架构与 Real2Real 迁移类似,它将基于扩散的视频生成器(Dong,2025;Liu,2025)应用于从仿真环境导出的深度图。利用文本提示,动态地改变表面纹理、材料反射率、光照条件和环境杂物,从而生成逼真的渲染图,并保留原始场景几何形状和动作语义,如图所示。至关重要的是,与真实世界数据不同,模拟能够完全控制场景参数:可以系统地改变物体的初始位置、相机视角、背景布局,甚至物理属性(例如摩擦力、质量),以最大限度地提高组合多样性。
请添加图片描述

人类视频迁移。人类演示视频已成为训练具身智体的一种极具潜力的资源(Bu et al., 2025; Cheang et al., 2025; Kareer et al., 2025; Wang et al., 2023; Yang et al., 2025),其任务、环境和交互方式的多样性远远超过仅通过机器人数据采集所能达到的规模和种类。然而,原始的人体视频在直接应用于机器人学习时存在显著缺陷,因为以自我为中心的视频素材通常存在运动模糊、视角不稳定以及人手与机器人末端执行器在视觉和运动学上不匹配等问题。为了弥补这一缺陷,利用 GigaWorld 的视频修复功能,将大规模的第一人称人体视频转换为稳定的、以机器人为中心的演示视频。具体而言,将 EgoDex 数据集(Hoque et al., 2025)中的视频转换为稳定的、机器人可执行的序列,其中用机械臂代替人手。具体而言,用 SAM2(Ravi,2024)对每一帧中的人手进行分割和掩码。标注的 3D 手腕位置(由 EgoDex 提供)被视为模拟机器人手臂的目标末端执行器姿态。通过逆运动学 (IK) 求解相应的关节角度,然后使用物理感知仿真引擎渲染机器人的 URDF 模型。渲染后的手臂几何体作为基于扩散的生成器(Li,2025)的结构条件,确保机器人外观在运动学上合理且视觉上一致。如图所示,输出结果是原始人类演示的稳定机器人版,在保留任务意图和空间关系的同时,消除了视觉和运动学域的差异。
请添加图片描述

基于逆动力学建模的视频生成。如图所示,给定一张输入图像,GigaWorld 可以根据不同的文本提示生成多种具身机器人操作视频。此外,利用逆动力学模型 (IDM) (Jang,2025) 从这些生成的视频中推断出相应的机器人动作序列,并将其用作具身操作任务的合成训练数据。
请添加图片描述

多视角视频生成。在具身操作场景中,通常会部署多个摄像头(例如,头戴式和腕戴式摄像头)从不同视角捕捉操作环境,这就需要生成时空一致的多视角视频。为了解决这个问题,GigaWorld 采用 (Dong,2025;Liu,2025;Zhao,2025) 的多视角建模方法,该方法将来自多个视角的噪声图连接起来,作为扩散模型的输入。该设计保留了原始扩散架构,无需修改,仅需少量微调数据即可生成一致的多视角视频。如图所示,GigaWorld 能够生成多样化且几何一致的多视角视频,展现出极强的跨视角一致性和场景保真度。
请添加图片描述

生成效率。视频扩散模型(Alhaija,2025;Kong,2024;Wang,2025)的生成效率普遍较低,通常需要数十分钟才能合成数百帧分辨率的视频。为了加速推理,GigaWorld 采用 NATTEN(Hassani,2023)作为标准自注意机制的高效替代方案。此外,GigaWorld 还利用步骤蒸馏(Yin,2024)将去噪过程从数十步简化为单步生成。结合 FP8 精度推理,这些优化措施与基线扩散模型相比,视频生成速度提升超过 50 倍。

生成数据质量检查。生成的视频不可避免地包含幻觉或伪影,这可能会降低下游训练的性能。为了缓解这个问题,GigaWorld 引入一个全面的质量评估流程,从多个维度评估生成的视频:几何一致性(Liu,2025)、多视角一致性(Liu,2025)、文本描述对齐(Azzolini,2025)和物理合理性(Azzolini,2025)。每个视频都会被赋予一个综合质量评分,该评分决定视频是否适合预训练、微调或应该被丢弃。


灵巧操作实验

实验设置。评估 GigaBrain-0 在两项灵巧操作任务上的性能:衣物折叠和纸巾准备。对于衣物折叠任务,将模型部署在 G1 机器人平台上,并使用 300 条人工采集的演示轨迹进行微调,训练采用 128 的批次大小,共 4 万步。对于纸巾准备任务,用来自 PiPER 机械臂的 100 条演示轨迹,训练采用 128 的批次大小,共 2 万步。为了公平比较,将 GigaBrain-0 与 𝜋0(Black,2024)进行比较,后者使用官方开源代码实现,并使用相同的训练配置进行微调。

长时操作实验

实验设置。评估 GigaBrain-0 在两项长时操作任务上的性能:餐桌清理和果汁制备。对于餐桌清理任务,将模型部署在双臂 PiPER 机器人平台上,并使用 100 条人工采集的演示轨迹进行微调,训练采用 128 的批次大小,训练步数为 2 万步。对于果汁制备任务,用 AgiBot G1 机器人,并采集 489 条演示轨迹,训练采用 128 的批次大小,训练步数为 3.5 万步。将 GigaBrain-0 与 𝜋0(Black,2024)进行比较,后者使用官方开源代码实现,并使用相同的训练配置进行微调,以确保比较的公平性。

移动操作实验

实验设置。评估 GigaBrain-0 在两项移动操作任务上的性能:移动箱子和移动洗衣篮。对于移动箱子的任务,将模型部署在 AgiBot G1 机器人平台上,并使用 300 条人工采集的演示轨迹进行微调,训练采用 128 的批次大小,训练步数为 3 万步。对于移动洗衣篮的任务,使用双臂 PiPER 机器人平台,并收集 378 条演示轨迹,训练采用 192 的批次大小,训练步数为 3 万步。为了确保比较的公平性,将 GigaBrain-0 与 𝜋0(Black,2024)进行比较。𝜋0 使用官方开源代码实现,并使用相同的训练配置进行微调。

操作泛化实验

多样化的训练数据对于VLA模型的泛化能力至关重要(Shi et al., 2025)。GigaBrain-0利用GigaWorld生成多样化的训练数据,显著增强了其在外观、物体位置和相机视角变化下的鲁棒性和泛化能力。

设备端操作实验

近期提出的 VLA 模型(Bjorck,2025;Black,2024;Cheang,2025;Intelligence,2025;Jiang,2025;Zhai,2025)虽然功能强大,但其庞大的参数数量和高计算复杂度常常限制它们在资源受限边缘设备上的部署。然而,高效的设备端执行对于需要低延迟、隐私保护和自主性的实时机器人应用至关重要。为了应对这一挑战, GigaBrain-0-Small 是一个经过优化的轻量级变型,专为在 NVIDIA Jetson AGX Orin 等边缘平台上进行高效推理而设计。

与 GigaBrain-0 相比,GigaBrain-0-Small 采用紧凑型视觉-语言模型 SmolVLM2(Marafioti,2025),并将动作专家参数减少到约 1 亿个。除了架构简化之外,还实现一系列系统级优化:(1)消除冗余的 CPU-GPU 内存传输和不必要的数据类型 (dtype) 转换;(2)通过 torch.autocast 实现自动混合精度推理;(3)通过预计算和缓存正弦和余弦查找表,优化旋转位置嵌入 (RoPE)(Su,2024)的计算;(4)对关键组件(包括去噪步骤和 VLM 前向传播)应用 torch.compile,将动态 PyTorch 代码转换为优化的静态图。

这些优化措施共同使得 GigaBrain-0-Small 在 Orin 平台上相比 𝜋0 模型实现显著更低的延迟和内存占用。用 G1 人形机器人收集 1000 次餐桌服务数据,并对两个模型进行微调。尽管参数占比高达 12.5%,GigaBrain-0-Small 仍取得与 𝜋0 相当的成功率。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐