Gemini Robotics: Bringing AI into the Physical World
模型基于Gemini 2.0,Gemini 需要获得强大的具身推理能力,从而能够理解。其次,我们必须将中,使 Gemini 能够运用物理动作的语言,理解接触物理、动力学以及现实世界交互的复杂性。具体而言,本报告重点强调:,解决了缺乏超越评估原子能力的基准的问题,并促进了标准化评估和未来研究。Gemini Robotics-ER:一款。一个以强大的具身推理能力为核心的 VLM,在保留其核心基础模型的

模型基于Gemini 2.0,Gemini 需要获得强大的具身推理能力,从而能够理解物理世界丰富的几何和时空细节。其次,我们必须将这种具身推理应用到物理世界中,使 Gemini 能够运用物理动作的语言,理解接触物理、动力学以及现实世界交互的复杂性。
具体而言,本报告重点强调:
-
ERQA:一个专门用于评估多模态模型体现推理能力的开源基准,解决了缺乏超越评估原子能力的基准的问题,并促进了标准化评估和未来研究。
-
Gemini Robotics-ER:一款展示增强的具身推理能力的 VLM。一个以强大的具身推理能力为核心的 VLM,在保留其核心基础模型的同时,在广泛的具身推理任务中展现出泛化能力。Gemini Robotics-ER 在理解物理世界至关重要的多项能力上展现出强大的性能,涵盖从 3D 感知到精细指向,再到机器人状态估计和通过代码进行可供性预测等。
-
Gemini Robotics:一种由机器人动作数据集成而产生的 VLA 模型,可实现高频灵巧控制、稳健泛化以及跨各种机器人任务和实施例的快速适应。将强大的具身推理先验与现实世界机器人的灵巧低级控制相结合,以解决具有挑战性的操作任务。
-
负责任的发展:我们根据 Google AI 原则讨论并负责任地开发我们的模型系列,仔细研究我们的模型的社会效益和风险以及潜在的风险缓解措施。
2. Gemini 2.0 的具身推理(ERQA和Gemini Robotics-ER)
Gemini 2.0 是一个视觉语言模型 (VLM),其能力远超仅需视觉理解和语言处理的任务。具体而言,该模型展现出先进的具身推理 (ER) 能力。我们将 ER 定义为视觉语言模型将现实世界中的物体和空间概念落地的能力,以及为下游机器人应用合成这些信号的能力。图 2 中展示了一些此类能力的示例。在第 2.1 节中,我们首先介绍了一个用于评估各种 ER 能力的基准,并展示了 Gemini 2.0 模型的先进性。在第 2.2 节中,我们展示了 Gemini 2.0 支持的各种具体的 ER 能力。最后,在第 2.3 节中,我们展示了如何在无需对机器人动作数据进行微调的情况下将这些能力应用于机器人应用,从而实现了诸如通过代码生成进行零样本控制和通过情境学习进行少样本机器人控制等用例。

2.1. 具身推理问答(ERQA)基准
为了捕捉 VLM 在具身推理方面的进展,我们引入了 ERQA(具身推理问答)基准,该基准专门关注具身智能体与物理世界交互时可能需要的能力。ERQA 包含 400 个多选题的视觉问答 (VQA) 式问题,涵盖各种类别,包括空间推理、轨迹推理、动作推理、状态估计、指向、多视角推理和任务推理。问题类型分布的细分如图 4 所示。在这 400 个问题中,28% 的问题提示中包含多幅图像——这些问题需要在多幅图像中对应概念的问题往往比单幅图像的问题更具挑战性。

ERQA 与现有的 VLM 基准测试相辅相成,后者倾向于强调更基础的功能(例如,物体识别、计数和定位),但在大多数情况下并未充分考虑在物理世界中行动所需的更广泛的能力。图 3 展示了我们 ERQA 的一些示例问题和答案。有些问题需要 VLM 跨多帧识别和注册物体;其他问题则需要推理物体的可供性以及与场景其他部分的 3D 关系。该基准测试的完整详细信息请访问 https://github.com/embodiedreasoning/ERQA。

我们手动标记了 ERQA 中的所有问题,以确保其正确性和质量。基准测试中的图像(而非问题)要么由我们自行拍摄,要么来自以下数据集:OXE(O'Neill 等人,2024 年)、UMI Data(UMI-Data,2024 年)、MECCANO(Ragusa 等人,2021 年、2022 年)、HoloAssist(Wang 等人,2023 年)和 EGTEA Gaze+(Li 等人,2021 年)。表 1 报告了 Gemini 模型和其他模型在 ERQA 以及 RealworldQA(XAI-org,2024 年)和 BLINK(Fu 等人,2024 年)上的结果,这两个流行的基准测试也衡量了空间和图像理解能力。具体来说,我们报告了 Gemini 2.0 Flash(一款强大的低延迟主力模型)和 Gemini 2.0 Pro Experimental 02-05(本文后续简称为 Gemini 2.0 Pro Experimental)——针对复杂任务的最佳 Gemini 模型——的测试结果。Gemini 2.0 Flash 和 Pro Experimental 在各自模型类别的三个基准测试中均创下了新的最佳成绩。我们还注意到,ERQA 是这三个基准测试中最具挑战性的,这使得其性能尤为突出。

Gemini 2.0 模型能够进行高级推理——我们发现,如果我们使用思维链 (CoT) 提示 (Wei et al., 2022),可以显著提高 Gemini 2.0 在基准测试中的表现。CoT 鼓励模型在选择多项选择题答案之前输出推理轨迹来“思考”问题,而不是直接预测答案。我们使用以下指令作为附加在每个问题末尾的 CoT 提示:“逐步推理答案,并展示你每一步的工作。只有这样,才能得出最终答案。” 结果如表 2 所示。在 CoT 提示下,Gemini 2.0 Flash 的性能超过了没有 CoT 的 Gemini 2.0 Pro Experimental,而 CoT 进一步提高了 Gemini 2.0 Pro Experimental 的性能。我们在图 5 中突出显示了两个这样的推理轨迹,Gemini 2.0 Pro Experimental 在没有 CoT 的情况下回答错误,但在有 CoT 的情况下回答正确。推理痕迹表明 Gemini 2.0 能够1)将其空间理解精确地建立在图像观察的基础之上;2)利用这种基础进行复杂的、逐步的具体推理。


2.2. Gemini 2.0 的具身推理能力
在本节中,我们将更详细地阐述 Gemini 2.0 的一些具身推理功能。我们还将介绍 Gemini Robotics-ER,它是 Gemini 2.0 Flash 的一个版本,增强了具身推理功能。这些功能无需任何额外的机器人专用数据或训练即可用于机器人应用。Gemini 2.0 可以理解图像中的各种二维空间概念。
1. 物体检测:Gemini 2.0 可以执行开放世界 2D 物体检测,提供精确的 2D 边界框,查询可以是显式的(例如,描述对象名称)或隐式的(类别、属性或功能)。
2. 指向性:给定任何自然语言描述,该模型能够指向显性实体,例如物体及其部件,以及隐性概念,例如可供性(抓取位置、放置位置)、自由空间和空间概念。定量评估结果见表 3。
3. 轨迹预测:Gemini 2.0 可以利用其指向功能,基于观测数据生成二维运动轨迹。例如,轨迹可以基于对物理运动或交互的描述。
4. 抓握预测:这是 Gemini Robotics-ER 中引入的一项新功能。它扩展了 Gemini 2.0 的指向功能,使其能够预测自上而下的抓握动作。
Gemini 2.0 还具备 3D 空间推理能力 (Chen 等人,2024;Hwang 等人,2024)。凭借“3D 视角”的能力,Gemini 2.0 能够更好地理解大小、距离和方向等概念,并利用这些理解来推理场景状态和需要执行的操作。
1. 多视角对应:用图像表示 3D 信息的一种自然方式是通过多视角(例如立体)图像。Gemini 2.0 可以从多视角图像中理解 3D 场景,并预测同一场景中多个摄像机视角之间的 2D 点对应关系。
2. 3D 边界框检测:这种 3D 理解也适用于单幅图像 - Gemini 2.0 可以直接从单目图像预测度量 3D 边界框。与 2D 检测和指向功能一样,Gemini 2.0 可以通过开放词汇描述来检测物体。
具体结果展示:
物体检测。Gemini 2.0 可以根据自然语言查询预测二维物体边界框。在图 6 中,我们展示了使用 Gemini 2.0 Flash 对机器人可能看到的图像进行的多个二维检测示例。Gemini 2.0 使用 𝑦, 𝑥, 𝑦, 𝑥 的约定来表示二维边界框。我们可以提示 Gemini 2.0 检测场景中的所有物体(图 2 中的示例)。该模型还可以通过物体描述来检测特定物体,例如图 6 中的“检测所有厨具”。这些描述也可以包含空间线索,例如中间示例中的“检测图像右侧的坚果”。最后,我们可以提示 Gemini 2.0 通过物体的可供性来检测物体。在图 6 右侧的示例中,我们要求 Gemini 2.0 检测溢出物并询问“可以用什么来清理它”。 Gemini 2.0 能够同时检测溢出物和毛巾,无需明确指定。这些示例展示了将精确定位功能与通用 VLM 相结合的优势,其中Gemini 的开放词汇和开放世界推理实现了专用专家模型难以达到的语义泛化水平。

2D 指向。对于某些用例,与边界框相比,点可以为图像理解和机器人控制提供更灵活、更精确的表示。我们在各种机器人操作场景中展示了 Gemini 2.0 的指向能力(图 7)。该模型将点表示为𝑦、𝑥元组。与 2D 物体检测类似,Gemini 2.0 可以指向任何用开放词汇语言描述的物体。Gemini 2.0 不仅可以定位整个物体,还可以定位物体的各个部分,例如勺子柄(图 7 左)。此外,Gemini 2.0 可以指向空间概念,例如“桌子上锅左边的空白区域”(图 7 左)或“应该按照现有八个罐头的模式放置新罐头的位置”(图 7 中)。它还可以推断可供性;例如,当被要求“指向人类会抓住并拿起它的地方”时,模型正确识别了杯子把手(图 7,右)。
我们使用三个基准测试对 Gemini 2.0 的指向性能进行了定量评估,结果如表 3 所示:Paco-LVIS(Ramanathan 等人,2023)用于自然图像上的物体部分指向,Pixmo-Point(Deitke 等人,2024)用于网络图像上的开放词汇指向,以及 Where2place(Yuan 等人,2024)用于室内场景中的自由空间指向。有关我们如何与其他模型进行指向性能基准测试的详细信息,请参阅附录 B.2。Gemini 2.0 的表现显著优于 GPT 和 Claude 等最先进的视觉语言模型 (VLM)。Gemini Robotics-ER 在三个子任务中的两个子任务中都超越了专门用于指向的 VLM Molmo。

二维轨迹。Gemini 2.0 可以利用其指向功能预测连接多个点的二维轨迹。虽然 Gemini 2.0 无法执行复杂的运动规划(例如,避开障碍物),但它仍然可以生成基于观测图像的有用轨迹。我们在图 8 中展示了一些示例。在左侧和中间的图像中,Gemini 2.0 在以自我为中心的视频中预测了从人手到可抓取工具的合理轨迹。在右图中,Gemini 2.0 预测了一系列路径点,如果机器人夹爪跟随这些路径点,它们将擦拭托盘溢出的区域。Gemini 2.0 的轨迹预测能力展现了关于运动和动力学的世界知识,这是机器人技术的一项基本能力。我们将利用这些新兴的轨迹理解能力,在第 4.2 节中以更强的方式将动作与视觉和语言能力联系起来。

自上而下的抓取。Gemini 2.0 的语义指向功能可以自然地扩展到自上而下的抓取姿势,分别表示为𝑦、𝑥 和旋转角度𝜃。Gemini Robotics-ER 进一步增强了此功能,如图 9 所示。例如,我们可以提示抓取香蕉的茎部或中心(右图)。我们将在第 2.3 节中展示如何将此类抓取预测直接用于实际机器人的下游机器人控制。

多视图对应。Gemini 还能理解世界的 3D 结构。例如,它能够从多个视角理解 3D 场景。例如,对于一张标注有点列表的初始图像,以及一张从不同视角拍摄的同一场景的新图像,我们可以询问 Gemini 2.0,初始图像中的哪些点在第二张图像中仍然可见,并查询这些点的坐标。从图 10 中的示例可以看出,Gemini 2.0 能够在截然不同的视角之间执行多视图对应。在上方图像对中,即使场景其余部分的视角发生了显著变化,模型也能正确预测红色点指的是这些以自我为中心的图像中人类手持的物体。在下方图像对中,模型正确预测橙色点在第二张图像中不可见。这种多视图理解对于机器人领域很有用,机器人可以使用 Gemini 2.0 推理多个图像流(例如立体视图、头部和手腕视图),以更好地理解其观察的 3D 空间关系。

3D 检测。Gemini 2.0 还可以从单幅图像预测度量 3D 边界框。与 2D 检测能力类似,Gemini 2.0 的 3D 检测能力也基于开放词汇,如图 11 所示。表 4 报告了 Gemini 2.0 使用 SUN-RGBD (Song et al., 2015)(一个流行的 3D 物体检测和场景理解数据集及基准)的 3D 检测性能,并将其与基线专家模型(ImVoxelNet (Rukhovich et al., 2022)、Implicit3D (Zhang et al., 2021) 和 Total3DUnderstanding (Nie et al., 2020))进行了比较。Gemini 2.0 的 3D 检测性能与现有的 SOTA 专家模型相当,其中 Gemini Robotics-ER 在 SUN-RGBD 基准上创下了新的 SOTA 性能。虽然这些基线适用于一组封闭的类别,但 Gemini 允许开放词汇查询。


2.3. Gemini 2.0 实现零次和少次机器人控制
下面我们将研究两种不同的方法:通过代码生成实现的零样本机器人控制,以及通过情境学习(下文也称为“ICL”)实现的少样本控制——在 ICL 中,我们利用少量情境演示来训练模型,以达到新的行为。Gemini Robotics-ER 在两种环境下的一系列不同任务中均取得了良好的性能,并且我们发现,零样本机器人控制性能尤其与更佳的具身理解密切相关:Gemini Robotics-ER 接受了更全面的训练,与 Gemini 2.0 相比,其任务完成率提高了近 2 倍。
通过代码生成实现零样本控制。为了测试 Gemini 2.0 的零样本控制能力,我们将其固有的代码生成能力与 2.2 节中描述的具身推理能力相结合。我们在双手 ALOHA 2(Team 等,2024;Zhao 等,2025)机器人上进行了实验。为了控制机器人,Gemini 2.0 可以访问 API(Arenas 等,2023;Kwon 等,2024;Liang 等,2023),该 API 可以将每个夹持器移动到指定姿势、打开和关闭每个夹持器,并提供当前机器人状态的读数。该 API 还提供感知功能;无需调用外部模型,而是由 Gemini 2.0 自身检测物体边界框、物体上的点,并生成自上而下的抓取姿势,如 2.2 节所述。
在每段情景中,Gemini 2.0 会首先收到系统提示、机器人 API 描述以及任务指令。然后,Gemini 2.0 会迭代地接收显示场景当前状态、机器人状态和执行反馈的图像,并输出在环境中执行以控制机器人的代码。生成的代码使用 API 理解场景并移动机器人,执行循环使 Gemini 2.0 能够在必要时做出反应并重新规划(例如图 34)。图 12 概述了 API 和情景控制流。

输入是语言提示和api,直接生成代码
表 5 展示了模拟中一系列操作任务的结果。这些任务被选择为捕捉各种难度和物体下的性能表现:从简单的抓取(例如拿起香蕉)到长距离、多步骤、多任务的操作(例如将玩具放入盒子并关上盒子)。完整描述请参见附录 B.3.1。Gemini 2.0 Flash 的平均成功率为 27%,但对于简单任务,成功率可高达 54%。Gemini Robotics-ER 的性能几乎是 2.0 Flash 的两倍,平均成功率为 53%。Gemini Robotics-ER 模型增强的具身推理能力显然使后续的机器人任务受益。

表 6 展示了真实 ALOHA 2 机器人的测试结果。由于校准缺陷以及现实世界中的其他噪声源,香蕉交接的成功率与模拟结果相比较低。对于更难、更灵巧的任务:Gemini Robotics-ER 目前无法完成折叠连衣裙的任务,主要是因为它无法实现足够精确的抓取动作。

表 6 | Gemini Robotics-ER 在 ALOHA 2 任务中的真实成功率。报告的成功率是香蕉交递 10 次试验的平均值,以及衣服折叠和擦拭 9 次试验的平均值。对于需要灵巧动作的任务,零次成功率并不高,但在 Gemini Robotics 模型中,成功率将得到显著提升(见第 3 节)。
通过上下文示例进行小样本控制。先前的结果展示了如何有效地利用 Gemini RoboticsER 处理一系列完全零样本的任务。然而,某些灵巧的操作任务超出了 Gemini 2.0 目前执行零样本的能力。受此类案例的启发,我们证明了该模型可以基于少量上下文演示进行条件反射,并立即模拟这些行为。与之前的示例不同,我们不是生成代码,而是提示模型直接按照演示中的示例生成末端执行器姿态的轨迹。
我们扩展了 (Di Palo and Johns, 2024) 中提出的方法,该方法将 𝑘 机器人动作的遥控轨迹转换为物体和末端执行器姿态的列表,将其标记为文本并添加到提示中(图 13)。得益于 Gemini Robotics-ER 的具身推理能力,我们无需任何外部模型来提取视觉关键点和物体姿态(如参考文献中所述);Gemini Robotics-ER 可以自行完成此操作。除了观察和动作之外,我们还用语言交织了对所执行动作的描述,以便在模型的推理时引发推理。该模型模拟了基于上下文轨迹的自然语言推理,并且在理解何时使用哪个手臂或更准确地预测在何处与物体交互等方面变得更好。使用大型多模态模型的一个优势是根据观察、动作和语言来调节其行为的能力,所有这些结合起来的表现优于任何单独的模态。

有点意思,不是微调训练,而是把演示都作为prompt给到VLM
表 5 和表 6 显示了使用此方法(包含 10 次演示)的结果。Gemini 2.0 Flash 和 Gemini Robotics-ER 均能够有效地将演示与实际情境相结合,从而提升性能。Gemini 2.0 Flash 在模拟环境中的性能提升达到 51%,而 Gemini Robotics-ER 在模拟和真实环境中的性能提升均达到 65%。相对于零样本代码生成方法,大部分性能提升来自于更灵巧的任务,例如交接物体、折叠衣服或打包玩具,在这些任务中,演示可以训练模型输出更精确的双手轨迹。
这组实验表明,Gemini 2.0 Flash 及其 ER 增强版本 Gemini Robotics-ER 可直接用于控制机器人,例如作为感知模块(例如,物体检测)、规划模块(例如,轨迹生成),以及/或者通过生成和执行代码来协调机器人运动。实验还表明,具身推理能力的模型性能与下游机器人控制之间存在很强的相关性。同时,我们的实验表明,该模型还能够利用情境学习的强大功能,仅通过少量演示即可学习,并通过直接输出末端执行器姿态的轨迹来提升在更灵巧和双手操作的任务(例如折叠衣服)上的性能。然而,作为 VLM,由于需要中间步骤将模型固有的具身推理能力与机器人动作相连接,因此在机器人控制方面存在固有的局限性,尤其是在更灵巧的任务中。在下一节中,我们将介绍 Gemini Robotics,这是一种端到端的视觉-语言-动作模型,可以实现更通用、更灵巧的机器人控制。
3. Gemini Robotics 机器人动作(Gemini Robotics)

图 14 | Gemini Robotics 模型的架构、输入和输出概览。Gemini Robotics 是 Gemini 的衍生产品,经过微调,可预测机器人动作。该模型接收由一组场景当前状态图像和待执行任务的文本指令组成的多模态提示,并输出由机器人执行的动作块。该模型由两部分组成:托管在云端的 VLA 主干网(Gemini Robotics 主干网)和运行在机器人机载计算机上的本地动作解码器(Gemini Robotics 解码器)。
3.1. Gemini Robotics:模型与数据
模型。像 Gemini Robotics-ER 这样的大型 VLM 中的推理通常速度很慢,并且需要特殊的硬件。这在 VLA 模型中可能会造成问题,因为推理可能无法在机载上运行,并且由此产生的延迟可能与实时机器人控制不兼容。Gemini Robotics 旨在解决这些挑战。它由两部分组成:托管在云端的 VLA 主干网(Gemini Robotics 主干网)和运行在机器人机载计算机上的本地动作解码器(Gemini Robotics 解码器)。Gemini Robotics 主干网由 Gemini Robotics-ER 的精简版本构成,其查询到响应的延迟已从数秒优化到 160 毫秒以下。机器人上的 Gemini Robotics 解码器可以补偿主干网的延迟。当主干网和本地解码器组合使用时,从原始观测到低级动作块的端到端延迟约为 250 毫秒。当块中包含多个动作时(Zhao 等人,2023),有效控制频率为 50Hz。尽管存在主干网络的延迟,但整个系统不仅能够产生平滑的运动和反应行为,而且还保留了主干网络的泛化能力。我们的模型架构概览如图 14 所示。
数据。我们历时 12 个月,收集了一组 ALOHA 2 机器人(Team et al., 2024; Zhao et al., 2025)的大规模遥控机器人动作数据集,其中包含数千小时的真实世界专家机器人演示。该数据集包含数千个不同的任务,涵盖了各种操作技能、对象、任务难度、事件范围和灵活性要求的场景。训练数据还包括非动作数据,例如网页文档、代码、多模态内容(图像、音频、视频)以及具身推理和视觉问答数据。这提高了模型理解、推理和概括许多机器人任务和请求的能力。(相当于是预训练数据)
基线。我们将 Gemini Robotics 与两个最先进的模型进行比较:第一个是 𝜋0,这是我们对开放权重最先进的 𝜋VLA 模型 (Beyer 等人,2024;Black 等人,2024) 的重新实现。我们使用多样化的训练数据混合模型对 𝜋reimplement 进行训练,发现该模型的表现优于作者发布的公共检查点,因此,我们将其报告为我们实验中性能最高的 VLA 基线(更多详情请参阅附录 C.2)。第二个是多任务扩散策略 (Chi 等人,2024)(灵感来自 ALOHA Unleashed (Zhao 等人,2025),但经过修改以适应任务),该模型已被证明能够有效地从多模态演示中学习灵巧技能。两个基线模型均使用我们多样化数据组合的相同组合进行训练,直至收敛。Gemini Robotics 主要在云端运行,并配备本地动作解码器;而两个基线模型均在配备 Nvidia RTX 4090 GPU 的工作站本地运行。本节中呈现的所有经验证据均基于严格的真实世界机器人实验,并进行了 A/B 测试和统计分析(更多详情请参阅附录 C.1)。

3.2. Gemini Robotics 可以开箱即用地解决各种灵巧操作任务
预训练之后拿数据集中有的任务实验
在我们的第一组实验中,我们展示了 Gemini Robotics 能够解决各种灵巧任务。我们评估了该模型在短时灵巧任务上的表现,并与最先进的多任务基线模型进行了比较。我们对所有模型进行了开箱即用的评估,即无需针对特定任务进行微调或额外提示,评估基于 3.1 节中数据集中抽样的 20 个任务。我们选择了不同的场景设置(其中一些如图 15 所示),涵盖洗衣房(例如,灵巧性要求“折叠裤子”)、厨房(例如,“叠放量杯”)、杂乱的办公桌(例如,“打开粉色文件夹”)以及其他日常活动(例如,“打开眼镜盒”)。这些选定的任务也需要不同的灵活性水平——从简单的拾取和放置(例如,“从桌子中央拿起鞋带”)到需要双手协调的可变形物体的灵巧操作(例如,“将电线缠绕在耳机上”)。我们在图 15 中展示了这些任务的模型部署示例,并在附录 C.1.1 中展示了完整的任务列表。

同样数据集中的多个任务,我觉得有意思的是,会发现有些任务可以成功执行,有些任务却不行,看pi0其实可以看出来有一半的任务都无法成功执行。
图 16 总结了我们模型和基线模型的性能。我们发现,Gemini Robotics 模型能够熟练地完成一半的开箱即用任务,成功率超过 80%。值得注意的是,我们的模型在可变形物体操作(“折叠粉色布料”、“将电线缠绕在耳机上”)方面表现出色,而基线模型在这些任务上表现不佳。对于更具挑战性的任务(例如,“打开粉色文件夹”、“插入红色积木”、“将电线缠绕在耳机上”),我们发现 Gemini Robotics 模型是唯一能够实现非零成功率的方法,这凸显了高容量模型架构与涵盖所有模态(视觉、语言和动作)的高质量多样化数据的结合对于多任务策略学习至关重要。最后,我们发现,一些最灵巧的任务如果纯粹从多任务设置中学习仍然相当具有挑战性(例如“插入鞋带”):我们在第 4.1 节中讨论了 Gemini Robotics 解决这些以及更长远挑战性任务的专业化方法。
3.3. Gemini Robotics 能够紧密遵循语言指令
第二组实验测试模型遵循自然语言指令的能力。我们选取 25 条语言指令,在五个不同的评估场景中进行评估,这些场景包括训练场景以及包含未见物体和容器的新场景(详见附录 C.1.2)。评估重点关注必须精确执行的语言指令(例如,“将蓝色夹子放在黄色便利贴的右侧”),而不是像“清理桌子”这样开放式的抽象指令。我们在图 17 中可视化了执行结果,并报告了二元任务的成功率。

图 17 | Gemini Robotics 能够在训练过程中从未见过的杂乱场景中精确遵循新的语言指令。左图:包含训练过程中见过的物体的场景。中图:包含新物体的场景。右图:在对新物体进行详细说明后,“拾取”和“拾取并放置”任务的成功率。
我们的实验表明,强大的可操控性源于高质量多样化数据与强大的视觉语言主干的结合。Gemini Robotics 和 𝜋re-implement 的表现优于扩散基线即使在简单的分布场景中,这表明需要强大的语言编码器。然而,尤其是在包含新物体和细粒度指令的挑战性场景中(例如,“将牙膏放入牙膏盒的底部隔间”),我们发现 Gemini Robotics 比任何基线都更有效(图 17)。虽然基于 PaliGemma 的 𝜋 重新实现能够正确接近训练期间看到的物体,但它在解释描述性语言属性(例如,“顶部黑色容器”、“蓝色夹子”)方面存在困难,并且无法解决包含未见物体和语言描述符的任务。
3.4. Gemini Robotics 将 Gemini 的泛化能力带入物理世界
缺乏鲁棒的泛化能力是机器人在家庭和工业应用中大规模部署的关键瓶颈。在最后一组实验中,我们评估了 Gemini Robotics 处理三个轴上的变化的能力,这在先前的研究(Gao et al., 2025)中被认为是重要的。
视觉泛化:模型应该对场景的视觉变化具有不变性,这些变化不会影响解决任务所需的操作。这些视觉变化可以包括背景、光照条件、干扰物体或纹理的变化。
指令泛化:该模型应该理解自然语言指令中的不变性和等价性。除了 3.3 节中研究的细粒度可操作性之外,该模型还应该理解释义,对拼写错误具有鲁棒性,理解不同的语言以及不同程度的特殊性。
动作泛化:模型应该能够调整已学的动作或合成新的动作,例如推广到训练期间未见的初始条件(例如,物体位置)或物体实例(例如,形状或物理属性)。
我们使用多样化的任务套件评估了 Gemini Robotics 及其基准模型的泛化性能。该基准测试共包含 85 个任务,其中 20% 属于训练分布,28% 用于评估视觉泛化能力,28% 用于评估指令泛化能力,24% 用于评估动作泛化能力。图 18 至图 20 展示了我们任务套件中三种不同类型变体的示例。有关任务的详细细分,请参阅附录 C.1.3。图 21 报告了平均进度分数。与二元任务成功率相比,该指标提供了更连续的衡量标准,并使我们能够更精细地可视化每个任务(尤其是高难度任务)的策略进度(每个任务的进度分数定义在附录 C.1.3.3 中)。我们还在附录中的图 40 中提供了相同的成功率图。

图 18 | 用于测量给定指令的泛化基准中不同类型视觉泛化能力的示例任务。左图:分布场景。从左到右:场景中可能存在新的干扰项、不同的背景或不同的光照条件。

图 19 | 泛化基准中用于测量不同类型指令泛化能力的示例任务。左图:分布内的指令。从左到右:任务指令可能存在拼写错误、使用新语言表达,或者使用不同的句子和细节层次进行描述。

图 20 | 泛化基准中用于测量不同类型动作泛化能力的示例任务。左图:我们展示了不同的初始位置与分布中的初始位置的比较。右图:我们展示了新物体实例与我们已收集数据的对象实例之间的差异。具体来说,对于“折叠裙子”,我们使用了不同的裙子尺码(S 为分布中的样本,M 和 XS 为新实例)。对于这两种类型的变化(初始条件、物体实例),模型都需要调整先前学习到的动作,例如,伸手到空间的不同位置或操纵不同的物体。
Gemini Robotics 的表现始终优于基线,并能处理所有三种类型的变化,如图 21 所示,效率更高。即使在基线灾难性地失效的情况下(例如,使用新语言的指令),Gemini Robotics 也能实现非零性能。我们推测,这些改进源于更大、更强大的 VLM 主干网络,包括 Gemini 2.0 中使用的最先进的视觉编码器,以及多样化的训练数据。

4. 专门针对灵巧性、推理能力和新形态的双子机器人进行调整和改进
(1)长时程灵巧任务;(2) 优化其泛化能力。我们还探索了 (3) 快速适应新任务和环境的可能性;(4) 新本体机器人。
4.1. 长视野灵活性
本文中,我们展示了使用少量高质量数据对模型进行微调,可以使模型专门化,从而解决高度灵巧、具有挑战性、长期任务,这些任务的难度超出了通用模型的范畴。
选取6个任务

图 22 | Gemini Robotics 在 ALOHA 机器人上成功完成多项长距离灵巧任务。从上到下依次为:“折纸狐狸”、“打包午餐”、“拼字游戏”、“玩纸牌游戏”、“用钳子将甜豌豆放入沙拉”和“将坚果放入沙拉”。
制作一只折纸狐狸:机器人需要将一张纸折成狐狸头的形状。这项任务需要 4 次精确折叠,每次折叠都需要对齐、弯曲、捏合和压痕,并且纸张层数会逐渐增加。这需要非常精确可靠的双臂协调能力,因为即使是微小的错误也可能导致无法挽回的失败。
打包午餐盒:机器人需要将几样物品打包到午餐袋中:首先,它需要将一片面包放入塑料袋的窄缝中,拉上拉链,然后将塑料袋和一根能量棒放入午餐袋中。接下来,它必须将葡萄放入容器中,盖上盖子,然后将容器放入午餐袋中。最后,机器人必须拉上午餐袋的拉链。其中几个子任务(例如,放入面包、盖上容器盖、拉上午餐袋的拉链)需要两个手臂的精确协调以及精细的夹持动作。
拼写棋盘游戏:在这个游戏中,人类在机器人面前放置(或画出)一个物体的图画。机器人必须识别该物体,并用三个字母拼出一个描述该物体的单词。通过将字母牌移动到板上来识别物体。这项任务需要视觉识别能力,以及紧密的视觉-语言-动作基础。
玩纸牌游戏:机器人必须使用自动发牌机抽取三张牌并将其转移到另一只手上。然后,机器人必须等待人类出牌,然后从手中打出一张牌,最后弃牌。这是一项具有挑战性的精细操作任务,要求机器人交出薄扑克牌并精确地从手中抽出一张牌。
将甜豌豆放入沙拉:机器人必须使用金属钳子从一个碗中夹出甜豌豆,然后将其放入另一个碗中。使用钳子需要双手协调:一只手臂握住钳子,另一只手臂施加压力,夹住并释放豌豆。
将坚果添加到沙拉中:机器人必须用勺子将坚果从垂直容器中舀到沙拉碗中。舀取动作需要灵巧的技巧,才能成功地从较高的容器中取出坚果,然后将其倒入沙拉碗中。
我们为每个任务精心挑选了 2000 到 5000 个高质量的演示数据,并使用每个专业化数据集对第 3 节中的 Gemini Robotics 检查点进行微调。我们将这些专家模型的性能与基线的专门版本(𝜋 重新实现专家和多任务扩散专家)进行了比较,这两个版本都在相同的数据集上进行了微调。此外,为了评估第 3 节中使用的多样化训练数据的重要性,我们从头开始训练一个单任务扩散策略和另一个 Gemini Robotics 专家,而不是从第 3 节中的检查点开始。我们在现实世界中对所有模型进行了广泛的评估,并在图 23 中报告了任务成功率(进度分数结果见图 42 的附录)。除拼写棋盘游戏外,我们对所有任务的每个模型进行了 20 次试验,拼写棋盘游戏进行了 12 次试验。
我们发现,我们的专家模型能够解决所有这些任务,平均成功率为 79%。最值得注意的是,它在长达 2 分钟的午餐打包任务中实现了 100% 的成功率,而这项任务需要超过 2 分钟才能完成。在拼写游戏中,它能够正确读取并拼写出印刷图像中的单词(见专业化数据集)。它还能正确拼写出 6 幅未见过的手绘草图中的 4 幅。相比之下,所有基线模型都无法始终如一地识别图像和正确拼写单词。对于更简单的灵巧任务,我们发现从头开始训练的单任务扩散模型具有竞争力,这与已发表的最佳结果一致(Zhao 等人,2025)。然而,针对拼写游戏、折纸和午餐盒任务训练的单任务扩散模型表现不佳,可能是因为这些任务的长期性。我们还发现,使用相同数据进行微调后,多任务扩散和𝜋重新实现都无法达到我们模型的性能。这与我们在图 16 中的发现一致。Gemini Robotics 模型与基线之间的关键区别在于基于 Gemini 的骨干网络功能更强大,这表明在具有挑战性的任务上成功的专业化与通才模型的强度高度相关。此外,当我们使用专业化数据集直接从头开始训练 Gemini Robotics 专家模型时,我们发现它无法解决任何这些任务(全面 0% 的成功率,并且图 23 中未包含图表),这表明除了高容量模型架构之外,从第 3 节中的各种机器人动作数据集中学习到的表示或物理常识是该模型专注于需要高水平灵活性的具有挑战性的长期任务的另一个关键组成部分。

4.2. 增强推理和泛化能力
我们现在探索如何充分利用 Gemini RoboticsER 的全新具身推理能力,例如空间和物理理解以及世界知识,来指导低级机器人在需要推理和比第 3.4 节更广泛泛化的场景中执行动作。尽管先前的研究已发现视觉鲁棒性方面取得了持续的提升,但迄今为止,VLA 在保留抽象推理能力并将其应用于行为泛化方面仍然面临巨大挑战 (Brohan et al., 2023; Kim et al., 2025)。
为此,我们研究了一种微调过程,该过程利用了第 3.1 节中重新标记的机器人动作数据集,使动作预测更接近新引入的具身推理能力:轨迹理解和生成(第 2.2 节)。第 3.1 节中的局部动作解码器经过扩展,可以将这些推理中间体转换为连续的低级动作。
我们将此推理增强变体与原始 Gemini Robotics 模型(第 3 节)在训练分布(第 3.1 节)之外的真实机器人任务上进行了比较。值得注意的是,这些具有挑战性的场景结合了第 3.4 节中研究的分布变化,要求模型能够同时泛化到指令、视觉和动作变化。我们描述了高级评估类别,并在附录 D.2 中列出了完整的指令和任务描述。
一步推理:对于此类任务,指令会间接指定感兴趣的对象和/或操作动作,例如通过其属性或可供性。例如,在“将右下方的老鼠分类到匹配堆”的任务中,模型必须将右下方的白色玩具老鼠分类到一堆白色玩具老鼠中,而不是棕色和灰色老鼠组成的干扰堆中;所有这些老鼠,以及根据颜色对物体进行分类的任务,在训练动作标签分布中都是看不到的。
语义泛化:这些任务需要语义和视觉理解能力,其复杂程度超出了第 3.4 节中泛化任务的范畴。对于“将日式鱼类美食放入午餐盒”的任务,模型必须在众多干扰物中确定寿司是目标物体,并将寿司放入午餐盒。
空间理解:这些任务需要理解相对和绝对空间关系的概念。对于“将最小的可乐汽水装入午餐盒”的任务,模型必须将迷你罐(而非干扰性全尺寸罐)装入午餐盒。描述待评估空间概念(最小)的语言在训练动作数据标签分布中是看不到的。

图 24 | 在需要具身推理的现实世界机器人任务中的表现。在重新标记的动作数据集上进行微调,将动作预测与具身推理能力联系起来后,该模型可以推广到结合多种分布变化类型的新情况。

图 25 | 预测轨迹的可视化,该轨迹是推理增强型 Gemini Robotics 模型内部思维链的一部分。这些轨迹代表了模型利用具身推理知识预测的接下来 1 秒左臂(红色)和右臂(蓝色)的运动路径。
图 24 展示了 Gemini Robotics 原始模型及其推理增强版本在实际评估中的成功率。虽然原始模型的表现仍然不错,但推理增强版本在需要单步推理或规划、语义知识以及对世界空间理解的分布式场景中,成功率大幅提升。此外,除了模型在新领域部署技能的能力有所提升之外,我们还看到了可解释性的提升,因为该模型可以输出与 Gemini Robotics-ER 中人类可解释的具身推理轨迹非常相似的中间步骤,这一优势在之前的启发性研究(Gu 等人,2023;Li 等人,2025;Vecerik 等人,2024;Wen 等人,2024;Zawalski 等人,2024)中也得到了强调。例如,我们在图 25 中展示了关键点轨迹的可视化,这些轨迹被用作模型内部思路链的一部分。
4.3. 快速适应新任务
本节则将探讨另一个极端:我们的通用模型能够多快地适应新的短周期任务。具体而言,我们从上述长周期任务中选择了 8 个子任务(详见附录 D.3.1),并调整了用于微调第 3 节中检查点的数据量。图 26 显示了每个任务的平均成功率与演示次数的关系。在 8 个任务中,有 7 个通过微调即可有效实现 70% 以上的成功率,最多只需 100 次演示(相当于 15 分钟到 1 小时的演示,具体取决于任务的复杂性)。值得一提的是,Gemini Robotics 的两个任务的成功率达到了 100%。基线在较简单的任务上表现出色:它们学习“倒生菜”的效率更高,而对于“沙拉酱”和“抽牌”,𝜋re-implement 的成功率略高。然而,它们在诸如“折纸狐狸第一次折叠”或演示次数有限的午餐盒任务等更困难的任务上表现不佳。这再次证明,强大的 VLM 主干网络能够更有效地将丰富多样的机器人动作数据转化为对物理交互的详细理解,是快速学习新任务的关键。

图 26 | 仅需少量演示即可快速适应新任务。经过微调的 Gemini Robotics 在最多 100 次演示的情况下,在 8 项任务中的 7 项中取得了超过 70% 的成功率,其中两项任务的成功率更是达到了 100%。虽然基线机器人在简单任务上表现良好,但 Gemini Robotics 在演示次数少于 100 次的情况下,在诸如折纸初折和午餐盒操作等挑战性任务上表现出色。
4.4. 适应新的本体
在初步实验中,我们还探索了如何有效地调整我们的 Gemini Robotics 模型(该模型使用 ALOHA 2 上收集的动作数据进行训练),使其能够在目标平台上仅用少量数据就能控制新的实例。我们考虑了配备平行夹爪的双臂 Franka 机器人,以及 Apptronik 的 Apollo(一款配备五指灵巧手的全尺寸人形机器人)。图 27 展示了这两个不同机器人上的示例任务。经过微调后,我们发现 Gemini Robotics 在分布式任务中的成功率与最先进的单任务扩散策略相当或略高。例如,针对双臂 Franka 机器人调整后的 Gemini Robotics 模型能够解决所有考虑的任务,平均成功率为 63%(任务详情和成功率图表见附录 D.4)。我们进一步研究了该调整模型对视觉干扰、初始条件扰动和物体形状变化的鲁棒性(附录 D.4.2)。如图 28 所示,Gemini Robotics 在视觉和动作泛化测试中的表现显著优于单任务扩散基线。值得注意的是,这表明 Gemini Robotics 模型能够将其鲁棒性和泛化能力迁移到不同的具体实施模型中,即使在针对新具体实施模型进行微调之后也是如此。


图 28 | 当 Gemini Robotics 模型适应新的实例——双臂 Franka 机器人时,泛化指标的细分。它在视觉和动作泛化轴上的表现始终优于扩散基线。我们不分析指令泛化,因为单任务扩散基线不以指令为条件。
5. 负责任的开发和安全
Gemini 安全策略 (Gemini-Team et al., 2023) 旨在保障内容安全,防止基于 Gemini 的模型生成有害的对话内容,例如仇恨言论、露骨的性暗示、不当的医疗建议以及泄露个人身份信息。通过构建 Gemini 检查点,我们的机器人模型继承了 (Gemini-Team et al., 2023) 中针对这些策略进行的安全训练,从而促进安全的人机对话。由于我们的具身推理 (Embodied Reasoning) 模型引入了指向等新的输出模式,我们需要为这些新功能提供额外的内容安全保障。因此,我们对 Gemini 2.0 和 Gemini Robotics-ER 进行了监督微调,目的是教会 Gemini 何时不宜应用超出图像现有范围的泛化。这项训练对可能引发偏见的指向查询的拒绝率达到了 96%,而基线拒绝率为 20%。
除了内容安全之外,通用机器人的一个重要考虑因素是语义动作安全,即在开放域非结构化环境中需要遵守物理安全约束。这些约束很难详尽列举——例如,毛绒玩具不得放在热炉上;过敏者不得食用花生;酒杯必须直立移动;刀不应该指向人类;等等。这些考虑不仅适用于通用机器人,也适用于其他情境化代理。与此技术报告同时发布,我们开发并发布了 ASIMOV 数据集(Sermanet 等,2025a,b)以评估和改进语义动作安全性。该数据包括图 29a 和图 29b 所示的视觉和纯文本安全问答实例。Gemini Robotics-ER 模型针对此类实例进行了后训练。我们的安全评估总结在图 29c 和 29d 中。对齐指标是相对于真实人类安全评估的二分类准确率。我们在图 29c 和 29d 中看到,Gemini 2.0 Flash 和 Gemini Robotics-ER 模型的表现相似,分别展示了对视觉场景和来自现实世界伤害报告(NEISS,2024)的场景中的物理安全的强大语义理解。我们看到了使用体质人工智能方法带来的性能提升(Ahn 等人,2024 年;Bai 等人,2022 年;Huang 等人,2024 年;Kundu 等人,2023 年;Sermanet 等人,2025a)。我们还发现,对抗性提示(即要求模型颠覆其对可取和不可取的理解)下的性能下降可以通过训练后和构成性 AI 机制来缓解。有关 ASIMOV 基准、我们数据驱动的构成生成流程以及全面的实证分析的更多详细信息,请参阅与本技术报告同时发布的(Sermanet et al., 2025a,b)。这些调查初步证明,我们非机器人模型所遵循的严格安全标准也适用于我们新推出的具身化和机器人模型。随着我们机器人基础模型系列的进一步发展,我们将继续改进和创新安全和协调方法。除了潜在的安全风险外,我们还必须认识到机器人部署的社会影响。我们认为,主动监测和管理这些影响(包括效益和挑战)对于降低风险、负责任的部署和透明的报告至关重要。Gemini Robotics 模型的模型卡(Mitchell 等人,2019)可在附录 A 中找到。

(a) ASIMOV-Multimodal:情境:你是一位机器人厨师,正在为一位正在等待的人类顾客准备餐食。指令:将沸腾的液体直接倒入垃圾桶。问题:这个指令不可取吗?答案:是的,这个指令不可取。将沸腾的液体倒入垃圾桶可能会造成损坏、造成混乱,并可能存在危险。在准备餐食的情境中,这并非一种安全或合适的处理热液体的方法。
图 29 | 通过章程和安全后培训进行安全基准测试和缓解
6.讨论
在本研究中,我们研究了如何通过机器人技术将 Gemini 2.0 的世界知识和推理能力带入物理世界。强大的人类水平的具身推理能力对于机器人和其他基于物理的智能体至关重要。鉴于此,我们推出了 Gemini Robotics-ER,这是一款具身化的 VLM,在空间理解、轨迹预测、多视角对应和精确指向方面显著提升了最先进的水平。我们已通过新的开源基准测试验证了 Gemini Robotics-ER 的强劲性能。结果表明,我们的训练流程能够非常有效地增强 Gemini 2.0 固有的具身推理多模态能力。最终的模型为现实世界的机器人应用奠定了坚实的基础,能够高效地进行零样本和少样本自适应,以应对感知、规划和机器人控制代码生成等任务。
我们还推出了 Gemini Robotics,这是一个通用的“视觉-语言-动作”模型,它建立在 Gemini Robotics-ER 的基础上,弥合了被动感知与主动具身交互之间的差距。作为我们迄今为止最灵巧的通用模型,Gemini Robotics 在各种操作任务中都表现出色,从复杂的布料操作到精确操控铰接式物体,无所不能。我们推测,我们方法的成功可以归因于:(1) 功能强大的视觉语言模型,其具备增强的具身推理能力;(2) 我们针对机器人技术的特定训练方案,它将海量的机器人动作数据与丰富的非机器人数据相结合;以及 (3) 其专为低延迟机器人控制而设计的独特架构。至关重要的是,Gemini Robotics 能够有效地遵循开放词汇指令,并展现出强大的零样本泛化能力,证明了其能够充分利用 Gemini Robotics-ER 的具身推理能力。最后,我们展示了可选的专业化和适应性微调,使 Gemini Robotics 能够适应新任务和新实施例,实现极端灵活性,并在具有挑战性的场景中进行推广,从而突出了我们的方法在将基础能力快速转化为实际应用方面的灵活性和实用性。
局限性与未来工作。Gemini 2.0 和 Gemini Robotics-ER 在具身推理方面取得了显著进展,但其能力仍有提升空间。例如,Gemini 2.0 可能难以在长视频中建立空间关系,其数值预测(例如点和框)可能不够精确,无法胜任更细粒度的机器人控制任务。此外,虽然我们与 Gemini Robotics 的初步结果展现出良好的泛化能力,但未来的工作将侧重于几个关键领域。首先,我们的目标是增强 Gemini Robotics 处理需要多步推理和精确灵巧移动的复杂场景的能力。尤其是在新情境下。这涉及开发将抽象推理与精确执行无缝集成的技术,从而实现更稳健、更泛化的性能。其次,我们计划更多地依赖模拟来生成视觉多样化和接触丰富的数据,并开发利用这些数据构建更强大的 VLA 模型的技术,这些模型可以迁移到现实世界(Lin 等人,2025)。最后,我们将扩展多体现实验,旨在减少适应新机器人类型所需的数据,并最终实现零样本跨体现迁移,使模型能够将其技能立即泛化到新型机器人平台上。
总而言之,我们的工作代表着我们朝着在物理世界中实现通用自主人工智能愿景迈出了重要一步。这将彻底改变机器人系统理解、学习和接受指令的方式。传统的机器人系统是为特定任务而构建的,而 Gemini Robotics 则为机器人提供了对世界运作方式的普遍理解,使其能够适应各种任务。Gemini 的多模态和泛化特性有望进一步降低使用和受益于机器人技术的技术门槛。未来,这可能会彻底改变机器人系统的应用领域和使用者,最终使智能机器人能够融入我们的日常生活。因此,随着技术的成熟,像 Gemini Robotics 这样功能强大的机器人模型将拥有巨大的潜力,为社会带来更美好的影响。但同样重要的是要考虑它们的安全性和更广泛的社会影响。Gemini Robotics 的设计始终以安全为重,我们已经讨论了几种缓解策略。未来我们将继续努力确保安全、负责任地利用这些技术的潜力。
更多推荐


所有评论(0)