TAIROS：机器人应用的具身人工智能平台

25年7月来自腾讯和复旦的论文“TAIROS: An Embodied AI Platform for Robotics Applications”。具身智能和机器人技术的最新进展见证了硬件和人工智能模型架构的突破性创新。虽然推理、多模态感知、操作和运动的专用基础模型取得了重大进展，但在能够无缝跨具身部署用于现实世界机器人应用的统一平台方面仍然存在关键差距。 TAIROS，是一个全面的具身人工智能

硅谷秋水

828人浏览 · 2025-11-02 00:15:00

硅谷秋水 · 2025-11-02 00:15:00 发布

25年7月来自腾讯和复旦的论文“TAIROS: An Embodied AI Platform for Robotics Applications”。

具身智能和机器人技术的最新进展见证了硬件和人工智能模型架构的突破性创新。虽然推理、多模态感知、操作和运动的专用基础模型取得了重大进展，但在能够无缝跨具身部署用于现实世界机器人应用的统一平台方面仍然存在关键差距。 TAIROS，是一个全面的具身人工智能平台，将多模态感知、长远规划和灵巧动作能力集成到一个统一的模块化架构中。TAIROS 基于最先进 LLM、VLM 和 VLA 模型，具有三个可互操作的模块：具身感知、具身规划和感知-动作，旨在实现集成智体部署和独立功能。该平台在各种机器人形态（人形机器人、四足机器人、双臂操作器）和现实世界任务（包括复杂操作、动态运动和多模态交互）中展现出泛化能力。

基础模型的出现为人工智能系统开辟新的范式，并对视觉、语言和决策领域产生变革性的影响。这些模型在包含数万亿个 tokens 和数百万张图像的互联网规模数据集上训练，展现出前所未有的泛化和自适应能力。GPT-4 [1] 和 Gemini [2] 等开创性成果表明，大规模预训练可以生成只需极少微调即可有效迁移到下游任务的模型。尤其是在具身智能和机器人技术领域，基础模型有望克服长期以来困扰传统方法的泛化、样本效率和多模态理解方面的挑战。

具身智能是一个融合了机械工程、具身设计、控制理论和人工智能的跨学科领域。人工智能基础模型的快速发展，近年来催生众多针对具身智能不同方面的专用模型，这些模型大致可分为四类：用于具身感知和导航的多模态基础模型、用于具身推理的大语言模型、用于操作的视觉-语言-动作 (VLA) 模型，以及用于运动和全身控制 (WBC) 的基于模拟的强化学习。

多模态基础模型

近年来，在跨模态语义理解突破的推动下，多模态基础模型取得了显著进展。CLIP [3] 的引入标志着一个里程碑，它通过对比学习将图像和文本映射到共享的嵌入空间，为统一的多模态表征奠定了基础。在此基础上，OpenAI 推出了 DALL·E [4]，率先使用扩散模型进行文本-到-图像的生成，开启了生成式多模态建模的新篇章。与此同时，谷歌推出了视觉transformer (Vision Transformer, ViT) [5]，将 Transformer 架构引入视觉领域，取代传统的 CNN，并为多模态集成提供了统一的主干。这一架构创新为更具可扩展性和灵活性的多模态模型铺平了道路。随后，谷歌发布了 PaLM-E [6]，这是一个集成文本、图像和机器人传感器数据的大规模模型，参数规模高达 5620 亿。PaLM-E 通过在单个模型中实现感知-到-行动的闭环，代表着迈向具身智能的重要一步。

在感知领域，基础模型也取得了显著进展。Meta 的 Segment Anything 模型 (SAM) [7] 是第一个通用图像分割基础模型，展现出强大的零样本泛化能力，并增强了自动驾驶和机器人等领域的目标分割能力。它的继任者 SAM2 [8] 进一步提升了效率和准确性，实现了从视频流中进行目标分割，并在现实世界的机器人感知中展现出巨大的潜力。然而，SAM 和 SAM2 都缺乏全面的场景级语义理解，这限制了它们在更复杂任务中的应用，并且需要与视觉分类模型集成。为了满足开放词汇和文本引导的目标检测需求，出现 Grounding DINO [9] 和 YOLO-World [10] 等模型。Grounding DINO 利用多模态 Transformer 架构实现深度跨模态融合，无需额外训练即可基于文本描述进行零样本目标定位。相比之下，YOLO-World 通过视觉语言预训练扩展传统的 YOLO 框架，专注于实时开放词汇目标检测的实际部署。

随着检测和分割模型的发展，出现了一种新趋势：将视觉信息直接集成到大语言模型中，以创建多模态基础模型。这种集成可以实现更丰富的视觉语言交互和推理，推动 VLM 向通用人工智能和具身智能应用迈进。例如，OpenAI 的 GPT-4o [1] 扩展了语言模型，使其具备视觉输入能力，支持结合图像和文本的复杂推理和生成。同样，Qwen2.5-VL [11] 强调对图像、视频、文本和结构化布局的全面视觉语言理解；而 VLN-Game [12] 将预训练的视觉语言特征与 3D 映射和博弈论目标匹配相结合，实现了零样本视觉语言导航。

基于这些进展，近期研究开始探索多模态基础模型在具身智能场景中的应用。例如，ConceptGraphs [13] 提出了一种高效的开放词汇 3D 场景图表示方法，通过将特征聚焦于目标节点来优化存储和可扩展性。Werby [14] 进一步开发了一种分层开放词汇 3D 场景图方法，使机器人能够理解复杂环境中的物体及其空间关系，并更有效地遵循自然语言指令。

使用 LLM 进行具身推理

在使用大语言模型 (LLM) 进行具身推理领域，当前的研究已经沿着几条截然不同但又互补的技术路径发展。第一类采用分层架构，将高层规划与低层执行分离，例如 DEDER [15] 等框架，它通过双层策略结构和具身知识图谱，将 LLM 中的复杂推理提炼为更小、更资源高效的模型。同样，环境偏好优化 (EPO) [16] 引入了一种新分层框架，将长周期任务分解为子目标，同时利用多模态环境反馈生成自动化训练信号，在 ALFRED 等成熟基准测试中取得了最佳性能。另一种值得注意的方法 EmbodiedAgent [17] 通过结构化记忆系统解决多机器人协调难题，该系统可根据环境约束验证动作，并由 MultiPlan+ 数据集和 RPAS 评估方案提供支持。

许多其他方法则侧重于通过更紧密的视觉-语言集成来增强多模态理解。 PlanLLM [18] 开创了跨模态联合学习的先河，它通过互信息最大化将世界级常识与视觉状态连接起来，在封闭集和开放词汇场景中均表现出了强大的性能。与此同时，人们也开发了一些框架，可以同时处理视觉和语言规划信号，以克服纯 LLM 方法中空间想象的局限性 [19]。TaPA [20] 框架通过视觉感知整合，将 LLM 生成的规划扎根于物理场景约束中，进一步推进了这一方向的发展；而 Robo2VLM [21] 则贡献了一个数据生成流程，可以从真实的机器人轨迹中获取 VQA 查询，从而提升视觉语言模型的空间推理能力。

任务分解和自适应规划是另一个研究重点。最近的创新包括在复杂环境中实现数据高效学习的多模态扎根规划系统 [22]，以及将符号规划与面向对象的 POMDP 相结合以实现可扩展任务完成的 Egocentric Planning [23]。 InterPreT [24] 框架使机器人能够从非专家语言反馈中学习符号谓词，从而促进其泛化到新任务。SMART-LLM [25] 展示了 LLM 如何通过程序化任务分解和联盟形成来协调多机器人系统；MPO [26] 引入元规划——一种通过执行反馈优化的可重用高级模板。Embodied-Reasoner [27] 通过三阶段训练流程将视觉搜索和推理扩展到交互任务；PRED [28] 通过基于环境差异检测预先修改动作来增强鲁棒性。

基准测试的开发对于评估具身规划的进展仍然至关重要。Embodied Agent Interface [29] 使用线性时序逻辑建立了标准化评估模型，系统地评估 18 个 LLM 在目标解释和动作排序等关键任务上的表现。然而，该领域仍然缺乏大规模基准测试。

协作具身语言智体（CoELA）[30]，是一个集成感知、记忆和通信模块的模块化框架，用于实现去中心化的多智体协作。这些进步通过解决各种现实世界场景中推理、感知和自适应执行方面的基本挑战，共同突破了具身人工智能的界限。

视觉-语言-动作模型

另一项重要的研究方向是通过视觉-语言-动作 (VLA) 范式，采用端到端方法实现具身智能，该范式严重依赖于通常通过遥操作或类似方法收集的机器人数据。RT-1 [31] 通过其离散化动作 Transformer 架构，率先实现了基于 Transformer 的机器人控制，利用 EfficientNet 进行视觉处理，并演示了可扩展的多任务厨房操作。在此基础上，RT-2 [32] 实现了突破性的功能，成为首个基于互联网规模视觉问答数据和机器人操作数据进行协同微调的视觉-语言-动作模型，采用 PaLI-X 架构组件。

其他方法已展现出互补的优势。SayCan [33] 建立了一种将大语言模型规划与价值函数基础相结合的范式，并使用 PaLM [6] 进行高级目标解释。 ACT [34] 通过其 CVAE-Transformer 架构引入时间集成和动作分块，实现双手操作的亚毫米级精度。基于扩散的方法始于扩散策略，该策略对多模态动作分布进行建模，后来融入 UMI [35] 框架改进。Octo [36] 作为一种通用扩散策略，使用 Open X-Embodiment 数据集在 22 个平台上对超过 400 万条轨迹进行训练，树立了新的基准。OpenVLA [37] 通过使用 DINOv2/SigLIP 视觉编码器，通过 LLaMA-2 自适应实现了高效的迁移。RDT-1B [38] 通过其具有统一动作空间表示的 1.2B 参数架构改进了扩散模型。

最近，π0 [39] 使用 PaliGemma 组件实现了高频控制的流匹配，并展示了出色的跨平台机器人操作任务部署能力。 FAST[40] 引入了频率空间动作 token 化，推理速度提升了 15 倍。Gemini Robotics 利用 Gemini 2.0 基础模型功能实现灵巧操控。Helix [41] 通过优化的变换策略实现了 200Hz 的人形控制，而 GR00T [42] 则基于真实机器人数据和丰富的 IsaacSim 数据，使用 Eagle-2 VLM 组件为人形系统开发了统一的扩散框架。这些进展共同展现在多个维度上的快速进展：通过基础模型方法进行扩展、针对特定控制机制的专业化，以及在动作表示和策略学习方面架构创新。

运动与全身控制

对于运动和全身控制 (WBC)，主要的技术路线是基于模拟的学习和sim2real迁移。Lifelike [43] 通过跟踪运动捕捉数据来训练运动策略，然后将其部署到四足机器人上，从而证明了这一点。OmniH2O [44] 通过 GPT-4o 或学习的策略实现了全尺寸类人机器人的远程操作和自主控制。BeamDojo [45] 为多边形足部运动引入了专门的奖励，而 Exbody2 [46]、HoST [47] 和 GMT [48] 等各种框架则通过结合强化学习、行为克隆和运动先验集成的创新训练方法，提高了全身控制能力。 HOVER [49] 和 ASAP [50] 通过统一的策略提炼和增量动作学习，进一步突破了敏捷类人运动的界限，从而简化了机器人的部署。我们的运动模型遵循基于模拟的学习路线，主要目标是开发一个更通用的训练流程，能够快速跨平台适应，而无需针对特定机器人进行参数调整。

机器人领域的架构范式发生了根本性转变，从经典的感知-规划-行动循环演进到如图所示的SLAP（Sensing-Learning-Action）框架。经典的感知-规划-行动循环无法应对快速的环境事件，例如行走时被石头绊倒、抓取时杯子滑落等，缺乏自主响应能力。2018年提出的SLAP框架由感知、学习、动作和规划四个模块组成。显著的区别在于感知和行动在底层紧密耦合，从而能够快速响应不断变化的环境。这与人类认知中的系统1相一致[51]。只有在处理复杂任务时才会调用规划，这与人类认知中的系统2相一致。学习渗透到感知、行动和规划的每一个模块中。
请添加图片描述

腾讯Robotics X Lab提出一个全面、稳健的技术框架， SLAP 系统（Sensing-Learning-Action），即感知、规划、PAction，其中 PAction 代表感知-行动。TAIROS 平台构建于 SLAP 框架之上，如图所示。TAIROS 平台包含三个主要模块，分别侧重于感知、规划和执行。
请添加图片描述

具身感知模块从一系列传感器获取多模态数据，包括机器人本体感受信号、摄像头图像、深度图或来自深度摄像头或激光雷达的点云，以及触觉和力传感器输入。该模块利用这些输入重建密集的三维点云，进行目标象级几何融合和语义注释，从而生成分层场景图。该场景图充当机器人的长期记忆，实现高效的信息汇总、查询和检索。通过将多模态感官信息整合成层次化、结构化的形式，机器人可以持续系统地感知和更新其环境，从而为长时间的高级推理和决策提供强有力的支持。

具身规划模块是一个基于 LLM 的推理智体，它从具身感知模块接收用户提示和环境上下文，然后通过 MCTS [52]、CoT [53] 和工具调用 [54] 等进行长视界推理，将困难任务分解为子任务，每个子任务都可以通过调用感知-动作 (PAction) 模块来完成。PAction 模块从具身规划模块接收命令，从具身感知模块接收视觉-触觉-力-语言嵌入，以输出机器人动作。感知-动作模块目前包含两个特定模型，分别用于腿式机器人运动和夹持器/灵巧手操作。

运动模型在模拟环境中使用强化学习进行训练，并通过通用的 sim2real 流程部署到真实机器人上。操作策略是一个基于类似 π0 [39] 架构的 VLA 模型。今后运动和操作模型将会统一。

这三个模块构成完整的具身智体，可在满足特定需求的任何机器人硬件平台上端到端部署。同时，这三个模块均可通过自包含的 API（云端服务）或 SDK（用于边缘部署）独立调用。例如，具身感知模块支持与用户进行文本提示交互，类似于 VLM，用于问答和场景理解；具身规划模块可以与用户聊天，并通过文本回复帮助解决长期决策问题；感知-动作模块可部署在机器人硬件中，用于直接执行运动和操作任务。
在 TAIROS 平台中，具身感知模块基于这些先进的多模态基础模型构建，以增强视觉语言理解和记忆能力。这个统一的框架连接了感知和行动，使各种机器人应用能够实现更复杂的场景解释和任务执行。

TAIROS提出一个专门用于评估复杂长期规划任务的全新基准，它将作为评估各种具身智能基础规划模型的综合测试平台。

TAIROS 的感知-动作模块采用 π0 作为其基础架构。该模块的实现涉及两阶段训练方法：使用预训练的 π0 模型参数进行初始化，然后使用通过大量遥操作和模拟实验收集的专有数据集进行特定领域的后训练。该数据集包含跨不同操作任务的多模态观测数据及其对应的动作轨迹，使模型能够保持π0强大的泛化能力，同时适应目标操作环境和任务要求。

具身感知模块旨在为具身机器人提供先进的环境感知和记忆能力。为此，维护一个实时在线更新的分层场景图，持续捕捉和组织机器人周围环境的信息。这使得机器人能够在感知复杂多变的环境时，构建并动态更新结构化、语义化的三维表征。通过这种实时在线更新过程，机器人能够在动态场景中实现稳健、实时的理解和交互。整个流程如图所示：
请添加图片描述

基于提取的空间关系和融合的点云数据，构建一个全面的多层场景图，以捕捉环境的层次结构。在目标层面，二维目标检测与点云反向投影相结合，为每个检测的实体生成精确的三维边框。视觉语言模型 (VLM) 用于提取详细的目标属性，例如类别、颜色和功能状态，并将其与三维边框信息相结合，形成每个目标节点的数据结构。此外，VLM 推断目标之间的空间关系，例如“在……上”或“在……内”，这些关系被编码为连接相关目标节点的语义边，从而通过关于目标交互的上下文信息丰富场景图。

在视图层级，每个关键帧都表示为一个视图节点，封装了诸如相机姿态和相关观测值等信息。在特定关键帧内可见的目标节点通过层级边链接到相应的视图节点，从而建立连接目标层级和视图层的父子关系。沿着层级向上，房间层级将环境中的空间区域或房间抽象为房间节点。VLM 通过将各自的视图节点通过层级边链接到单个房间节点，从而促进时间和空间相关视图（例如，一系列描绘厨房的关键帧）的聚类。在当前支持的最高层级——楼层层级，所有房间节点都连接到单个楼层节点，这反映了当前实现中对单楼层环境的假设。

这种多层场景图提供了结构化和层级化的环境表示，无缝集成了跨多个粒度级别的目标检测、空间关系和语义上下文。这种表示不仅支持高效的场景理解和记忆，而且为机器人应用中的高级推理和决策任务奠定了坚实的基础。

分层场景图会在机器人与环境交互时在线更新，并作为长期记忆保存。该记忆既支持通过文本提示进行直接用户交互，也支持通过具身规划模块进行调用。为了支持下游任务，混合检索模块通过高效检索（包括空间检索和语义推理以推断隐式相关对象）处理用户或具身规划模块的查询。最后，检索到的实体及其空间关系以 BDDL [55] 格式存储，以便与规划系统集成。

该工作流程将低级感知与高级场景抽象连接起来，使机器人能够从几何和语义维度推理环境。

系统通过结构化流水线处理用户查询，其中 LLM 首先解释输入指令，以确定其是否属于多模态感知能力的范畴。如果查询超出此操作范围，系统将直接生成适当的拒绝响应。对于有效查询，LLM 会动态选择最佳查询模态，目前包括当前视野搜索、基于方向/距离的搜索、特定房间搜索（当前或指定房间）或全局环境搜索等选项，同时确定相应的查询参数。检索的结果与原始用户指令相结合，然后格式化为 LLM 的综合提示，LLM 随后生成自然语言响应和可可视化的输出（例如用于 3D 可视化或导航点计算的目标对象 ID）。这种集成方法支持上下文感知信息检索，同时保持对分布外请求的稳健拒绝处理。

具身规划模块在整个系统中扮演着至关重要的角色，它作为接口，通过语音交互直接接收用户指令，同时处理来自具身感知模块的实时多模态感知数据，实现语义理解。同时，它通过指挥感知-动作模块协调任务执行，确保机器人操作成功。其完整工作流程如图所示。
请添加图片描述

路由器

接收到语音指令后，该模块首先通过自动语音识别 (ASR) 将其转换为自然语言文本，然后使用路由器 LLM 模型进行二分类，并输出语言输出（例如，生成“简单”或“困难”标签），以对任务复杂度进行分类。快速嵌入 LLM 处理简单任务，例如感知-行动模块的直接口头回应或基本行动命令；而需要长期规划的复杂任务则委托给规划嵌入 LLM。这种分叉架构通过根据任务需求分配资源来优化计算效率和交互延迟。

规划嵌入 LLM

规划嵌入 LLM 充当复杂的推理智体，集成了多种基于 LLM 的先进技术，包括工具调用 [54]、思维链 (CoT) [53]、蒙特卡洛树搜索 (MCTS)、强化学习 (RL) 等。

工具。基于工具的方法在基于 LLM 的智体中起着关键作用，规划工具将复杂任务分解为感知-动作模块的可执行子任务，而动作工具则在子任务级别生成元动作，例如运动模型的导航命令或 VLA 模型的语言指令。错误处理工具会在子任务执行失败时触发重新规划或重新行动，从而确保稳健性。此外，视觉问答工具支持与具身感知模块的交互式查询，以检索相关的视觉信息，而网络搜索工具则从互联网上获取与任务相关的知识。对于环境交互，探索工具支持主动探索（例如，目标搜索），翻译工具则处理多语言通信。作为 VLM 模块实现的评价工具评估任务进度和机器人状态，以指导决策。最后，终止工具指示任务完成。这些工具共同使智体能够通过自适应推理和恢复机制执行长期规划。
主动探索。为了进一步提升智体在长周期任务中的主动探索能力，将多轮多模态强化学习框架集成到规划嵌入LLM 中，并重点优化探索工具的策略生成。该方法通过两项关键设计，显著提升了智体在未知环境中的主动搜索和记忆检索能力。首先，多轮交互式探索：智体在收到初始任务指令后，可以独立确定多轮探索动作（例如，<get_memory> 检索历史观察数据，执行物理交互）。智体会根据当前场景图和视觉观察数据动态调整每轮动作的方向，直至触发终止条件。这种机制将探索从一次性的盲目搜索转变为具有上下文记忆的自适应过程。其次，奖励驱动的探索优化：设计一个细粒度的奖励函数，其中包含目标匹配 F1 分数、探索路径效率和格式合规性等多维指标。具体来说，引入“探索奖励”来量化评估每轮动作的环境反馈，鼓励智体优先与能够最大化信息增益的区域进行交互。

中断。中断分为两种类型：指令中断和动作中断。指令中断发生在当前指令处于工具调用或排队过程中，但动作执行尚未开始的情况下。此时，指令处理被中断，结果存储在历史指令中。动作中断发生在指令发起的任务发送动作序列并等待结果的情况下。此时，会发送额外的中断动作，以便及时停止机器人的动作。

指令跟踪。该框架系统地管理用户输入指令流程，记录反思内容、工具调用状态、任务分解和执行结果。对于任何输出的动作序列、文本响应或系统消息，都会绑定相应的指令ID。指令处理完成或中断后，数据将存储在历史内存中。

Agentic LLM。提出两种智体：基于 32B 基础模型的反应式智体，它根据指令处理历史信息，选择合适的工具并生成相应的工具参数。该智体通过反思处理工具调用的结果以及调用过程中遇到的任何异常。任何用户指令都会被处理，直到调用终止工具或指令被中断。标准的面向过程 (SOP) 智体按照定义的流程调用工具。当当前任务需要从中级任务分解为操作时，将调用操作工具。如果在操作执行过程中出现错误，则调用错误处理工具。任务完成后，将调用批评工具来评估任务执行是否符合预期。

搜索。在具身任务中，尤其是在现实世界或模拟环境中的执行，获取真实轨迹极其困难，而人工标注成本高昂。因此，获取大规模监督微调 (SFT) 数据集成为一项重大挑战。一旦模型利用少量数据掌握了基本能力，通过生成自身训练数据进行自我改进就成为一种合理的方法。然而，规划问题仍然可能很复杂，尤其是在处理长序列或稀有动作时，因为简单的随机采样可能无法产生成功的轨迹。蒙特卡洛树搜索 (MCTS) 通过模拟未来状态并通过树形结构评估动作路径来解决这个问题，从而实现更明智的决策。在评估阶段，价值是通过训练的价值模型和蒙特卡洛滚动计算得出的。动作模型与 MCTS 相结合，可以生成更高质量的轨迹。此外，通过建立一个自我改进的循环，MCTS 生成更优的轨迹，然后对其进行筛选并用于训练模型，最终得到更优的轨迹。经过 5 到 10 次迭代后，模型的性能持续提升。用 7B Base 模型和具身符号模拟环境进行实验。在相同任务下，该模型的最终通过率表现优于所有基线模型，包括闭源的LLM模型以及最新的推理模型。

强化学习。在LLM上出现的纯强化学习训练范式，例如 DeepSeek-R1 [56]，为训练具身智体提供了另一条途径。它通过探索、与环境交互和奖励反馈来学习理解环境（即转换）并解决任务。直接从通用模型入手，无需在进行 PPO/GRPO 之前进行针对具身任务的 SFT。对于奖励反馈，提供由 CoT-奖励模型生成的稀疏结果奖励。训练后的奖励模型会根据最终执行的有效性、合理性和效率进行评分，从而得出一个总分。此外，如果执行过程中出现错误，还会受到额外的惩罚。用 Verl 框架 [57] 并集成大量基于云端的模拟，通过无头执行为强化学习部署提供执行状态和结果。用 7B 模型作为基础模型，并使用 AI2Thor (ALFRED) 作为环境。强化学习训练能够有效提升模型能力，其表现优于其他闭源和开源模型，以及一些专为 ALFRED 设计的基于提示的方法。

奖励模型。奖励模型在强化学习的训练过程中起着至关重要的作用。用 CoT 奖励模型对智体的执行轨迹进行评分。训练的 7B 模型通过深度思考，主要从三个关键方面评估轨迹：
1）有效性（任务的完整性——例如，如果任务是煎鸡蛋，则鸡蛋需要在锅中煎熟）；2）合理性，例如，如果轨迹在执行过程中包含违规操作，则认为该轨迹不合理；3）效率，即避免冗余和无效的操作或探索。最终，会根据这三个方面生成一个总体评分，作为对轨迹执行效果的评估。

记忆与上下文

上图中场景记忆从具身感知模块获取，并作为持久性记忆保存在 RAG 中。交互记忆是指交互的历史记录，包括对话、动作、使用的工具以及一些特殊反馈（例如，任务失败信息），以及每个事件的时间戳。机器人信息包括机器人类型（例如，双臂人形机器人、四足机器人等）、机器人功能（例如，导航、抓取等）以及机器人描述（例如，名称和所有者）。交互记忆和机器人信息被组织为提示上下文。

感知-动作模块采用双模型架构，由用于操作任务的 VLA 模型和用于运动任务的基于仿真的强化学习 (RL) 训练流水线组成，体现了该领域针对这些不同任务类别的主流技术方法。在当前的系统实现中，操作模型和运动模型保持解耦。这种设计确保操作的清晰度，同时需要在命令层面进行仔细的协调。具身规划模块通过在任务执行流水线中按顺序输出每个模型的相应命令来解决此问题，从而避免调用冲突，并在并发操作和移动操作期间保持系统稳定性。该架构提供了模块化灵活性，同时通过明确的命令排序确保了任务的可靠执行。如图所示：

请添加图片描述

用于操作的 VLA

VLA 模型建立在 π0 模型 [39] 的基础架构之上，并融入数据管道增强、3D 信息基础等方面的改进，使其能够适应更加多样化的应用场景，包括工业操作和家政服务任务。

数据采集。目标是使用通过远程操作和 UMI [35] 手持式机械手收集的数据来训练 VLA 模型。下文主要介绍 UMI 数据的训练。一个关键目标是实现跨实例泛化，即将从 UMI 数据中学习的策略有效地迁移到任何其他机械臂上。然而，UMI 俯视摄像头数据与目标机器人俯视摄像头捕获的数据之间存在显著的视觉域差距。这种差距主要源于 UMI 数据中人类手臂的显著存在，而目标机器人数据中看到的是机械臂，这使得它们在视觉上彼此不同。此外，不同的运动学配置（人类手臂通常水平移动，而许多机械臂则垂直移动）在背景外观和手臂方向上造成了根本差异。这种视觉差异对视觉运动策略在不同具体化阶段的迁移构成了挑战。为了弥补这一差距，采用类似于 [58] 的数据编辑流程。该方法首先在 UMI 视频帧中检测并分割人类手臂。用文本提示开放词汇检测 (Grounding DINO) 和精确实例分割 (SAM2) 来实现这一点。然后，使用视频修复模型 ProPainter [59] 移除手臂区域并合理地恢复背景。至关重要的是，用 UMI 数据中的夹持器姿态，通过求解逆运动学来计算目标机械臂的关节角度。然后，利用已知的俯视摄像机外部参数和计算出的关节角度，将虚拟机械臂合成到修复的背景上，使其末端执行器姿态与记录的 UMI 夹持器姿态精确对齐。此过程生成合成的俯视图序列，在视觉上模拟机器人的视角，显著增强了跨具身策略迁移的视觉一致性。

3D 对齐。多视角图像因其对三维信息的隐式编码而被广泛应用于近期的 VLA 方法中，这对于空间操控至关重要。然而，学习鲁棒的多视角表征通常需要大规模的真实世界遥操作数据，而这在机器人技术中往往受到限制。为了给 VLA 模型注入更强大的跨视角空间理解能力，利用外部的三维视觉表征，而不是仅仅依靠 VLA 模型进行独立学习。具体而言，采用 3D 基础模型 VGGT [60]（该模型已展现出强大的二维图像三维感知能力）作为教师模型，指导 VLA 学习强大的三维视觉对应关系。然而，VGGT 最初是在具有中等姿态变化和视角重叠的场景级数据集上训练的，而机器人设置，尤其是使用头戴式和腕戴式摄像头的机器人设置，姿态和外观的变化要大得多。这一领域空白阻碍了 VGGT 直接应用于具身任务。

为了弥补这一差距，生成一个包含 58,000 张逼真合成图像的多视角数据集，其中模拟的 Franka 机器人在不同的室内场景中操控各种物体。该数据集为多视角相机姿态和点云对齐提供了精确的标签。利用这个高质量的数据集对 VGGT 进行微调，使其能够适应头腕式相机配置，并在真实的双臂机器人场景中展示零样本泛化能力。然后，微调后的 VGGT 用于生成跨视角一致的特征，这些特征通过对齐损失监督前缀 VLM 模型的输出隐藏状态。这种指导使 VLM 模型能够从有限的机器人数据集中高效地学习更强大的 3D 视觉表示。然而，预训练的 VLM 模型通常基于大规模互联网数据进行训练，并在图像和文本之间编码强大的语义对齐。直接将 VLM 特征与 VGGT 特征对齐可能会导致这种大规模预训练知识的丢失。为了缓解训练过程中的语义遗忘，继续并行使用下一个token预测损失函数，在 VQA 和物体定位任务上训练 VLM。此外，该方法还可以利用深度图像作为已知先验（如果可用），为网络提供额外指导，使其能够利用辅助信息生成更准确的预测。深度模态由特定于块的 MLP 处理，并逐个标记地添加到 Transformer 块的中间。

整个框架是端到端训练的。VGGT 仅在训练期间使用，推理时移除。这种设计使机器人能够更好地推理不同的图像流（例如，立体视图、头部视图和腕部视图），从而增强其对复杂操作任务中 3D 空间关系的理解。

应用：用 Dobot X-Trainer 机器人，这是一个双臂系统，每个夹持器上都配备了腕式摄像头，并在外部安装了顶置摄像头。任务是使机器人能够准确地抓取精华液瓶并将其垂直插入底部带有孔的容器中，该孔的直径与瓶子的直径紧密匹配。由于孔的间隙很小，这种设置带来巨大的挑战，需要高精度的操作。此外，瓶子和容器的初始位置都是随机的，这要求模型具有很强的空间泛化能力。为了支持后训练的工作，收集 1,000 条演示轨迹。部署的 VLA 模型可以实现超过 80% 的成功率。还使用 PaXini Tora One 人形机器人作为实验平台，以完成一项具有代表性的工业任务：在移动的传送带装配线上包装多个大小和外观各异的瓶子（包括洗衣液瓶和水瓶）。针对这一特定的任务场景，收集一个包含 300 条完整执行轨迹的数据集。随后，使用该数据集对基础模型进行后训练，结果显示性能显著提升，在目标工业包装应用中，平均任务（将三个物体打包为一个任务）的成功率超过 80%。这一结果既验证了机器人处理动态工业操作任务的能力，也验证数据驱动训练方法对复杂机器人操作的有效性。除了远程操作数据外，还利用手持式夹持器收集的数据进行模型微调。这种方法能够获取高质量、灵巧的操作轨迹，而这些轨迹仅通过远程操作很难获得。在 JAKA-K1 机器人上部署并评估微调后的模型，该机器人配备与数据采集时相同类型的夹持器 (TEK CTAG2F90-C)。由于手持式数据采集提高了灵活性，能够通过引入双手交接步骤来扩展之前的包装任务，在此步骤中，瓶子必须精确地从一个夹持器转移到另一个夹持器，然后再插入。收集了 500 个演示，使微调后的模型成功率超过 80%。这些结果表明，手持式夹持器数据能够实现细粒度的技能学习，并成功迁移到真实机器人。

强化学习用于运动

运动模型通过基于仿真的强化学习进行训练，然后通过 sim2real 方法部署到实体机器人上。当模拟性能与实际性能出现差异时，会采用系统性方法，结合 ASAP [50] 和执行器建模 [61] 等技术，收集真实机器人数据，量化并弥合现实差距。随后，这些差异模型会被重新纳入模拟训练循环，以优化运动策略。开发一个集成真实机器人数据反馈流水线的通用训练框架，旨在保持对各种机器人形态的适应性，同时最大限度地减少硬件相关的参数调整。该架构已在多个商业平台上展现出强大的性能，包括 Unitree G1、Leju Kuavo、Pudu D9、Turling RX-V3 和 Lexiang M001 机器人。如图所示：
请添加图片描述