25年来自浙大、宇树科技、北大、南京大学、群核科技、字节Seed和澳大利亚大学 Adelaide 的论文“Arcadia: Toward a Full-Lifecycle Framework for Embodied Lifelong Learning”。

具身学习本质上是一个生命周期问题,而非单一阶段的优化问题。仅优化单一环节(数据采集、模拟、学习或部署)的系统很少能持续改进或推广到更广阔的应用场景。 Arcadia,是一个闭环框架,它通过紧密耦合四个阶段来实现具身终身学习:(1)在物理环境中自主探索和接地,以实现自主数据采集;(2)生成式场景重建和增强,以实现逼真且可扩展的场景创建;(3)共享的具身表征架构,将导航和操作统一到单一的多模态主干网络;(4)基于模拟的自适应,通过模拟真实场景的评估和演化来闭合反馈回路。这种耦合是不可分解的:移除任何一个阶段都会破坏改进循环,并退回到一次性训练。 Arcadia 在导航和操作基准测试中持续取得进步,并能稳健地迁移到物理机器人上,这表明紧密耦合的生命周期(持续的真实世界数据采集、生成式仿真更新和共享表征学习)支持持续改进和端到端泛化。其发布标准化接口,支持在可重用环境中进行可复现的评估和跨模型比较,使 Arcadia 成为通用具身智体的可扩展基础。


人类终其一生都在学习,不断积累和重组经验,从而实现广泛的泛化和技能迁移,超越训练环境[5, 6, 13, 19, 22]。认知理论和具身认知理论进一步指出,能力的形成并非源于孤立的短暂技能,而是由持续的感知-行动耦合随时间推移而塑造而成[10, 33, 40, 46]。这一观点对机器人技术具有启示意义:仅优化链条中的某一环节(例如,在静态模拟器中进行训练或在没有反馈的情况下进行部署)很少能持续提升性能或增强鲁棒性[35, 47]。近期研究表明,协调具身认知流程的多个阶段(真实世界数据收集、生成式仿真、统一表征学习和部署时反馈)比孤立的设计能够带来更强的泛化能力和更高的数据效率[7, 8, 26, 31, 41, 49]。其称为具身终身学习:将具身智能设计和评估为闭环,持续地将真实经验与表征、策略以及训练所用的模拟器的更新相结合。

近期的研究开始整合此前各自独立的阶段。GRUtopia [45] 将不同的场景、智体和基准测试统一到一个仿真系统中,而 NaVILA [11] 将高级语言指令与低级运动控制连接起来,并在物理机器人上进行验证,以缩小仿真与现实之间的差距。这些工作扩展流程的覆盖范围,但仍未达到完整的生命周期。GRUtopia 主要扩展流程的仿真部分,而 NaVILA 主要扩展流程的执行范围,使其能够应用于真实机器人。两者都扩大覆盖范围,但并未实现完整的生命周期:它们既没有建立从部署经验到仿真资产的持久且可编辑的路径,也没有建立用于路由部署信号以监督后续训练的持久机制。因此,它们只是连接各个环节,而没有在各个阶段维持完整的“真实-到-仿真-再到-真实”循环。

在“真实-到-仿真”方面,存在两个主要限制:
(1)外生数据依赖性。从生命周期的角度来看,训练数据如果来源于部署环境并始终基于部署环境,则最为有效。依赖外部的、非分布式数据源会削弱这种耦合:YouTube 视频与具身控制目标不匹配,而来自四足机器人的数据反映与人形机器人截然不同的形态和视角。此类外生且噪声较大的数据会引入分布不匹配,并且在仿真中进行整理或修改的成本很高,更不用说根据反馈进行调整了。它会阻碍执行信号驱动资产或策略更新,并阻碍持续改进。NaVILA [11] 就体现这种局限性,它使用不匹配的外部语料库来弥补数据稀缺,但收效甚微。
(2) 预渲染环境。从生命周期的角度来看,模拟器应该能够接收真实观测数据并保持可编辑性,以便将部署经验融入到新的场景中。预渲染或静态环境(例如 Matterport3D [9] 和 Habitat v1 [37])由于物理属性有限,限制可控性,并阻碍部署时变化的可靠插入,从而减慢甚至阻塞数据-资产-策略循环。实际上,常见的流程是在静态数据集上进行训练,然后在 Isaac Sim [30]/Lab [29] 中进行验证,这增加工程开销,却没有恢复生命周期耦合。即使是像 GRUtopia [45] 这样的大型高保真套件,也依赖于有限的资源库和基于检索的场景变化,这限制生成式自适应,并阻碍持续改进。

由于大规模的真实世界实验成本高昂且风险巨大,具身学习通常将物理环境映射到模拟环境中,以便智体能够高效地进行探索。但这导致现实差距:模拟领域与物理领域之间的不匹配[15, 34, 42]。对纹理、光照和动力学进行领域随机化可以提高鲁棒性,并已应用于OpenAI的Dactyl等可扩展系统[2],然而,手工设计的模拟器只能捕捉到有限的真实世界复杂性,例如可变形体、传感器噪声或动态场景,导致训练的策略在部署后变得脆弱。

最近的研究开始通过生成式重建和自适应模拟框架[11, 45]来缩小这一差距,这些框架将真实世界的观察结果转化为可编辑的、符合物理规律的虚拟资产。 Arcadia 将这一方向拓展至双向闭环模式:真实世界的数据重新生成仿真资产和监管机制,而来自仿真的反馈则在重新部署前完善共享的表征和策略。这种持续的“真实-到-仿真-再到-真实”循环将仿真从静态代理转变为具身适应的积极驱动力。

在仿真-到-真实应用方面,还存在两个额外的限制:
(3)模型架构碎片化。生命周期系统受益于共享的具身表示,以便数据、监督和部署反馈能够在任务族和具身模型之间传播 [14, 32, 38]。在实践中,流程通常会构建具有不兼容假设的独立任务特定堆栈(例如,在室内模拟器中将导航智体建模为定向边框 [1, 21],以及在固定摄像头和末端执行器控制下的桌面操作 [16, 39]),这阻碍跨任务的积分分配,并妨碍从实际部署中获得一致的策略更新。其结果是,针对长期、多技能目标的改进是各自独立的,这与生命周期耦合背道而驰。
(4) 真实世界反馈的稀疏性。在生命周期系统中,部署应该提供密集、结构化的信号,以更新模拟器资产和策略。然而,许多流程将部署视为一次性操作,最多只能捕获粗略的成功/失败标签[25, 36]。这种稀疏性阻碍循环:长期错误无法定位,部分进展和环境变化无法反馈,执行信心也无法指导改进。

如图总结这四个局限性。它们共同指出,不仅存在孤立的算法缺陷,而且生命周期耦合也存在问题:从数据采集到仿真、表征,再到部署时的监督,整个生命周期都存在脱节。因此,面向具身生命周期学习的平台应做到以下几点:(i) 保持收集的经验与目标任务之间的高度一致性;(ii) 将真实观察结果转化为可编辑的生成式仿真资源;(iii) 利用跨任务共享的、可扩展的具身表征进行学习;(iv) 将结果驱动的部署中反馈反馈到资源和策略中。
请添加图片描述

为了应对这些挑战, Arcadia就是一个用于闭环具身终身学习的全生命周期框架。


给定诸如“把杯子从桌子上拿过来”之类的自然语言指令,Arcadia 会执行一个完整的“真实-到-仿真-再到-真实”循环。该过程首先在真实环境中进行自主探索和数据采集,然后生成逼真且可编辑的仿真资产。接下来,仿真器在共享的具身模型下训练统一的导航和交互策略。最后,真实环境部署提供的反馈被重新融入仿真中,以改进资产和策略。这种闭环机制使得机器人在其整个生命周期内能够持续进行自我改进的具身学习。

如图所示是真实-到-仿真的流水线:
请添加图片描述

如图所示是仿真-到-真实的流水线:
请添加图片描述

自演化的探索与接地

传统的具身数据集通常从外部来源或被动建图方式收集,但往往存在任务匹配度低以及训练和部署之间存在域差异的问题。为了弥补这一缺陷,Arcadia 能够在与部署相同的物理环境中自主采集任务相关数据,从而确保感知和控制模型在真实条件下进行学习。

其方法基于 Isaac ROS [27] 和 Nvblox [28] 进行 SLAM 和 3D 重建,采用基于边界的探索策略,以最大化信息增益。边界点(已探索区域和未探索区域之间的边界)通过预期熵减进行评分,机器人使用底层运动控制 API 访问得分最高的边界点。地图和边界集会持续更新,从而生成兼顾覆盖范围、效率和语义相关性的自适应轨迹。与网格或脚本式探索相比,这种自演化策略强调对下游任务至关重要的区域,从而提高采样效率和基于任务的覆盖范围。

探索结束后,Arcadia 输出同步的多模态数据(RGB-D、激光雷达、惯性测量单元、里程计、姿态)。保留完整的观测历史而非丢弃中间帧,能够为重建和策略学习提供密集的、基于时间的监控,从而保持生命周期的一致性并缩小真实环境与仿真环境之间的差距。

生成式场景重建

传统的仿真器依赖于静态扫描或基于检索的场景组装,这需要人工干预且覆盖范围有限。为了克服这些限制,Arcadia 采用生成式重建流程,将真实环境转换为可编辑的、与任务相关的仿真资源,从而将物理数据的真实性与合成的可扩展性相结合。

根据收集的多模态输入,视频和点云被解析成结构化的 3D 场景图 G = (V, E),其中目标/建筑元素作为节点,空间关系作为边,该解析由场景解析模块(例如 SpatialLM [24])实现。Arcadia 并非从数据库中检索网格,而是使用基于高斯分布的重建器 [48] 直接从多视图观测中合成资源,生成与模拟器兼容的 USD 目标,这些目标具有一致的几何形状、纹理和语义。这使得无需人工干预即可实现广泛的领域扩展,减少资源偏差,并保留在现实世界中观察到的任务语义。

所有资源都通过自动化管理界面导入到 Isaac Sim [30] 中,从而生成高保真、可扩展的环境。 Arcadia 通过生成式合成取代手动检索,提供逼真而多样化的模拟,支持可扩展的终身具身学习,同时保持生命周期的一致性。

共享具身表征架构

大多数具身系统将不同的运动和操作任务训练为独立的模型,每个模型都拥有独立的感知堆栈、动作空间和目标。这种分离在空间推理和细粒度交互之间设置硬边界,导致两个问题:(i) 语言、视觉和动作之间缺乏共享基础,每个模型都需要重新学习目标、关系和行动;(ii) 跨阶段耦合脆弱,导航可以到达目标附近,但无法暴露用于操作的结构化状态,而操作则假定以手臂为中心的视角。这种碎片化增加数据需求,限制迁移,并降低对长时程语言条件指令的性能。

Arcadia 则采用统一的多模态主干,该主干在导航和操作任务之间进行联合训练,并配备轻量级的特定任务解码器用于动作生成。监督信息在仿真中生成:对于导航任务,对起点-目标点对进行采样,并使用 A* 算法生成以 7-基元元离散控制空间表示的无碰撞路径,该控制空间可泛化到不同的机器人形态;对于操作任务,RRT 算法生成物理上可行的轨迹。所有轨迹在输入端都经过语言条件化处理,格式与 VLN-CE [20] 和 BridgeData V2 [44] 相同,并通过共享的感知/状态编码器传递到各自的解码器。

对两项任务进行联合训练,可以生成共享的具身状态表征。导航任务的全局布局、可达目标和接近策略与操作任务的局部affordance和接触行为编码在同一个潜空间中。这种共享的基础架构减少模态漂移,并促进任务间的表征迁移。虽然每个任务在其对应的具身模型下独立评估,但这种统一的基础架构建立共同的语义和空间理解,从而能够对长时程指令进行连贯的推理。

基于真实环境的仿真评估与演化

大多数具身化流水线在推理之后终止,并将部署视为纯粹的评估过程,从而丢弃密集的执行轨迹。Arcadia 则将部署视为一个额外的监督阶段:真实世界的部署过程被记录下来,分解为结构化的反馈信号,并重新整合到仿真环境中,以更新策略和环境。这闭合真实数据和仿真数据之间的闭环,并实现持续适应而非静态训练。

本文提取三个通道的反馈。

任务反馈。每个任务都被分解为步骤级动作,并定义时间 t 的反馈 FT_t,其中 R_t 是标量奖励,||s_t+1 − s_t|| 衡量状态转移幅度,L_conf 衡量预测值和观测值之间的感知一致性,L_goal 衡量与目标状态的距离;λ_i (i =1,2,3,4)对这些项进行加权。这会将原始轨迹转换为一个监督信号,该信号联合编码奖励、动力学、感知和目标对齐信息,从而实现全局滚动评分和局部误差归因。

场景反馈。多模态传感器流(RGB、深度、激光雷达、惯性测量单元)用于表征环境动力学和感知质量。诸如低光照条件下的地图构建降级或出现先前未见过的物体等故障会被记录下来,并用于更新模拟器:实例化新的资源或注入扰动,以便未来的模拟能够反映部署条件,而不是固定的预渲染场景。

机器人反馈。在执行过程中监控硬件遥测数据(关节状态、执行器负载、通信稳定性)。约束违规(例如,机器人超过允许的步高或机械臂超过有效载荷限制)会被记录为机器人级信号 FR,该信号既用于安全门控,也用于根据平台限制调整运动策略。

这些反馈通道被反馈到仿真系统中,用于更新资产、动态特性和监管目标,从而形成一个双向的“真实-到-仿真-再到-真实”循环。在 Arcadia 系统中,策略学习、环境生成和评估不再是彼此独立的阶段,而是同一个迭代更新过程的一部分,从而在训练阶段就缩小仿真与真实之间的差距,而不是在部署阶段进行弥补。


VLN任务

设置。评估 Arcadia 在以下四种训练配置下对 VLN 性能的影响:
• Tuning。仅使用 VLN-CE [20] 数据,在单阶段设置中对骨干模型进行微调。
• NaVILA [11]。在 Tuning 的基础上,增加一个辅助的 QA 微调阶段,以改善语言接地。
• 无反馈的 Arcadia。使用与 NaVILA 相同的多阶段设置,但将第一阶段的轨迹替换为 Arcadia 自主收集的任务对齐数据。
• 有反馈的 Arcadia。完整的 Arcadia 框架,其中真实世界的反馈进一步优化导航数据和策略,从而完成从真实-到-模拟-再到-真实的循环。

骨干网络和模拟器。 Arcadia 采用 NaVILA 的分层架构,由用于感知和推理的高级视觉-语言模型 (VLM) 和与机器人 API 接口的底层控制器组成,用于在仿真和真实世界中执行操作。用 Qwen2.5-VL [4] 作为高级 VLM,并使用开源的 Unitree G1 [43] 平台进行具身验证。所有仿真导航数据均以 VLN-CE [20] 格式组织,以便在 Isaac Sim [30] 中进行跨基准测试。

基准测试与评估。用 VLN-CE-Isaac [11]、R2R [1] 和 RxR [21] 对 Arcadia 进行基准测试,涵盖各种指令跟踪设置和视觉领域。还加入 ScanQA [3] 用于面向导航的问答。

VLA 任务

设置。为了评估 Arcadia 在操作任务上的有效性,比较三种配置:
• OpenVLA [18]。基线模型在单阶段设置下进行训练,仅使用与评估环境对应的训练数据集。
• 无反馈的 Arcadia。使用与 OpenVLA 相同的数据规模,但将所有轨迹替换为 Arcadia 仿真流水线生成的操作数据。
• 带反馈的 Arcadia。完整的闭环框架,其中真实世界的反馈进一步优化策略和数据,完成从真实-到-仿真-再到-真实的循环。

骨干网络和模拟器。Arcadia 采用相同的高级视觉语言模型 Qwen2.5-VL [4],并增强 OpenVLA 风格的 7D 动作去token化器。模拟训练在 Isaac Sim [30] 中进行,GRUtopia [45] 机械臂作为具身平台,用于在物理一致的场景中进行交互和数据采集。

基准测试与评估。用两个主要的操控基准测试来评估 Arcadia:LIBERO [23] 和 BridgeData (V2) [44]。为确保兼容性,所有数据集均标准化为 RLDS 格式。评估指标和脚本均与其官方实现保持一致,以确保一致性和公平性。

真实世界实验

如图所示:Unitree G1 机器人从起居室和餐厅到厨房的导航路线。(a) 显示指定路径的平面图。(b) 相同路线的环境三维渲染图。© 沿路径的第一人称视角视图。(d) 第三人称视角视图。
请添加图片描述

如图所示一个具有代表性的案例,用来说明 Arcadia 的操纵行为:
请添加图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐