多智体机器人系统（MARS）挑战的进展与创新

26年1月来自上交、牛津、中科大、上海AI实验室、CMU、港大、同济、UCSD、港中文深圳分校、中山大学和哈佛的论文“Advances and Innovations in the Multi-Agent Robotic System (MARS) Challenge”。近年来，多模态大语言模型和视觉-语言-动作模型的进步显著推动了具身人工智能的发展。随着该领域向更复杂的任务场景过渡，多智体系统框

硅谷秋水

145人浏览 · 2026-02-18 00:15:00

硅谷秋水 · 2026-02-18 00:15:00 发布

26年1月来自上交、牛津、中科大、上海AI实验室、CMU、港大、同济、UCSD、港中文深圳分校、中山大学和哈佛的论文“Advances and Innovations in the Multi-Agent Robotic System (MARS) Challenge”。

近年来，多模态大语言模型和视觉-语言-动作模型的进步显著推动了具身人工智能的发展。随着该领域向更复杂的任务场景过渡，多智体系统框架对于实现可扩展、高效且协作的解决方案至关重要。这一转变主要由三个因素驱动：智体能力的提升、通过任务委派提高系统效率以及实现高级人机交互。为了应对多智体协作带来的挑战，本文提出多智体机器人系统（MARS）挑战赛，该挑战赛将在NeurIPS 2025 SpaVLE研讨会上举办。比赛聚焦于两个关键领域：规划和控制。参赛者将探索如何利用视觉-语言模型（VLM）进行多智体具身规划，以协调任务和策略执行，从而在动态环境中实现机器人操作。通过评估参赛者提交的解决方案，该挑战赛将为具身多智体系统的设计和协调提供宝贵的见解，并有助于未来先进协作人工智能系统的发展。
请添加图片描述

近年来，多模态大型语言模型[34, 35]和视觉-语言-动作模型[2, 15]的进展显著推动了具身人工智能的发展。尽管在特定任务方面已取得显著进展[8, 36]，但该领域正朝着更复杂的任务场景发展，而多智体系统框架在这些场景中变得越来越必要。这种转变主要由三个关键因素驱动：(1) 能力。随着单个智体能力的提升，在多智体框架内扩展这些智体可以构建更复杂、更通用的系统。(2) 效率。单个智体只能执行特定任务，而多智体系统允许智体之间进行任务委派，从而提高整个系统的效率。(3) 人机交互。随着具身多智体系统能力的增强，它们为更高级的人机交互铺平了道路，使具身系统能够与人类在更广泛的任务中协作。

多智体系统中的具身规划。将视觉-语言模型（VLM）集成到多智体系统（MAS）中，使具身规划从僵化的符号逻辑转向语义化的开放世界推理。基于VLM的规划器可以解释自然语言指令、分解任务并推理物理约束。集中式框架，例如COHERENT[22]，可以分解长时程任务并基于异构智体的能力优化资源分配；而分散式方法，例如RoCo[24]和MADRA[38]，则利用VLM进行智体间对话和基于共识的策略制定。一些研究将长时程模型与结构化规划方法相结合，例如依赖图[40]、线性规划[28]和Actor-Critic框架[39]。对于具身智体，Co-ELA[44]集成感知、规划和执行组件，而COMPASS[18]则利用视觉验证和结构化通信来处理部分可观测性和执行失败。与此同时，用于协作评估的具身多智体基准测试也在不断发展。在二维领域，LLM-Co [1] 和 Overcooked [6] 侧重于策略协调，而 WAH [30] 和 PARTNR [7] 等三维基准测试则关注社交智能和协作视觉规划。RocoBench [25] 和 FurnMove [11] 则用于评估多智体操作能力。诸如 LLaMAR [27] 和 VIKI-Bench [12] 等更广泛的框架，将规划和操作任务相结合，为评估树立新的标准。

多智体系统中的机器人操作。专用策略架构[10, 13, 19, 20, 21, 37, 41, 43]通常在定义狭窄的任务上表现出色，但难以迁移到新的机器人形态和新的环境中。相比之下，基于百万级规模多机器人语料库训练的基础模型展现出强大的零样本迁移能力：RT-1[5]将视觉、语言和动作整合到一个Transformer模型中，用于实时厨房操作；RT-2[4]联合微调基于网络和机器人数据的大型视觉-语言模型，以支持语义规划和对象推理；基于扩散的RDT-1B[23]和π0[3]从超过一百万个回合中学习各种双臂运动。诸如 OpenVLA[15] 和 CogACT[17] 等视觉-语言-动作系统，以及 Octo[29]、LAPA[42] 和 OpenVLA-OFT[14] 等改进系统，进一步展示跨机器人和不同感知模态的高效微调能力。这些结果共同指向一个数据驱动的瓶颈：稳健的跨任务泛化依赖于能够忠实捕捉真实世界外观、感知和物理特性的大型、多样化且高保真的数据集。除了以单智体为主的范式之外，近期的研究也开始探索多智体机器人操作。诸如 RoboBallet[16]、RoboFactory[31]、RoboTwin[9] 和 RoboOS[32] 等系统探索用于多-臂环境下数据采集和策略学习的可扩展基础设施，并着重强调协调、同步和协同执行。值得注意的是，RoboBallet [16] 提出一种基于图神经网络的强化学习框架，用于在障碍物密集的共享工作空间中对多个机械臂进行联合任务分配、调度和无碰撞运动规划。RoboFactory [31] 引入一个用于多智体协作的结构化基准测试，从而能够系统地评估各种任务组合和机器人配置下的协作操作。基于这些研究成果，MARS挑战赛提供一个针对常见任务的具身多智体操作基准测试，进一步促进对协同多智体机器人系统的评估和开发。

要实现具身系统，需要两种关键能力：规划和控制。规划负责确定实现特定目标所需的行动顺序，同时考虑环境的动态性和不确定性[18]。另一方面，控制则通过确保每个智体以协调高效的方式移动并与物理环境交互来执行这些行动[31]。在具身多智体系统中实现这些能力更具挑战性。与关注单个实体的单智体系统不同，多智体系统需要智体之间的协调、通信和协作才能完成任务，这引入了额外的复杂性。
为了应对这些挑战，本文提出多智体机器人系统（MARS）挑战赛，该挑战赛在NeurIPS 2025视觉、语言和具身人工智能空间研讨会上举行。该竞赛侧重于两个关键方面：规划和控制。它旨在推进机器人领域多智体协作的研究，其中各种类型的智体（例如人形机器人、四足机器人和机械臂）必须协调合作才能在动态环境中完成复杂任务。规划赛道探索多智体具身规划，参赛者使用视觉语言模型（VLM）选择智体，并为包含多个候选机器人的环境中的协作任务定义高级动作序列。控制赛道则侧重于策略执行，要求参赛者在物理上逼真的仿真环境中，对机械臂部署端到端策略，以执行诸如堆叠多个积木之类的操作任务，同时确保在部分可观测性和随机条件下智体之间的稳健协调。挑战赛中利用 VIKI-Bench 提供具身多智体规划任务，从而推进多智体环境下规划策略的评估和开发。

挑战赛描述

多智体机器人系统（MARS）挑战赛旨在通过评估异构机器人系统中的高级规划和低级控制，对具身多智体协作的研究进行基准测试并推动其发展。参赛者需通过两个互补的赛道解决复杂的多智体问题：规划赛道，模型需要根据视觉和语言输入选择合适的智体并生成协作任务的高级动作序列；以及控制赛道，参赛者需要在多个智体上部署控制策略，以在物理上逼真的仿真环境中执行操作任务。通过将规划和控制分开，该挑战赛促进多智体推理和协同执行方面的进步，并深入了解了当前具身多智体方法的能力和局限性。

规划赛道

任务设置和评估

MARS挑战赛的规划赛道旨在评估具有异构具身的多智体系统中的高级具身规划。参赛者需要设计规划器，该规划器能够综合推理自然语言指令和视觉观察结果，选择合适的智体，并生成协调的动作序列。与底层控制不同，本赛道侧重于语义任务理解、智体能力推理以及长时程多智体协调。

给定一条指令和一个场景观察结果，一个有效的解决方案必须能够确定哪些机器人应该参与任务以及它们应该如何随时间推移行动。机器人选择占最终得分的 10%，其余 90% 用于评估生成的动作规划的质量。规划得分采用综合指标计算，该指标考虑精确的步骤匹配、初始动作前缀的正确性、动作类型的一致性以及步长。该协议鼓励尽早做出正确决策、进行连贯的长时程规划以及高效并行执行。

规划赛道基于统一的具身智能栈构建。基于 VIKI-Bench [12] 构建基准测试，该基准测试用于评估多智体环境下基于视觉的具身规划。所有任务均在 ManiSkill 3 物理模拟器 [33] 中实例化。任务场景取自 RoboCasa 数据集 [26]，该数据集提供多样化的家庭环境和日常操作任务。每个任务实例包含一条自然语言指令（可能包含条件描述或探索性描述）以及一个描绘场景和可用机器人的视觉观察结果。规划器输出一个按时间顺序排列的动作规划，其中一个或多个机器人可以并行执行，每个动作均由动作类型和目标对象定义。

该基准测试包含难度各异的任务。简单的任务，例如打开电器，通常可以由单个机器人通过较短的动作序列完成。相比之下，复杂的任务需要多个机器人在较长的时间范围内协同执行。一个典型的例子是 task_147，它指示智体将多个食物物品放入冰箱。最复杂的任务涉及规划多达十个步骤，突出了长期多智体任务。

控制赛道

回合规则

控制赛道旨在评估多智体系统在动态环境中执行复杂任务的协作能力。如图所示，设计四个需要机械臂协作的任务：将立方体放入杯中、击打立方体（难度较高）、三个机器人放置鞋子以及四个机器人堆叠立方体。每个任务都要求智体具备感知和决策能力，以便在部分可观测性和随机性条件下，在瞬息万变的环境中与环境和其他智能体实时交互。
请添加图片描述

在本赛道中，所有机器人均通过关节位置控制进行操作。虽然每个任务可以使用单独的权重集进行评估，但所有解决方案必须采用统一的模型架构，以确保跨任务的一致性。为了支持训练，提供一个专家数据生成流程，用于合成演示数据，该流程可以直接将观测结果映射到动作，而无需单独的高级规划模块。所有任务数据采集均由 RoboFactory [31] 完成，该软件基于 ManiSkill [33] 构建，并专门针对创建复杂的多阶段任务而设计，这些任务需要多个机器人之间进行底层协作控制。

在测试阶段，每个任务将测试 100 次，每次任务成功率的平均值将作为参与者的得分。参与者可以采集无限量的数据，并可自由设置相机位置和数据模态（RGB、深度、点云）。为确保评估的公平性，所有测试时的随机种子在整个过程中均保持匿名。此外，最终的推理模型在单个 RTX 4090 GPU 上运行，从而强制执行标准化的计算约束。

规划赛道

两个在排行榜上名列前茅的代表性解决方案如下。

这两种方法都展现强大的长远推理和多智体协调能力，但采用不同的策略来应对挑战。

1）通过自校正扩展具身规划（冠军）。该方案引入一个自校正框架，通过显式地利用视觉-语言模型（VLM）的创造性和迭代改进能力来扩展具身规划能力。如图所示，该方法并非依赖于单一的确定性规划过程，而是将规划视为一个演化过程，通过生成、评估和达成共识来不断改进候选解决方案。
请添加图片描述

该方法的一个关键洞见是，多智体具身规划通常存在多个有效解决方案，而强制进行单次推理可能会使模型陷入次优的局部最优解。为了解决这个问题，该框架执行多次随机推理以生成多样化的候选方案，然后应用投票机制来选择共识解决方案。这种“三思而后行”的策略显著提高在涉及智体异质性和复杂分配的场景中的鲁棒性。

此外，该方法通过自校正数据生成流程解决数据稀缺和任务异质性问题。规划器从少量人工标注的种子任务出发，生成备选方案，随后由一个裁决VLM进行评估。高质量的方案被保留下来，并通过监督式微调迭代地改进规划器。这种闭环数据扩展过程使模型能够逐步适应不同的任务分布，而无需大规模的人工标注。总而言之，该自校正框架表明，结合创造性生成、共识推理和迭代数据改进，可以显著提升多智体在模糊性和非唯一解空间下的规划性能。

2）用于多智体协调的模块化闭环框架（亚军）。该方案采用一种互补的理念，侧重于结构分解和显式符号基础。与依赖单一规划器不同，该方法将多智体规划构建为一个由专用功能模块组成的闭环系统，每个模块负责不同的推理角色，从而实现更高效、可扩展的协调，如图所示。
请添加图片描述

具体而言，该框架将智体选择、动作排序和计划验证分离为三个相互依赖的专用组件。激活模块首先根据任务指令、视觉观察和预定义的机器人能力先验进行推理，以选择合适的智能体子集。基于这些已激活的智体，规划模块在显式的实现约束下生成时间上连贯、优化且并行化的动作序列。最后，监控模块验证生成的计划的句法有效性、能力一致性和逻辑可行性，并在检测到不一致或冲突时提供纠正性反馈。

这种模块化设计缓解单模型规划器中常见的认知过载问题，并减少因域错位而导致的错觉。通过显式编码机器人能力并强制执行动作之间的因果依赖关系，该框架确保生成的规划在仿真环境中可执行。此外，规划和验证之间的闭环交互实现迭代优化，从而提高系统在长周期任务中的鲁棒性。MAS-Plan框架展示将复杂的具身规划分解为可解释和可验证的推理阶段，从而有效应用于异构多智体系统。

控制赛道

控制赛道上的两个解决方案如下。

两种方法均展现在连续控制下进行语言条件化的多-臂操作和协调的强大能力，同时采用不同的策略来处理各种任务中的组合协作。

1）Combo-MoE：用于多臂协调的组合专家（冠军方案）。冠军方案是 Combo-MoE，它是一种组合专家混合（MoE）架构，能够实现可扩展的多臂协作操作。该方案基于多臂协调本质上是离散和组合的原理。如图所示，Combo-MoE 通过为所有非空臂组合实例化特定子集的专家来分解多臂动作空间，从而为 N 个臂生成 2N − 1 个专家。每个专家专注于特定臂子集激活时的行为，范围从单臂基本技能到更高阶的协调模式，例如交接、共享对象操作和碰撞感知协作。这种结构化分解保留模块化特性，避免手动任务分解。
请添加图片描述

该策略基于预训练的视觉-语言模型 (VLM) 构建，该模型将语言指令（例如，“抓住牛排并用相机拍照”）和多视角 RGB 观测值编码到一个统一的潜空间中。所有专家共享的骨干网络确保基于语义表征的一致性推理，从而实现跨任务和机械臂配置的有效技能复用。随后，应用模块化的路由器-适配器 MoE 层作为动作头。路由器预测子集专家的非互斥激活权重，允许多个专家（例如，单臂和多臂协调专家）同时处于激活状态。然后，适配器执行每个机械臂的动作融合，选择性地组合专家输出以生成连贯的多臂动作序列。这种设计避免简单的平均，并允许策略根据任务上下文动态平衡独立控制和紧密协作。

为了使学习与组合架构保持一致，该解决方案采用三阶段训练策略。首先，它执行个体专家预训练，其中每个子集专家都通过行为克隆的方式，在由主动机械臂筛选出的演示数据上进行训练。其次，它进行路由器-适配器学习，其中所有专家被冻结，并对MoE层进行微调，以选择和组合专家，从而实现完整的多臂行为操作。最后，它对专家和MoE层进行联合微调，从而在保持专家专业性的同时，实现协作任务之间的适应性调整。

Combo-MoE为协作操作提供一种可扩展、模块化且可解释的解决方案。通过使策略显式化和可学习，该方法显著降低学习复杂度，并为在复杂的多-臂系统中扩展机器人操作提供一条有前景的途径。

2）CoVLA：基于去中心化操作的协作视觉-语言-动作（亚军）。亚军方案提出一种用于多机器人操作的协作视觉-语言-动作（CoVLA）方法。如图所示，该框架将协调视为一个去中心化的、基于博弈论的信息共享和奖励塑造问题。CoVLA 并非学习集中式的联合策略，而是将协作分解到独立控制的机器人上，每个机器人运行其自身针对特定任务的 VLA 策略。这种设计直接解决复杂、受语言条件影响的多机器人操作场景中语义任务理解和协调的挑战。
请添加图片描述

CoVLA 构建于 π0 [3] 基础模型之上，其中每个机械臂运行一个针对其特定子任务的独立微调实例。利用 π0 的预训练骨干网络，每个智体都继承强大的语义、空间和时间推理能力，使其能够理解复杂的指令，例如多阶段或条件任务描述。与依赖底层状态表示的基于扩散策略相比，CoVLA 以降低联合可控性为代价，提供更丰富的语义基础，而这种可控性可以通过针对特定任务的微调来缓解。

在CoVLA中，协调是通过环境介导的空间通信实现的，而非显式的智体间消息传递。每个智体都通过自身的第三人称视角观察共享工作空间，使得一个机器人的动作所引起的环境变化能够被其他机器人隐式感知。这种共享的视觉基础实现跨越空间和时间的稳健协调，例如同步物体放置和攻击动作，或在协作操作过程中避免碰撞，同时保持了去中心化的执行方式。

每个特定任务的VLA都使用从其自身视角收集的角色特定演示数据进行独立训练。每个智体训练数据中的奖励机制既鼓励正确的任务排序（例如，在行动前验证条件），也鼓励精确的操作，并利用训练期间的特权信息来提高部署时的鲁棒性。这种分布式框架允许每个智体专注于其分配的操作角色，同时通过共享的视觉上下文与全局任务保持一致。

总而言之，CoVLA 提供一种去中心化的多机器人协作方法，它将预训练的视觉语言推理与环境介导的协调相结合。CoVLA 通过用具有共享视觉基础的独立视觉-语言-动作 (VLA)模型取代集中式联合动作建模，实现针对语言条件化的多机器人操作任务的灵活、可扩展的协作。这使其成为集中式组合策略架构的有力补充。