具身智能中的生成多智体协作:系统性综述
25年2月来自同济大学、华东师范和慕尼黑工大的论文“Generative Multi-Agent Collaboration in Embodied AI: A Systematic Review”。具身多智体系统(EMAS)因其在物流和机器人等领域应对复杂现实挑战的潜力而备受关注。基础模型的最新进展为能够进行更丰富通信和自适应问题解决的生成式智体铺平了道路。本文系统地探讨EMAS如何从这些生成能
25年2月来自同济大学、华东师范和慕尼黑工大的论文“Generative Multi-Agent Collaboration in Embodied AI: A Systematic Review”。
具身多智体系统(EMAS)因其在物流和机器人等领域应对复杂现实挑战的潜力而备受关注。基础模型的最新进展为能够进行更丰富通信和自适应问题解决的生成式智体铺平了道路。本文系统地探讨EMAS如何从这些生成能力中获益。本文提出一种分类方法,根据系统架构和具身模式对EMAS进行分类,并强调协作如何跨越物理和虚拟环境。随后,分析感知、规划、通信和反馈等核心构建模块,以说明生成技术如何增强系统的鲁棒性和灵活性。通过具体实例,其展示将基础模型集成到具身多智体框架中所带来的变革性影响。最后,讨论挑战和未来发展方向。
具身多智体系统(EMAS)因其在智能交通、物流和制造等领域的巨大潜力而备受关注[YJ+13, IS+18]。EMAS 通过将物理实体(从自动驾驶车辆到机械臂)与多智体系统(MAS)[DKJ18] 相集成,提供一种去中心化的协作方法,能够以卓越的效率处理复杂任务。尽管 EMAS 具有这些优势,但设计和实现有效的 EMAS 仍然是一项艰巨的任务,通常需要控制论方面的专业知识、大量的训练数据以及精心设计的强化学习范式[LB08, OD23]。
在传统的 MAS 中,智体通过分工协作、共享状态信息以及共同适应动态环境来实现协作[DKJ18]。虽然这些原则在某些领域取得显著的成功,但传统方法在泛化到新任务[MS+22]、扩展到大规模智体群体[CTE+22]以及应对意外的环境变化[WR04]方面仍面临严峻的挑战。它们通常依赖于训练范围狭窄的模型,这些模型可能较为脆弱或局限于特定领域[YZ+23]。这些不足凸显开发更灵活、更稳健的解决方案的迫切性,这些解决方案能够在开放且快速变化的具身场景中蓬勃发展。
基础模型(FM,例如大语言模型 LLM,或视觉-语言模型,VLM)[ZLL+24]的最新突破为推动多智体系统(MAS)向更具适应性和生成性的行为发展开辟新的途径。通过赋予智体自然语言能力、上下文推理能力以及生成新解决方案的能力,基于基础模型的多智体系统超越纯信号驱动或强化学习框架的一些固有局限性[GCW+24, CLH+24, LP+24]。这些“生成型智体”能够以语义丰富的方式进行交流,以人类水平的流畅度进行协作,并能够快速调整策略以应对不可预见的挑战。因此,基于基础模型(FM)的智体有望改变多智体协作的展开方式——无论是在由具身设备构成的物理空间,还是在智体共享抽象知识和任务的虚拟空间。
在此背景下,具身多智体系统(EMAS)领域有望从基础模型(FM)的最新进展中获益。通过将物理具身性与生成式多模态智能相结合,未来的系统可以拥有更广阔的设计空间,涵盖复杂的感知、高级语言和视觉推理以及自适应决策。然而,现有的关于具身人工智能和多智体系统的文献综述通常将这些领域孤立地看待,导致它们交叉领域存在关键的空白[IS+18, DYT+22, GCW+24, MS+24, HRS24]。如何将基于基础模型的生成式智体最佳地集成到EMAS中,目前仍缺乏系统性的探讨。
如图所示:

具身多智体的协作架构如图所示。本文重点探讨生成式多智体系统如何利用多个具身实体之间的外部协作,或单个具身实体内部多个基础模型 (FM) 之间的内部协作。此外,还将介绍结合这些策略以满足不同系统需求的混合方法。目标是系统地理解如何协调多智体协作,从而最大限度地提高适应性、可扩展性和任务一致性,尤其是在与FM集成时。
外部协作
在多个具身实体之间展开协作的场景中,即外部协作,智体通过物理或虚拟交互来实现共同目标。借鉴长期积累的多机器人和传统多智体系统(MAS)文献,外部协作可以采用集中式或分散式策略进行组织。这些方法在可扩展性、通信开销以及全局控制与局部控制等方面各有优劣。
集中式架构:在集中式策略框架中,一个统一的模型控制多个机器人或智体,实现集中式任务分配和决策。集中式模型根据智体的能力和系统目标分配任务,并通过提供全局视角确保智体之间的协调。已有研究探索基于语言(LTW+24、OA+24、CYZ+24)和基于代码(KVM24、ZQW+24)的任务分配方法。
集中式模型在决策中也发挥着关键作用,它综合所有智体的信息做出最终决策,确保决策的一致性。例如,[YKC23]采用一种集中式去中心化架构。在去中心化策略中,每个模型独立控制其对应的具身实体,从而提供更大的灵活性和可扩展性。早期研究使用强化学习进行去中心化控制,但基础模型(FM)的兴起使得智体能够自主处理各种任务[CJ+24],从而形成更先进的去中心化系统。
去中心化架构:在去中心化策略中,每个模型独立控制其对应的实体,从而提供更大的灵活性和可扩展性。早期研究使用强化学习进行去中心化控制,但FM的兴起使智体能够自主处理各种任务[CJ+24],形成更先进的去中心化系统。
基础模型通过利用推理能力来增强去中心化系统,从而改进基于局部部分观测的个体决策。例如,[ZWL+24]利用世界模型来辅助多智体规划,其中每个个体通过世界模型预测其他智体的行为并推断自身的规划。类似地,[AF+23]引入一个辅助的心理理论推理基础模型来解释伙伴智体的行为和需求,从而支持个体决策。
此外,凭借FM的推理和通信能力,基于FM的智体展现出涌现的社会性。 [CJ+23] 的研究表明,当没有明确指示采用何种策略时,基于 FM 的智体主要遵循平均策略,这体现智体之间较为平等的组织结构。其他研究 [GHL+24, CJ+24] 则强调了团队内部更结构化的角色所带来的潜在益处。这表明,与人类社会结构类似,FM 智体可以通过适应组织框架来展现涌现行为,从而优化协作,增强其集体应对复杂任务的能力。
内部协作
外部协作涉及多个机器人和具身实体,而内部协作则发生在单个系统的内部结构中,该系统可能包含多个基础模型(FM)。这一概念与近期推动各种FM之间协作工作流程的趋势相契合,这些模块各自承担不同的角色,共同处理日益复杂的任务。这种内部协调扩展传统的多智体协调概念,其重点在于单个具身实体内部的统一决策。
在此工作流程中,每个FM都承担特定的功能或角色,以协作完成任务。研究已将此范式应用于具身学习系统,例如[QZL+24],它使用规划器、控制器和执行器等模块在Minecraft沙盒中解决任务;以及[SSY+24],它将任务分解为观察者、规划者和执行者角色。 LLaMAR [NO+24] 也采用一种无需预言机或模拟器的“计划-执行-纠正-验证”框架进行自我纠错。
内部协作可以通过提高规划的准确性、安全性和适应性来改善系统功能。例如,[LY+23] 使用基于 FM 的快速思维和慢速思维进行协作规划的生成和评估,而 LLaMAC [ZMR+23] 则采用多个critics和一个 assessor来提供反馈并提高鲁棒性。
混合协作架构
在许多实际应用中,严格区分外协作和内协作既不实际也不有利。相反,混合协作架构结合这些策略,以充分利用集中式、分散式和内部 FM 工作流程的优势。随着具身任务复杂性的增加,灵活地混合不同级别的协作(无论是在机器人之间还是在智体的内部结构中)变得越来越重要。
内部协作通过模块化FM 增强模型能力,并可应用于集中式和分散式系统。例如,CoELA [ZDS+24] 使用感知、记忆、通信、规划和执行五个模块,而 [YPY+24] 则构建具有观察、记忆和规划模块的智体,用于分散式机器人协作。集中式模型也可以使用模块化FM,例如 [WTL+24],它采用任务功能模块和动作功能模块进行任务分配。
集中式和分散式策略可以结合使用,任务的不同阶段可以采用不同的方法。受多智体强化学习 (MARL) 中集中式训练与分散式执行 (CTDE) 框架的启发,[CYZ+24] 和 [ZC+24] 提出集中式规划与分散式执行相结合的方法,其中全局规划指导任务执行,最大限度地发挥全局监督和局部自主性之间的协同作用。通过展示这些不同的架构,阐明实践者如何在EMAS中有效地协调不同粒度和控制级别的多智体协作。
下面讨论驱动具身智体之间有效团队合作的功能性构建模块。具体而言,重点阐述如何设计感知、规划、通信和反馈机制,以充分利用基础模型(FM)的生成能力。通过关注这些关键模块,展示具身多智体系统(EMAS)解决方案如何更稳健地解读物理环境、制定和调整计划、交换信息,并从自身行为和环境本身中迭代学习。这种方法是对先前介绍的协作架构的补充,为实现具身智体之间动态且情境感知的协作提供更精细的视角。
下表是代表性工作:
感知
尽管生成模型可以从文本和视觉中提取语义知识,但具身智体必须主动感知和解读物理世界。这需要处理三维结构、动态条件和实时交互[LCB+24]。因此,感知模块至关重要,因为它将详细的环境特征传递给后续模型,确保生成能力建立在切实的上下文之上[PH+24]。
面向FM的物理感知。为FM提供物理上下文的最简单方法是提供环境的语言描述。虽然此类提示可以手动编写,但许多方法都使用自动化工具来增强语言描述。例如,一些研究[MJ+24, CZR+23]使用视觉模型来检测和描述物体,而另一些研究[BCF+23, HW+23]则采用affordance学习来增强FM对物体在物理环境中如何操作的理解。除了被动接收信息之外,最近的研究还使智体能够决定何时以及观察何种类型的信息,从而促进主动感知。例如,[QZL+24]允许功能模型查询一个经过微调的模型,以获取环境细节;响应信息用于逐步构建场景描述。
协同感知。在多智体系统中,协同感知旨在融合来自不同智体的互补感官输入,从而提升整体性能[YYZ+23]。在自动驾驶或无人机编队中,这通常通过传感器级数据共享或输出级融合来实现[SRC24]。在基于FM的系统中,协同智体可以通过聚合每个智体的局部地图或视觉数据,共同构建环境的全局记忆。例如,[YKC23]融合从多个智体的RGBD输入中提取的语义地图,而[TXL+20]则利用每个智体观测结果的3D重建,形成共享环境的整体3D状态和语义记忆。
规划
规划是多智能体具身系统的核心模块,它使智能体能够根据自身状态、目标和能力进行策略制定。有效的规划对于任务分配、协调以及无缝集成生成式功能模型的能力至关重要。
规划格式。规划方法通常采用基于语言或基于代码的格式。基于语言的规划使用自然语言来指导任务流程,从而实现直观性和易于适应性,尤其是在高级FM出现之后[MJ+24, YKC23]。相比之下,基于代码的方法利用结构化编程或域特定符号(例如,PDDL)来实现更高的精度。[KVM24] 使用 Python 代码来构建整体任务流程,而 [ZQW+24] 将任务转换为 PDDL 问题,以便分配给多个机器人。
规划过程。除了个体决策之外,多智体协作还需要共识建立、冲突解决和资源共享。在集中式系统中,通常由单个模型来分配子任务。例如,[LTW+24] 基于每个智体的能力生成动作列表,[OA+24] 集成基础模型和线性规划来解决任务划分问题,而 [CYZ+24] 利用“机器人简历”进行基于FM的任务分配讨论。
在去中心化系统中,智体直接通信以优化其集体规划,并由强大的信息交换机制提供支持。
通信
通信是多智体系统 (MAS) 的核心,它使智体能够共享上下文更新、协调任务并达成共识。与需要精心设计通信协议的传统方法不同,生成式智体可以利用FM 的零样本语言生成能力,从而降低构建高效通信接口的复杂性。
根据 [SWJ+22] 的分类,将具身人工智能中的多生成式智体通信模式分为三种主要结构:
• 星型:虚拟中央智能体控制消息流,向其他智能体广播计划或指令。许多集中式架构的研究都探索了这种方法 [KVM24, YKC23]。
• 全连接 (FC):每个智体都与其他智体自由通信,利用FM驱动的消息。例如,[MJ+24] 使用两个机械臂之间的 FM 对话来协调操作任务。在 CoELA [ZDS+24] 中,每个智体通过记忆检索来引用当前状态信息,并通过 FM 生成通信内容。
• 层级结构:领导结构的出现可以提高可扩展性并降低通信开销。[CJ+24, LYZ+24, GHL+24] 展示领导角色如何引导或过滤通信,从而提高效率和结果。
反馈
具身任务复杂且充满不确定性,因此反馈机制对于智体的改进至关重要。反馈使智体能够调整和优化行为,从而基于当前状态、环境变化或外部指导进行持续学习。
系统反馈。系统反馈是指在采取行动之前内部生成的信息。这涉及智体或集中式模型重新审视其初始计划,以识别缺陷或潜在的改进。多项研究[LZD+24, CYZ+24, ZMR+23]在规划生成后实现了多智体讨论阶段,通过同伴反馈来完善行动列表。[CAD+24]和[ZQW+24]采用FM检查器来验证基于代码的规划,确保语法正确性。同时,[ZYB+24]设计优势函数来评估和迭代地完善规划,而[LY+23]应用一个FM来预测计划后果,随后应用另一个FM来评估计划质量,从而驱动迭代改进。
环境反馈。环境反馈在物理(或模拟)世界中执行行动后出现。许多研究记录真实世界的结果以指导未来的决策。例如,[LTW+24]和[YPY+24]将行动结果存储在内存中以供未来规划参考,而[QZL+24]和[NO+24]评估失败的根本原因并相应地调整其行动规划。此外,多智体组织结构可以根据环境信号在任务执行过程中进行重新配置。[CSZ+23] 动态更新角色,而 [GHL+24] 则采用批判性 FM 算法来评估智体的性能,甚至可以重新组织领导层。
人类反馈。外部人类指导可以提供纯粹自动化系统无法实现的细致干预和战略方向。例如,[PL+23] 可以识别需要人工协助的模糊或不可行的任务指令,而 [WHK24] 和 [RDB+23] 则集成保形预测来衡量任务的不确定性并触发人工协助请求。除了请求协助之外,[CK+23] 和 [SH+24] 还允许操作员通过语音指令实时调整机器人动作,从而提高任务成功率。
总之,感知、规划、通信和反馈是实现高层次协作架构并最终转化为实用、生成式多智体解决方案的基础支柱。无论智体是通过分布式配置进行外部协作,还是通过单个具身系统中的多个FM进行内部协作,强大的支持模块都能确保系统在现实世界环境中的适应性和韧性。
基于架构和FM,下面探讨生成式多智体协作如何从受控仿真环境过渡到实际应用。尽管许多进展已通过虚拟平台验证,但这些仿真洞见为解决智能交通、家用机器人和具身问答等复杂问题奠定了基础。
代表性工作如下表所示:
仿真平台
仿真环境作为测试设计的关键层,使研究人员能够在不承担实际运营成本或风险的情况下,系统地改进智体交互。
网格世界范式。网格世界以基于单元的结构为特征,专注于决策和路径规划,同时抽象化物理细节。通过采用基于FM的转换器-检查器框架,[CAD+24] 提高多智体在网格任务上的性能,而 [ZMR+23] 引入反馈机制来增强网格交通。 [CAZ+24] 在网格设置中进一步评估各种基于 FM 的多机器人架构,强调这些简化的场景如何有助于快速验证协作设计。
基于游戏的协作场景。诸如 Overcooked 之类的游戏平台提供清晰的规则、时间限制以及智体之间的强制协调 [YJ+24, AF+23, ZYB+24]。FM 协调扩展到其他结构化游戏,例如 Hanabi 和 Collab Games,表明生成式方法可以适应各种基于团队的挑战。对于更开放的任务,Minecraft [WXJ+23, PC+24] 通过更大的环境和不确定的目标进一步拓展其应用范围。最近的研究 [PC+24, ZC+24, QZL+24] 侧重于协作探索,而其他研究 [CJ+24, CSZ+23, ZMC+24] 则致力于资源收集或结构构建。
高级 3D 环境和机器人仿真。逼真的模拟器旨在更紧密地模拟现实生活的复杂性。AI2-THOR [KM+17] 提供精心渲染的室内场景,并用于多智体家庭任务 [KVM24, WHK24, LLG+22, SSY+24]。类似地,VirtualHome-Social [GHL+24]、BEHAVIOR-1K [LTW+24] 和基于 Habitat 的基准测试 [CYZ+24] 使智体能够开发在物体操作和导航方面的协作策略。这些平台有助于弥合算法开发和物理部署之间的差距。
新兴应用
凭借经过验证的架构和强大的功能模块,研究人员已经开始面对最终的挑战:将模拟器学习成果转化为可行的物理部署。从智能交通到家用机器人。
智能交通与配送:智能交通领域的多智体协作涵盖无人机/无人地面车辆(UAV/UGV)在货物配送和环境监测中的协调。早期方法主要利用多智体强化学习(MARL),但基于FM的解决方案正在涌现。[GW+24] 探索基于 FM 的监视任务初始任务分配,[WTL+24] 应用生成模型来分配跟踪目标,表明语言引导策略可以快速适应动态场景。
家庭辅助机器人:许多 3D 仿真基准测试,包括 AI2-THOR 和 Habitat,最初都是为了模拟家庭环境而设计的。诸如“收拾餐桌”或执行“打开台灯和落地灯并看电视”之类的指令等家庭任务需要强大的感知、规划和通信能力。研究 [KVM24, WHK24, LGZL24, MJ+24, ZYB+24] 展示了多个智体如何共享角色、理解指令并划分复杂任务。生成模型进一步简化协调,实现了自适应任务分配和更丰富的人机交互。
超越探索:具身问答。具身问答 (EQA) 涉及在三维空间中进行主动探索和推理。与强调物理交互的任务不同,EQA 侧重于信息的收集和解释,通常需要对空间布局、物体关系或事件历史有深入的理解。多智体通常利用基于团队的感知来实现全局记忆和共识 [TGG+23, TXL+20, PD+24]。[CZR+23] 将具有特定功能的智体定位以贡献关键信息,展示 FM 驱动的协作如何将观察结果整合为连贯的答案。
本文强调 EMAS 的一个关键发展方向:利用结构化测试平台进行概念验证,然后将解决方案过渡到高风险领域。
随着具身人工智能系统中多智体协作领域的不断发展,仍然存在一些尚未解决的挑战和充满前景的未来方向。尽管取得了一些进展,但现实世界中仍然存在诸多障碍,限制了嵌入式系统的应用。
基准测试与评估。一个主要挑战是缺乏标准化的评估标准。虽然在对单个智体和单智体系统进行基准测试方面已经取得了显著进展,但在对具身多智体协作进行评估方面仍然存在明显的差距。现有的基准测试侧重于特定任务的指标,而未能考虑多智体环境中出现的交互、协调和涌现行为的复杂性。
数据收集与异构性。多智体协作面临的另一挑战是具身系统的数据稀缺性和异构性。收集具有不同物理特性和能力的各种系统的大规模高质量数据是一项艰巨的任务。硬件、传感器和环境交互的差异会导致数据不一致,使得跨系统和任务的泛化变得困难。可用的真实世界数据可能有限,阻碍有效的训练和评估。
具身人工智能的基础模型。基础模型的开发,特别是针对具身智体的基础模型开发,有望成为多智体协作领域的一项变革性突破。目前,生成式智体主要依赖FM来执行复杂任务,因此,下一步自然是构建专为具身系统设计的基础模型。这些模型作为多智体协作的核心框架,整合感知、决策和行动。近期的一些研究,例如RT-1 [BB+22] 和RDT [LW+24],在构建适应性和可扩展系统的机器人基础模型方面取得了显著进展。基础模型的演进将为更无缝的多智体协作奠定基础,使智体能够在动态环境中具备全面的能力和团队协作能力。
智体的可扩展性。目前,参与协作的多智体系统中的智体数量仍然较少。增加智体的数量将导致计算、通信、协调、任务分配和资源管理的复杂性和难度增加。此外,在大规模多智体系统中保持稳定性和鲁棒性需要复杂的编排和协调技术。
以人为中心的协作。将机器人集成到以人为中心的环境中仍然是一个关键课题。在许多应用中,多智体系统不仅需要彼此协作,还需要与人类协作。为了确保机器人能够在动态和非结构化环境中与人类无缝协作,需要开发考虑人类认知能力、偏好和局限性的人机交互(HRI)协议。
理论基础与可解释性/当前具身多智体协作的研究方法,特别是涉及FM的方法,往往缺乏坚实的理论基础。尽管在开发实用系统方面取得了显著进展,但对于支配智体交互的底层原理和集体智能的理解仍然非常有限。
更多推荐

所有评论(0)