25年10月来自香港科技大学(广州)、南方科技大学、上海交大和其他学校的论文“Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks”。

人类拥有空间推理能力,能够通过视觉和听觉等多模态信息理解空间。大型多模态推理模型通过学习感知和推理来扩展这些能力,并在各种空间任务中展现出良好的性能。然而,针对这些模型的系统性综述和公开可用的基准测试仍然有限。本文对大型模型的多模态空间推理任务进行全面的综述,对多模态大语言模型(MLLM)的最新进展进行了分类,并介绍了用于评估的开放基准测试。首先概述通用的空间推理,重点关注训练后技术、可解释性和架构。除了经典的二维任务之外,还考察空间关系推理、场景和布局理解,以及视觉问答和三维空间定位。此外,回顾具身人工智能的最新进展,包括视觉-语言-导航和动作模型。最后,还考虑音频和以自我为中心的视频等新模态,这些模态通过新传感器促进空间理解。


请添加图片描述

。。。继续。。。

具身人工智能被认为是通往通用人工智能(AGI)的关键途径[185]。多模态语言模型(MLLM)的快速发展使其成为具身智体核心推理模块的理想候选者。具身智体的许多核心智能——例如几何推理、导航和视角转换——都以空间推理能力为基础[186-188]。如图所示基于MLLM的具身智体在当前主流任务(包括视觉-语言-动作(VLA)、视觉-语言-导航(VLN)和其他具身人工智能任务)中的多模态空间推理能力:
请添加图片描述

VLA模型中的多模态空间推理

VLA模型利用视觉-语言基础模型作为主干,从多模态输入(通常是视觉观察和语言指令)生成可执行的动作。这些系统通常包含中间推理步骤,这些步骤可能隐含在架构中,也可能通过模块化设计显式实现。OpenVLA [189] 和 π0 [190] 等开创性工作采用端到端范式,将视觉-语言模型 (VLM) 训练为反应式策略,以从大规模演示中预测底层控制动作。其他研究 [45, 191] 将任务分解为由反应式控制器或底层 VLA 执行的自然语言子任务,而一些框架则引入了中间阶段,例如affordance或目标状态预测,然后进行运动规划以生成动作。

无论控制表示如何,空间推理仍然是这些系统的核心。为提升VLA的空间理解能力,研究工作通常遵循三个方向:1. 整合空间信息丰富的传感器模态(例如深度图、点云)以丰富空间上下文;2. 采用多任务预训练或协同训练方案,以隐式地促进空间推理;3. 引入显式推理步骤。

  1. 空间信息丰富的输入模态:如表所示,一些研究通过整合空间信息丰富的模态(例如深度图和 3D 点云)来增强 VLA 模型的空间理解能力。这些额外的输入弥补 2D 视觉数据的局限性,后者通常缺乏推理 3D 空间物理交互所需的几何线索。
    请添加图片描述

这些方法在利用更丰富的空间感知进行动作预测方面展现出潜力,但仍面临挑战。一个关键的限制是,与视觉语言语料库相比,大规模数据集非常稀缺[192, 194],这促使人们使用合成数据[44]或利用预训练模型(例如SpatialVLA[193])来填补缺失的模态。然而,这些近似方法通常性能不佳。此外,在二维视觉-语言数据上进行大规模训练的模型仍然总体领先[6, 45, 190],这表明要充分利用额外的模态,需要有针对性的预训练和更高效的数据架构。

2)多任务预训练和协同训练:增强 VLA 模型空间理解能力的另一个主要方法是修改训练方案,使其包含隐式鼓励空间推理的辅助任务,例如具身问答或 3D 边框检测,如表所示。
请添加图片描述

对空间推理任务进行预训练和协同训练是提升VLA模型泛化能力的有效方法。然而,这种方法并非没有挑战。它需要访问庞大且多样化的数据集,并需要谨慎地平衡多个训练目标。尽管如此,一旦克服了这些挑战,它仍然是构建高性能VLA模型的核心策略。

3)显式推理:第三条研究路线通过在动作生成过程中引入显式推理步骤来增强VLA模型的空间推理能力。与直接将输入映射到动作的反应式策略[139, 189, 190]不同,这些模型融合结构化的中间表示和多步骤推理,以便在执行动作之前解释空间关系并规划子任务。推理增强模型通过显式建模中间步骤(例如目标选择、空间关系和动作规划),提高空间任务的鲁棒性、泛化能力和可解释性。这种结构化推理有助于策略比纯粹的反应式基线模型更有效地处理新的目标、场景和指令。虽然早期方法引入大量的推理开销,但较新的系统通过选择性推理和异步流水线缓解了这一问题。这些趋势表明,显式推理的优势可以在不造成过高延迟的情况下得以保留,这使得此类模型越来越适用于实际部署。

  1. 基于视觉语言主网的多模态空间推理:许多当前的VLA模型都是基于VLM进行微调或直接使用VLM作为骨干网。这些VLA据称能够有效地继承这些预训练模型的先验知识。为了定量评估上游VLM在机器人任务中的潜力,收集已在VLA中使用的开源VLM,并在与具身场景相关的空间推理基准测试中对它们进行评估。

针对这些基准测试数据集,对VLA中使用的几种VL主干网络进行实验。如表所示,这些主干网络显然展现出一定的空间推理能力。这也是为什么这些模型在机器人数据集上进行微调后,能够在下游应用中取得优异性能的原因。
请添加图片描述

VLN模型中的多模态空间推理

VLN[205]是一种协作式多模态任务,其中智体在模糊的上下文环境中,通过遵循人类指令和进行交流来导航三维环境。它包含四个关键组成部分:视觉感知、语言理解、决策和导航执行——所有这些都需要强大的空间推理能力。在感知阶段,智体必须确定自身位置,解释物体之间的空间关系,并规划一条高效的路径。最后,它基于这些空间决策执行导航规划。

  1. 视觉环境理解和泛化:对于VLN智体而言,感知和解释周围环境、预测行为如何改变环境以及将感知和决策与自然语言指令保持一致至关重要。这需要理解空间布局、在三维空间中确定自身位置、估计目标和地标之间的距离、保留空间信息以及跟踪环境随时间的变化。这些能力共同依赖于强大的空间推理能力,而强大的空间推理能力是成功完成复杂的视觉语言导航任务的基础。

现有的具身场景感知方法通常依赖于 3D 或 2.5D 数据来增强空间感知,如表所示。为了更好地利用视觉输入,许多方法通过多视图感知、深度图像或场景图显式地保留空间特征。
请添加图片描述

对于VLN智体而言,准确的感知、稳健的空间推理以及跨不同视觉场景的泛化能力至关重要。如图所示,近期研究强调结构化的 3D 表示,例如场景图、BEV地图和多视图记忆,作为连接感知、推理和规划的有效工具。视觉特征与语言输入的匹配仍然是一个关键挑战,尤其是在不熟悉的视角或领域转换的情况下。
请添加图片描述

2)人类意图解读和指令理解:VLN 智体需要理解人类在特定情境下提供的自然语言指令才能完成导航任务。这包括正确解读 “左”、 “上” 和 “前” 等空间表达,并发展出对物体位置、方向和运动进行空间推理的能力[8]。近期研究强调了辅助模态、层级推理和affordance建模在提升指令理解方面的优势。多轮视觉问答(VQA)和affordance预测增强精细化的基础理解,而基于注意机制的人机交互融合则有助于上下文理解。未来的发展可能依赖于空间感知和语言推理的更紧密结合,以及对不同指令内容和复杂现实任务的更好泛化能力。

  1. VLN 智体的路径规划和导航:VLN 智体必须结合感知、推理和规划,才能根据自然语言指令执行目标导向的导航,如表所示。
    请添加图片描述

近期研究通过将基于LLM的规划与空间定位、域自适应和幻觉抑制相结合,增强VLN智体的性能。结构化的空间先验信息进一步支持实时推理。未来的研究应将空间感知和语言推理相结合,以实现可泛化的低-监督导航。

具身任务中的多模态空间推理

  1. 具身问答 (EQA):EQA 最初由 Das [218] 提出,现已成为具身人工智能和机器人领域的核心基准。在该任务中,智体接收一个自然语言问题——例如,“客厅里有沙发吗?”——并必须探索环境、收集视觉证据并提供答案。其挑战在于如何将语言与空间感知和推理联系起来。

EQA任务凸显交互式环境中语言落地、视觉感知和空间推理之间错综复杂的相互作用。近期研究进展的关键在于,弥合低级视觉输入与高级任务理解之间的鸿沟,需要将基础模型的强大感知能力与显式推理机制(例如场景图、神经程序合成和思维链提示)相结合。未来的研究可以进一步优化空间表征与语言语义的匹配,并提升智体在多轮推理场景中的记忆效率。

  1. 具身抓取:由于遮挡和复杂的物体交互,在杂乱环境中进行机器人抓取仍然十分困难,这需要精细的空间推理能力。杂乱的环境、频繁的物体遮挡以及需要遵循严格的时空动作序列,构成具身抓取任务的主要挑战。在这样的环境中,空间推理能力尤为关键。有效利用视觉观察并适当整合 VLM 的推理能力是应对这些挑战的关键。

  2. 具身世界模型:具身世界模型模拟物理环境的动态特性,支持策略学习、数据驱动的仿真和长时程规划。然而,仅依赖二维像素观察的模型往往无法捕捉准确的空间关系,导致场景表示不完整以及深度或姿态估计较弱。因此,结构一致的场景生成对于有效的空间推理和世界建模至关重要。

具身世界模型是用于训练具身智体的大规模仿真数据的基础。确保这些生成环境的几何和空间一致性对于支持准确的空间推理和逼真的具身智能至关重要。


基于视频的空间推理

视频本身比静态图像能捕捉到更多场景信息,因此,对 MLLM 的空间推理能力进行大量研究。将推理能力从基于图像的任务扩展到基于视频的理解,开辟令人兴奋的新可能性。然而,在动态、时变的场景中准确推理空间属性并建立对应关系仍然是一个持续存在的挑战。正如 Spatial-R1 [3] 所提出的,该领域需要七项关键的空间推理任务:物体相对距离、物体大小估计、房间大小估计、物体相对方向、物体出现顺序、物体绝对距离和物体计数。

本文系统地回顾这一新兴领域,并总结现有方法的关键特征,如表所示。最近的研究探索专门的架构和训练策略,以增强MLLM的空间推理能力。
请添加图片描述

多模态空间推理领域的最新进展表明,MLLM处理结构化时空理解的能力日益增强。然而,挑战依然存在:模型常常由于token压缩而丢失空间细节,并且缺乏稳健的空间记忆机制。诸如基于token的叠加(如MPDrive类方法)和坐标增强提示(如LocVLM[126])等解决方案提供部分补救措施,但在跨不同视频域的泛化能力方面仍存在不足。特别是以自我为中心的视频,给多模态空间推理带来独特的挑战:区分主体运动和物体运动需要基于场景的表征和持久记忆。尽管ST-Think和Thinking in Space等早期成果提供有前景的架构,但可扩展且可泛化的空间世界模型仍然是一个开放的研究领域。

基于音频的空间推理

音频空间推理是指从声音中解读空间线索(例如到达方向、声源位置和距离)以推断听觉场景的物理环境的过程。虽然人类听众能够轻松地利用双耳线索定位和区分声音,但当前的多模态大语言模型(MLLM)主要关注听到的内容,而非声音的来源[226]。这种空间感知能力的缺失限制诸如视听导航和以自我为中心的感知等应用,在这些应用中,人工智体必须推断声音的来源才能有效地与环境交互。为了弥补这一差距,近期的研究[51-54, 226, 227]开始探索空间推理能力,通过训练能够从纯音频或视听输入中学习的大规模多模态模型来实现。
系统地回顾这一领域,并总结近期提出方法的关键特征,如表所示。
请添加图片描述

尽管近期取得了一些进展,但实现稳健的音频空间推理仍然面临着诸多挑战。现有模型在具有多个动态声源的开放世界场景中泛化能力仍然不足。大规模、高质量且带有精确标注的空间音频数据集的匮乏进一步加剧了这些局限性,使得训练出能够在受控或模拟环境之外表现良好的模型变得困难。为了弥补这些差距,一些有前景的研究方向包括开发更丰富的数据采集流程,例如真实世界的以自我为中心的录音,或改进能够更好地模拟真实声学条件的仿真技术。与此同时,预计会出现更多专门的模型架构,以有效地利用这些空间线索。通过解决数据和建模方面的挑战,未来的系统有望实现类似人类的“空间听觉”,不仅能够判断听到了什么,还能判断声音在复杂动态场景中的位置。


多模态空间推理使人工智能系统能够通过整合来自多种模态(例如视觉和语言)的信息来理解和推断场景中的空间关系。最初,基准测试和数据集侧重于简单的场景和基本的空间关系。然而,随着多模态基础模型的演进,研究重点转向了更复杂的推理和跨模态推断。在这些模型出现之前,研究仅限于具有基本空间任务的环境,例如在视觉问答(VQA)中确定物体的相对位置。随着功能强大的预训练模型的兴起,新的基准测试被开发出来,以应对更大的开放性、更丰富的复杂性和更深层次的推理能力。这些努力涵盖了全景图像、视频、计算机辅助设计(CAD)和地理信息系统(GIS)等领域,推动了人工智能系统在场景理解方面的进步。如图展示多模态空间推理基准测试的发展历程。

早期多模态空间推理基准

在大规模多模态基础模型出现之前,早期空间推理研究主要依赖于自然图像与文本描述相结合的数据集。这些数据集旨在解决基本的空间推理任务,例如物体定位和关系检测。

图像-文本空间推理基准测试

随着多模态大语言模型(MLLM)的兴起,空间推理任务已扩展到各个领域。

2D空间推理任务:二维空间推理基准测试评估模型在二维环境中推理空间关系的能力,重点关注导航、物体定位和布局生成等任务。一个关键趋势是多模态数据的整合,将视觉和文本信息相结合以增强推理能力。

2D空间推理数据集已从简单的图像-文本对发展成为评估多种推理能力的多任务框架。近期的数据集强调多模态数据,将视觉和文本信息相结合,以实现更复杂的推理。虽然合成数据能够加速基准测试,但在泛化能力和实际应用方面仍面临挑战。未来的基准测试应整合动态的真实世界数据以及结合合成数据和真实数据的混合数据集,以更好地覆盖极端情况并增强评估效果。这些进步将使模型能够更好地应用于自主导航、机器人和其他复杂应用领域。

3D空间推理基准:近年来,3D空间推理数据集的开发取得了显著进展。

3D空间推理基准测试的引入带来显著的进步,尤其是在数据生成方面。合成驱动的标注方法和自动化的二维到三维转换流程缓解标注方面的挑战。随着任务的演进,它们已从基本的方位和静态感知转向动态场景理解和多视角推理,认知复杂性也随之增加。此外,评估框架也从基于仿真的训练转向真实场景验证,从而建立了用于性能评估的闭环范式。尽管取得了这些进展,但挑战依然存在,尤其是在跨模态对齐和适应动态场景方面,这凸显了在这些领域继续开展研究的必要性。

视频文本空间推理基准测试

视频文本空间推理领域的最新进展催生多种基准测试的开发,旨在系统地评估空间理解能力。这些基准测试已从基础感知任务发展到更复杂的时空任务。当前的基准测试越来越强调时间和空间线索的整合,并利用合成数据和标注数据来支持模型的训练和评估。

  1. 基础空间感知任务:此类基准测试评估核心空间感知技能,例如物体计数、相对方向和距离估计。
  2. 高级时空推理任务:这些基准将空间推理扩展到动态任务,例如路径规划和跨模态协调,强调时间一致性和因果推理。
  3. 混合任务基准测试:这类评估基准测试整合多种数据源和不同难度级别的任务,旨在对模型能力进行全面评估。由于高质量视频推理数据的匮乏,目前的MLLM在视频环境下的空间推理能力有限。

当前的视觉空间推理基准测试正从静态属性识别向动态时空耦合发展,对模型的空间认知能力提出越来越高的要求;然而,它们仍然受到一些限制,包括高昂的标注成本限制数据集的可扩展性、半自动多模态LLM生成的标注质量不一致,以及过于同质化的模板数据不足以促进深刻的空间认知——这需要范式转变,从孤立的数据管理转向协同的算法-数据共同设计,从单模态数据集转向多源混合数据框架,以及从表面的模式匹配转向包含物理约束(如引力碰撞动力学)的因果推理。

其他模态基准

当代多模态空间推理数据集呈现出三阶段演进——从场景驱动的构建到任务复杂性的提升和评估的完善——在这个过程中,现实世界的任务需求日益复杂,模态日益多样化,空间推理也从基本的定向感知发展到因果空间推理链。然而,在建立一个能够确保物理合理性、实现动作可验证性并维持经济高效的数据管理的统一框架方面,仍然存在诸多不足,这表明多模态空间推理数据基础设施仍有很大的发展空间。


挑战和方向

以自我中心视觉的多模态空间推理
3D视觉的多模态空间推理
具身AI的多模态空间推理
新型传感器的多模态空间推理
多模态空间推理基准测试

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐