25年10月来自香港科技大学(广州)、南方科技大学、上海交大和其他学校的论文“Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks”。

人类拥有空间推理能力,能够通过视觉和听觉等多模态信息理解空间。大型多模态推理模型通过学习感知和推理来扩展这些能力,并在各种空间任务中展现出良好的性能。然而,针对这些模型的系统性综述和公开可用的基准测试仍然有限。本文对大型模型的多模态空间推理任务进行全面的综述,对多模态大语言模型(MLLM)的最新进展进行了分类,并介绍了用于评估的开放基准测试。首先概述通用的空间推理,重点关注训练后技术、可解释性和架构。除了经典的二维任务之外,还考察空间关系推理、场景和布局理解,以及视觉问答和三维空间定位。此外,回顾具身人工智能的最新进展,包括视觉-语言-导航和动作模型。最后,还考虑音频和以自我为中心的视频等新模态,这些模态通过新传感器促进空间理解。


背景

空间推理是人类的一项基本能力,它使个体能够通过视觉、听觉和其他感官等多模态输入来理解世界并与之互动。如图所示,它支持导航、理解物体关系以及在空间环境中解决问题。尽管大语言模型 (LLM) 在文本处理和生成方面取得了显著进展 [55],但由于其主要采用单模态设计,其空间推理能力受到限制 [56]。将图像、音频和视频等多模态信息集成到语言模型中,为增强空间推理能力提供了新的机遇,尤其适用于需要深入理解复杂现实世界场景的任务 [57–63]。
请添加图片描述
大型多模态推理模型已成为一种很有前景的解决方案,因为它们经过训练,能够同时感知和推理多种模态的信息 [64–68]。这些模型在各种空间任务中都表现出了卓越的性能,从理解二维空间关系到更复杂的三维推理。然而,尽管取得了这些进展,但在系统地审查和评估这些新兴模型的性能方面仍然存在明显的差距,尤其是在多模态空间推理的背景下。

本综述旨在填补这一空白,对当前基于大模型的多模态空间推理现状进行全面回顾,如图所示:

请添加图片描述


定义。多模态空间推理旨在从异构输入中推断空间关系、位置和动作,并生成基于空间的、可验证的输出。形式上,给定输入 X = {ximg, xvid, xpc, xaud, xtext, . . .}(例如,RGB 图像、视频、点云、音频和语言),在指定的参考系(2D/3D/自我/他人)下,模型预测 Y,例如:(i) 文本答案/理由,(ii) 几何量(框、姿态、轨迹),或 (iii) 针对具身环境的可执行动作/规划。这个定义统一经典的 VQA 式查询、3D 定位、导航和布局/场景生成 [18, 34, 36, 93, 94]。

MLLM中的空间推理类型

MLLM中的空间推理涵盖从基本定位到高级场景建模的各个层面。主要类型包括:

  1. 定位与记忆:在二维/三维空间中定位物体相对于其他物体/观察者的位置,并跟踪其随时间变化的状态。
  2. 关系与几何:推理空间关系(上方/下方/左侧/右侧)和度量(距离、角度、面积、体积)。
  3. 导航与问题解决:规划路径并优化动作(例如,最短路径、空间谜题)。
  4. 模式与透视:检测模式/对称性并进行跨视角推理。
  5. 缩放与调整大小:在保持比例的前提下模拟尺寸变化。
  6. 变换:在保持关系的前提下应用旋转、平移和缩放。
  7. 情境化:在环境上下文(例如,房间与航天器)下解释位置。
  8. 三维模型生成:根据空间线索合成三维形状/场景。
  9. 环境建模:构建用于预测和决策的场景/世界模型。
  10. 感知与交互:通过传感器/视觉支持实时空间交互(例如,增强现实)。

以上这些功能是导航、仿真和交互系统等应用的基础。

空间推理评估方案

评估 MLLM 的空间推理能力应考察其准确性、鲁棒性、可解释性和泛化能力。关键维度:

  1. 多模态整合:测试多种模态组合(图像、文本、音频、深度/点云、传感器),以评估超越单模态线索的跨模态融合能力。
  2. 任务覆盖范围:涵盖视觉问答(VQA)、三维定位、基于地图的导航、具身规划和场景/图像生成,以覆盖低级和高级推理能力。
  3. 过程透明度:通过注意图、中间状态或推理探究追踪决策过程,以揭示空间关系的编码/操作方式。
  4. 泛化能力和鲁棒性:评估分布外环境(新布局、未见过的环境、扰动),以测试其适应性。
  5. 交互/具身测试:测量导航/操作和增强现实/虚拟现实的实时性能,包括响应速度和在线更新。
  6. 基准标准化:提供涵盖受控合成任务和真实场景的可复现测试套件。

解决这些方面的问题能够对 MLLM 的空间推理能力进行全面、可比较的评估,并阐明其在不同应用中的优势和劣势。

路线图。接下来,将此设置应用于以下应用层面:
(1)使用MLLM的通用二维图像/视频任务;
(2)三维空间推理(接地、质量保证、导航);
(3)具身空间推理(VLA、VLN、世界模型);
(4)新模态和跨域设置。

每个部分都对应上述分类,并采用此处概述的评估维度。


通用多模态空间推理是指多模态语言模型(MLLM)理解和推理视觉和文本输入空间关系的能力。它涵盖诸如空间关系视觉问答(VQA)、物体定位、透视理解、3D理解和导航等任务。这些任务需要将视觉感知与空间概念的语言表达(例如“上方”、“后方”和“左侧”)相匹配。如图所示,当前的研究主要从四个方面增强多模态模型的空间推理能力:
请添加图片描述

  1. 测试-时规模化以提升推理时的能力;
  2. 后训练方法,例如在空间数据集上进行监督微调和强化学习;
  3. 架构改进以实现更丰富的空间编码;
  4. 可解释性研究,以揭示空间推理的局限性和失效模式。

请添加图片描述

测试-时规模化方法

测试-时规模化方法提供一种无需训练即可增强 MLLM 在推理过程中空间推理能力的策略。这些方法并非通过重新训练或微调,而是利用改进的提示、工具辅助推理和外部模态整合。现有研究工作可根据其方法论侧重点大致分为三类:提示工程、工具使用和自洽性投票、多模态搜索以及外部空间知识注入等。
请添加图片描述

从简单的CoT提示到空间结构化提示的演变,揭示MLLM中语言推理和空间推理之间的关键区别。文本CoT假设将中间步骤用语言表达出来可以提高推理效率,而空间推理则需要对视觉关系进行显式建模——通过视觉痕迹、结构化图或基于参照的转换。这表明,有效的空间提示与其说是依赖于更长的推理链,不如说是依赖于将提示表征与空间认知固有的视觉和关系特性相匹配。

未来的研究可以探索自适应提示框架,该框架能够根据空间查询类型和推理上下文自动选择最合适的表征格式——文本、视觉或混合格式。
请添加图片描述

测试-时工具的使用原理,是将几何体外化为MLLM已使用的输入——视觉轨迹、结构化token和新视图——而不是延长文本CoT。当信号基于度量(姿态、坐标、校准深度)且智能控制器将工具组合成可重用的子程序时,收益最大,无需重新训练即可改善视角转换、遮挡和多目标关系。

遗留问题:感知和视图合成误差会在缺乏不确定性处理的情况下传播;二维代理(BEV、轨迹)对度量三维状态的近似效果较差;时间持久性较弱——缺乏持久的、以目标为中心的世界记忆;工具输出缺乏标准化的单位/帧,损害了对齐和可重复性。多工具流程还会增加开放世界、长时程任务的成本和延迟。

有2 个有前景的方向:维护持久的以目标为中心场景记忆,并进行跨视图/时间检查和轻量级几何自验证;标准化工具输出(具有标定不确定性的目标/相机/约束方案),以实现证据加权和冲突解决;开发预算感知控制器,在计划-执行和反应之间切换,添加验证-反思循环,并将复杂的链提炼成紧凑的提示/插件——在长期、非共视、开放世界机制中使用效用-成本-鲁棒性指标进行评估。

在 MLLM 中增强空间推理能力,通常需要比静态提示或单次输出更多的方法。探索多条推理路径、检索外部空间知识、进行轻量级的测试-时自适应以及保留空间上下文,这些方法共同提升推理时的能力,并对提示/工具方法起到补充作用。这些方法各有优劣——例如,多重采样和自适应会增加计算量,而检索则依赖于知识质量——但它们指向的是能够动态、可靠且更准确地进行空间推理的MLLM模型。

后训练方法

后训练方法通过在预训练后调整MLLM来增强空间推理能力,主要通过监督式微调(SFT)和强化学习(RL)来实现。这些方法依赖于空间定向数据集、奖励和课程来强化模型对几何和运动的理解。

SFT,强调任务特定数据和结构化课程对于增强MLLM空间推理能力的重要性。与单纯的预训练相比,基于空间的监督能够使模型内化显式的空间关系、运动线索和时间依赖性,而这些信息在一般的多模态数据中往往缺失。方法论上,SFT 研究表明,逐步增加空间复杂性——从低级感知(例如,物体定位)到高级推理(例如,轨迹预测、多步推理)——能够持续提升模型性能。整合时间标注或运动感知数据集能够进一步使模型对静态配置和动态演化进行推理。然而,目前的 SFT 方法严重依赖于人工标注或合成数据,这限制了其规模和多样性。未来的研究可以着重于自动生成空间标注、利用自监督的预训练数据集,或设计能够平衡静态和动态推理的自适应多任务课程。最终,有效的空间框架理论应该使监督与空间推理的认知结构保持一致,从而连接感知和高层次的空间理解。

强化学习 (RL) 为提升 MLLM 的空间推理能力提供了一个强大的框架,其优化超越了静态监督。所回顾的方法展现了一个清晰的演进过程:从复合任务级奖励 (VIDEO-R1) 到过程级和基于课程的优化 (SPATIAL-R1, METASPATIAL),最终发展到自主自博弈学习 (R1-ZERO)。这一演进反映空间认知从外部引导训练向自我提升的转变。
请添加图片描述

由此产生了两个主要见解。首先,奖励粒度至关重要——整合中间推理奖励和几何正确性能够促进稳定且可解释的空间学习。其次,自主探索能够实现持续改进,而无需依赖标注数据,这为可扩展的空间智能提供了一个很有前景的方向。

然而,当前的强化学习框架仍然受到高计算成本、奖励稀疏性和跨二维、三维、时空域泛化能力有限的制约。未来的研究可以开发混合范式,将强化学习与监督式微调或自蒸馏相结合,并利用自动生成的空间反馈信号。朝着更丰富、自监督的空间奖励和跨域泛化的方向发展,将是实现多模态大型语言模型更接近人类空间推理能力的关键。

MLLM架构修改

除了后训练之外,架构修改对于使MLLM能够有效地进行空间推理至关重要。大多数MLLM采用标准的三部分结构——预训练的LLM、视觉编码器和模态对齐接口[64, 119–123]。然而,空间推理需要显式地保留位置和几何信息,而这些组件本身无法保证这一点。因此,最近的研究提出修改方案,以在输入层或通过专门的模型组件注入空间知识。

1)增强输入表示:一种策略是用额外的空间线索来增强模型输入,以便 LLM 能够在不改变核心架构的情况下推断几何关系。以输入为中心的增强方法仍然具有最小侵入性:标记(marker)通道或坐标token引导LLM模型构建几何体,而无需改变其骨架结构;深度信息、多视图信息或点云信息则提供三维上下文,从而增强模型的定位能力。然而,模型性能与检测器/深度信息的保真度密切相关,而更长的上下文信息会增加模型对齐和注意记忆的负担。感知不确定性的空间token化器和可微分的二维-三维投影器能够压缩几何体信息,并结合从单视图输入逐步过渡到时空输入的训练方案,有望减少对捷径的依赖,并提高跨域泛化能力。

  1. 重新设计空间推理模块:另一种(也是互补的)方法是引入专门用于空间和关系推理的架构模块。在这种方法中,基础的 MLLM 架构通过新的组件(或整个子网络)进行扩展,这些组件(或整个子网络)通过模型的内部表示来保持空间结构。专用模块注入几何归纳偏置:多尺度编码器、关系图和空间交叉注意机制保留了布局/拓扑结构;域定制的 2D+3D 融合和深度集成连接器增强在遮挡和杂乱环境下的鲁棒性。此外,以视觉为中心的聚合器以更少的token保留精细的空间细节,而将静态 3D 上下文与视频对齐则稳定时间基准。然而,增加的复杂性、延迟以及对伪 3D 标签的依赖促使人们寻求在空间模块和 LLM 之间进行意图感知路由、统一的 2D/3D/时间一致性目标,以及轻量级、硬件友好的空间层以进行部署。

多模态空间推理的可解释性

理解 MLLM 在空间推理方面存在的问题,对于改进其设计和提高其可解释性至关重要。近期研究为这些局限性提供了宝贵的见解,并提出了改进策略。

这些研究共同得出一个诊断:MLLM由于不平衡表征、注意偏差和几何先验信息缺乏,展现出强大的语义推理能力同时,空间落地的能力薄弱。这凸显构建平衡语义和空间表征模型的必要性。未来的研究应着重整合这些互补的见解——显式的空间落地、平衡的跨模态编码、关系-觉察的注意以及基于几何的架构先验信息——以提高 MLLM 在空间配置推理方面的准确性和鲁棒性。


三维空间中的多模态空间推理是一个重要的研究领域,对导航[38, 39]、视觉-语言-动作任务[139, 140]等下游应用具有重要意义。多模态空间推理的基础任务,包括三维空间定位、三维场景推理和三维空间生成。如图所示,概述这些核心任务,并着重阐述在更广泛的三维空间理解领域中的作用。
请添加图片描述

三维视觉落地/定位

如图所示,给定自然语言描述,三维落地/定位涉及在三维场景中定位物体。这项任务需要强大的空间推理能力来处理复杂的指令,对于机器人和增强现实(AR)至关重要,因为它结合语言理解和三维空间推理。传统的三维/落地定位方法在有限的三维数据集上进行完全监督学习,这些数据集包含预定义的物体描述 [141],但它们难以泛化到未见过的物体,也难以处理复杂的文本。
请添加图片描述

与传统方法不同,研究人员正在开发基于MLLM 的方法,通过利用大规模先验信息显著提高泛化能力。然而,将 MLLM 集成到三维定位中仍然具有挑战性 [142]。现有的将 MLLM 嵌入三维定位系统的方法可以根据输入数据模态大致分为以下几类:1. 直接利用三维表示和空间信息; 2)从3D场景渲染生成多视角2D图像;3)结合2D和3D模态的混合方法,如表所示。
请添加图片描述

  1. 三维输入:一些方法通过将三维格式(例如点云、体素或学习的体特征)嵌入MLLM来进行空间推理[23, 24, 134]。这些方法通过将 3D 表示嵌入到 MLLM 中并利用其空间推理能力,专注于 3D 视觉落地/定位。然而,尽管嵌入 3D 模态具有巨大的潜力,但也存在挑战。3D 数据结构的复杂性会阻碍模型的可解释性,而标记的 3D 数据集有限可用性限制为开放世界应用开发稳健、通用的模型。

  2. 多视图输入:虽然三维点云能够提供明确的场景表示,但由于空间信息的复杂性,它们给模型带来了挑战。为了解决这个问题,研究人员越来越多地采用多视图二维表示作为一种很有前景的替代方案。这种方法利用现有二维MLLM 的空间推理能力,只需进行最小的修改。代表性的方法包括 ViewRefer [135]、VLM-Grounder [25] 和 3DAxisPrompt [2]。这些工作利用强大的 MLLM 将二维多视图输入与三维场景对齐。然而,仍存在一些关键挑战[18]:首先,专为全局图像理解设计的MLLM难以解析特定的目标区域。其次,空间感知超越了RGB数据,需要深度或空间坐标等几何信息。

3)二维与三维混合:为了结合三维和多视图表示的优势,近期的一些方法采用混合输入,例如[18, 26, 136, 143]。这些方法展示仅使用二维或三维表示的局限性,并提出整合两种模态的策略。结合多视角图像和三维结构可以提高三维视觉定位系统的性能和鲁棒性。

3D场景推理与问答(QA)

3D场景推理与问答需要能够处理3D表示(例如点云、网格、神经辐射场或多视图RGB-D输入)并生成基于环境空间和语义结构的自然语言响应的模型。目前的研究分为两种范式:需要训练和无需训练。需要训练的方法通常通过Q-Former [37, 146] 或投影层模块 [147, 148] 对MLLM进行微调。无需训练的方法则使用带有渐进提示 [11] 和链式推理 [11, 149] 的冻结MLLM。

  1. 需要训练:需要训练的研究可以分为三类:1. 对齐方法:这些方法侧重于将3D特征与语言模态对齐。2. 训练效率:旨在降低复杂性并提高收敛性。 3 3D 表示:从传统的 3D 表示扩展到场景图、3DGS [154, 155] 等。
    请添加图片描述
    请添加图片描述

为提升MLLM的三维空间推理能力,目前的研究主要集中在模态对齐、训练效率以及探索替代三维表示等方面。然而,挑战依然存在:1. 由于数据和架构的复杂性,训练三维感知模型需要大量的计算资源。2. 缺乏大型、多样化且标注完善的三维数据集限制监督训练的有效性。3. 缺乏透明的推理机制阻碍模型决策的可解释性和理解。解决这些限制将有助于进一步提升MLLM在空间推理方面的能力。

  1. 无需训练的方法:无需训练的方法[11, 30, 149, 165]利用MLLM中的先验知识进行多模态空间推理,无需进行微调。这些方法探索了各种提示策略以促进可解释的空间推理。一些研究[11, 149]使用MLLM提取语义目标属性并应用思维链机制,从而提示序列推理。这些无需训练的方法利用MLLM通过多种提示策略来概括和提炼空间信息。尽管它们取得了成功,但仍存在一些局限性:1. 它们依赖于所用MLLM的质量,而这些模型的缺陷可能会影响其在某些任务上的性能。2. 一些方法涉及复杂的推理步骤,降低了处理速度,使其不太适合实时应用。

基于空间推理的三维生成

三维生成技术[166, 167]发展迅速,尤其是在LLM和多模态推理系统集成之后。场景级和程序级生成都需要强大的空间推理能力。这些任务可以分为两个方面:1. 三维布局生成:根据自然语言或多轮对话生成空间合理的室内布局。2. 三维生成程序化:将三维内容生成视为一个程序化任务,其中空间推理被定义为可执行的程序生成。

  1. 三维布局生成:鉴于三维场景生成的复杂性[168–170],研究人员通常使用多模态语言模型(MLLM)进行初始三维布局生成,然后再进行场景级合成。如图对几种典型的三维场景生成方法进行定性比较,展示了不同方法在几何保真度、纹理质量和语义一致性方面的差异。根据MLLM在布局流程中的集成方式,方法大致可分为以下几类:

请添加图片描述

通过LLM直接指导场景合成:MLLM直接生成空间配置或布局指令,将高层描述转换为场景元素的结构化命令,例如家具摆放和房间尺寸。然而,这种直接映射可能会导致不合理的配置,例如物体重叠。LayoutGPT [5] 和 HOLODECK [163] 等方法通过引入基于优化的求解器或推断空间关系约束来解决这个问题。
通过LLM间接指导场景合成:间接指导使用MLLM提取语义知识(例如,物体关系或上下文约束)来指导后续的3D建模。
可见主要方法要么直接生成位置,要么创建场景图等中间表示。两种范式都利用 MLLM 来构建语义一致且物理上可行的 3D 环境。MLLM 的未来发展有望提高数值精度和格式化能力。

2)将 3D 生成视为程序:基于 MLLM 代码生成技术的进步(例如 Cursor [174] 和 GitHub Copilot [175]),近期研究将 3D 合成视为程序化生成,其中几何形状和布局由代码指定。如图所示,利用MLLM的结构化推理和约束,可以用代码片段描述3D模型。目前的方法主要针对三种输出格式:1. Blender脚本;2. CAD参数化程序;3. 网格生成流程。
请添加图片描述

这些研究成果体现 MLLM在处理需要深度空间推理、精确几何控制以及与下游工具集成的复杂现实世界任务方面的应用范围不断扩大。虽然直接生成三维模型具有挑战性,但通过编程使用MLLM生成三维内容可以充分发挥其空间推理的潜力。此外,程序化生成也更易于控制,使其更适合实际应用。

。。。待续。。。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐