25年4月来自清华和芬兰赫尔辛基大学的论文“A Survey of Large Language Model-Powered Spatial Intelligence Across Scales: Advances in Embodied Agents, Smart Cities, and Earth Science”。

过去一年,大语言模型(LLM)的发展使空间智能成为关注焦点,其中基于视觉的具身智能备受关注。然而,空间智能涵盖的学科和尺度更为广泛,从导航和城市规划到遥感和地球科学,无所不包。这些领域之间的空间智能有何异同?本文首先回顾人类的空间认知及其对大语言模型中空间智能的影响。然后,考察大语言模型中的空间记忆、知识表征和抽象推理,重点阐述它们的作用和相互联系。最后,遵循一个从空间记忆和理解到空间推理和智能的框架,跨尺度分析从具身智能到城市和全球尺度的空间智能。


空间智能本质上是一个跨学科的研究领域,涵盖多个域中各种各样的挑战、应用场景和方法。例如,在房间内导航需要空间智能,设计一个15分钟社区依赖于空间智能,预测图像的可能位置涉及空间智能,分析气候的空间模式也是一种空间智能。换句话说,空间智能无处不在,在人类社会和物理世界中发挥着至关重要的作用。

空间智能的研究有着深厚的历史渊源。一方面,它是人类理解自身认知和感知机制的重要途径[Ishikawa, 2021; Eichenbaum and Cohen, 2014]。从心理地图到寻路策略,对人类空间认知的研究为人类智能提供了基础性的见解。另一方面,空间智能在现实世界的应用中早已具有重要的实际意义,例如具身导航[Lin et al., 2024]、地理信息系统(GIS)[Zhao et al., 2024]和气候预测[She et al., 2024]。空间智能的研究不断发展,融合了认知科学、人工智能和应用领域。如图所示:
请添加图片描述

近年来,深度学习,特别是大语言模型(LLM)的快速发展,极大地推动了空间智能的研究。LLM在世界知识、规划和推理能力以及强大的任务泛化能力方面取得了显著进展。这些进展推动了具身智能的研究[Gupta et al., 2021],其中LLM在机器人导航、多模态感知和控制等领域发挥着核心作用。近期研究,例如SpatialVLM [Chen et al., 2024] 和Voxposer [Huang et al., 2023b],已证明 LLM 能够提升具身智体的空间推理和决策能力,使其在复杂环境中更高效地运行。

除了具身智能之外,LLM 也激发城市和全球规模的空间智能领域研究。例如,在城市研究中,LLM 已与地理空间数据相结合,用于优化城市规划 [Zhou et al., 2024b]、交通预测 [Li et al., 2024e] 和基础设施管理 [Lai et al., 2023]。在全球范围内,研究人员已探索 LLM 如何增强遥感分析[Kuckreja et al., 2024]和灾害预测[Zhang et al., 2023b]等,这展现LLM 处理大规模地理空间信息并为全球决策提供有意义见解的潜力。这些跨学科应用凸显了低LLM 对空间智能研究的变革性影响,为未来跨多个领域的发展铺平了道路。

尽管各个领域的空间智能研究日益增多,但目前仍缺乏一个统一的框架来全面理解和分析空间智能。现有研究往往侧重于特定方面,例如基于视觉的具身智能、城市规划或遥感智能,而缺乏跨学科和跨尺度的整合。为了弥合这一差距,本综述从人类认知、基本空间能力以及具身智能、城市智能和地球科学等多尺度系统智能的角度,追溯空间智能的发展历程。


人类空间智能

从神经科学和认知科学的角度回顾一下人类空间智能的研究,目的是为了阐明空间智能在不同域和尺度上的潜能力和起源。此外,还有空间智能与其他人类智能之间的关系。

认知地图

空间认知地图是对环境知识的内部表征,其特点是主观性和扭曲性[Ishikawa, 2021]。Tolman于1948年提出这一概念[Tolman, 1948],后来Eichenbaum对其进行了扩展[Cohen, 1993; Eichenbaum & Cohen, 2014],强调海马体在空间和非空间记忆中的作用。在神经层面,空间表征依赖于海马体中的位置细胞和内嗅皮层的网格细胞[Moser et al., 2008; Moser et al., 2017]。位置细胞在个体处于特定位置时被激活,而网格细胞则提供一个类似坐标的系统来映射环境。这些细胞,连同头部方向细胞和边界细胞,构成构建空间认知地图的神经基础[Long et al., 2025]。最近的进展,例如托尔曼-艾兴鲍姆机(TEM)[Whittington et al., 2020],突显通过网格细胞的结构抽象和跨环境表征来泛化空间和关系记忆的能力。相比之下,大语言模型(LLM)利用Transformer架构来模拟空间任务,例如位置编码和导航,这与海马体的功能有相似之处[Whittington et al., 2021]。

空间概要(schema)

概要是概括从多种经验中抽象出的共同特征的高级知识结构。这些结构在感知、解释和记忆事件的过程中发挥着至关重要的作用。它们随着新经验和记忆的积累而不断演进,影响着记忆的形成、巩固和提取[Gilboa & Marlatte, 2017]。在人类空间认知中,概要扮演着关键角色。空间概要是通过跨不同环境的经验迁移和泛化而形成的高级空间认知结构。与认知地图不同,它们的加工集中在新皮层的特定区域。空间概要本质上是高度抽象的,是通过整合相似环境中重叠的神经表征而产生的。它们作为超越特定环境的高阶空间表征,例如现代城市的预期布局[Farzanfar et al., 2023]。空间概要和认知地图作为不同的空间认知结构层次,相互作用、彼此影响,共同促进人类空间认知。

近期研究探索基于LLM的空间智能与人类空间智能之间的相似性和联系,例如,Momennejad[Momennejad et al., 2024]评估它们的认知地图构建能力。然而,LLM也存在一些局限性,包括拓扑推理错误(例如,虚构路径、效率低下)以及视觉空间感知差距。尽管研究人类和LLM的认知地图能够为空间智能提供宝贵的见解,但在提升LLM的图式学习和空间句法整合方面仍然存在诸多挑战。

空间智能分类

基于人类的空间记忆和智能,本文提出一个适用于LLM的空间记忆和智能分类框架(如图所示),并在此框架下对现有研究进行全面的综述。具体而言,首先介绍LLM空间智能的基础能力,这些能力分为空间记忆和空间知识,以及抽象空间推理能力。随后,重点关注空间智能在现实世界中的应用,并从具身智能、城市智能和地球智能三个维度进行探讨。
请添加图片描述

大语言模型中的空间记忆与知识

空间记忆是指回忆过去遇到的空间关系、实体和属性的认知能力。空间知识是一个更广泛的概念,它不仅包含这种记忆,还包括与空间相关的常识推理和逻辑思维。一般的空间记忆和知识结合抽象的空间认知和现实世界的环境能力。如图所示:
请添加图片描述

近年来,最先进的大语言模型(LLM)已展现出其在处理空间任务方面的能力,并具备空间记忆和知识[Bhandari et al., 2023]。多模态大语言模型(MLLM)进一步扩展了这种能力,展现出其对来自语言和视觉模态的空间信息的记忆和知识[Yang et al., 2024b]。

空间记忆和知识可以来源于内部或外部资源。在内部,空间记忆和知识在训练前或训练后阶段被编码到LLM的参数中[Petroni et al., 2019; Gurnee and Tegmark, 2024; Roberts et al., 2020]。在外部,LLM可以在需要时利用外部空间记忆或知识存储来获取特定信息[Mansourian and Oucheikh, 2024]。LLM的空间记忆和知识是其空间智能的重要组成部分。许多通用任务和空间特定任务都基于对空间环境的准确且充分的记忆和知识,包括问答[Mai et al., 2021; Yamada et al., 2023]、导航[Epstein et al., 2017; Feng et al., 2024c]和地理定位[Haas et al., 2024]。

随着预训练生成模型的蓬勃发展,提升LLM空间记忆和知识的实践也应运而生。多种训练方法被用于编码空间信息[Feng et al., 2024a]。其他研究则整合外部知识库以提供空间记忆和知识[Yu et al., 2024b]。此前的研究也尝试在LLM中利用压缩的空间知识[Manvi et al., 2023]。
尽管取得了这些快速进展,LLM的空间记忆和知识领域仍然面临挑战。其中一个重大挑战是幻觉[Lee et al., 2022],即LLM可能生成非事实或不真实的内容[Huang et al., 2023a],从而降低其在空间情境下执行任务的有效性。另一个紧迫的挑战是知识编辑[Zhang et al., 2023c]。鉴于空间环境的动态特性,需要持续及时地更新LLM的记忆和知识,以反映准确的空间信息。

LLM的抽象空间推理

抽象推理能力是一项至关重要的认知能力,它使智体能够将复杂的现实简化为可操作的心理模型。在空间智能的背景下,抽象推理发挥着关键作用:它不仅将复杂的物理空间简化为可管理的心理模型,而且还为更高层次的空间认知奠定了基础,成为客观空间环境和认知表征之间的重要桥梁。

由于LLM在认知任务中展现出良好的应用前景,评估其空间抽象推理能力已成为一个重要的研究方向,这既有助于理解其局限性,也有助于指导未来的改进。目前对LLM空间抽象推理能力的评估主要集中在三个方面:定性空间推理[Yamada et al., 2023; Sharma, 2023; Lehnert(2024)和Li(2024a)、几何推理(Zhang,2024;Kazemi,2023)和图推理(Luo,2024),如图所示。
请添加图片描述

定性空间推理通过语言描述评估模型理解和推理空间关系及变换的能力。在该领域,LLM在多步推理任务中表现出显著的性能下降,但结构化思维框架可以有效缓解这些局限性(Li,2024a)。在空间规划问题中,Lehnert(2024)的研究表明,诸如搜索动态引导之类的训练策略在复杂的空间规划任务中取得显著的改进。

几何推理则侧重于评估模型对数学几何概念的理解及其在空间问题解决中的应用。 GeoEval [Zhang et al., 2024] 全面评估不同几何域的 LLM,指出它们在逆向推理方面相对于正向推理的不足,同时展示问题重述策略的有效性。GeomVerse [Kazemi et al., 2023] 系统地展示 VLM在需要长推理链而非简单知识检索的深度几何推理任务中的困难。

图推理则考察模型理解和操作图结构的能力。在这一领域,GraphInstruct [Luo et al., 2024] 开发一个全面的测试集,结果表明 LLM 在处理诸如最小生成树、哈密顿路径和最短路径等复杂图算法时仍然存在困难。然而,他们的研究也表明,通过强调中间推理步骤的结构化训练方法可以克服这些局限性。此外,Xu [Xu et al., 2025] 开创性地提出了一个心理测量框架,该框架定义视觉-语言模型(VLM)中的五种基本空间能力(BSA),同时强调了诸如几何编码能力弱和缺乏动态模拟能力等问题。

总之,目前从这三个方向进行的评估表明,预训练的LLM主要依赖语言理解来处理抽象的空间问题,缺乏真正的空间认知能力。包括结构化推理框架、知识引导训练和中间过程监督在内的方法改进,已显示出解决这些局限性的潜力。展望未来,该领域需要更全面的评估标准,以及与人类表现进行有意义的比较,以便更好地了解和提升LLM的空间推理能力。


具身空间智能

如图所示,具身人工智能中的空间智能包含两个关键阶段:1)空间感知与理解,智能体获取并处理空间信息,构建环境的内部表征;2)空间交互与导航,利用这些表征进行移动、任务执行和决策。

请添加图片描述

空间感知与理解

空间感知与理解是具身智能的基础,它使智体(例如机器人)能够导航、交互并推理其周围环境。近期研究探索了多模态大语言模型(MLLM)如何通过整合视觉和文本数据、改进空间推理以及实现交互式决策来增强这些能力。该领域的进展主要涉及三个方面:多模态空间感知、场景级空间推理和基于记忆的空间探索。

多模态空间感知侧重于融合RGB、深度和文本信息,以增强物体定位和理解能力。例如,LLMI3D [Yang et al., 2024a] 利用空间增强特征提取和基于3D查询 token 的解码,能够从单个2D图像中估计3D物体位置。SpatialBot [Cai et al., 2024] 集成深度感知,以提升机器人操作和空间推理能力,其SpatialQA数据集用于训练深度估计和物体定位模型。尽管这些方法扩展了低级智能体的感知能力,但在有效整合多模态数据和提升细粒度深度推理能力方面仍然存在挑战。

除了物体级感知之外,场景级空间推理使智体能够理解空间关系、对齐多视图信息并解释动态环境。视频三维语言学习模型(Video-3D LLM)[Zheng et al., 2024] 通过将三维空间坐标嵌入视频特征来增强基于视频的语言学习模型,从而支持三维问答、视觉定位和密集字幕。场景-大语言学习模型(Scene-LLM)[Fu et al., 2024] 整合了以自我为中心和全局的三维场景表示,利用基于三维点的特征来更有效地理解场景和进行交互式规划。这些模型提高了智体处理空间信息的能力,但如何将连续的三维空间结构与基于语言的推理相结合仍然是一个尚未解决的挑战。

对于长期空间推理和自适应决策,基于记忆的空间探索使智体能够保留和回忆空间知识。例如,3D-Mem [Yang et al., 2024d] 引入多视图记忆快照来存储已探索的空间数据,并引入前沿快照来识别未探索区域,从而帮助智体平衡知识检索和主动探索。这种方法增强终身学习和自主适应能力,但确保可扩展性并开发高效的检索机制对于实际部署至关重要。

随着研究的深入,改进多模态融合、完善空间推理以及优化记忆机制对于推进具身智能中基于LLM 的空间感知和理解至关重要。

空间交互与导航

空间交互与导航涉及基于空间感知和理解的动作执行。这些动作包括规划机器人动作和预测空间环境中的未来轨迹。新兴研究致力于将多模态语言模型(MLLM)应用于空间交互和导航。该领域的研究进展主要集中在两个方面:运动控制和导航。

运动控制可以分为简单的动作生成和与复杂环境的交互。前者利用MLLM的感知能力直接生成目标动作。例如,RT-2 [Zitkovich et al., 2023] 将基于互联网规模数据预训练的视觉语言模型(VLM)集成到机器人动作生成中。VIMA [Jiang et al., 2022] 利用基于Transformer的架构来处理多模态提示并自回归地生成运动动作。然而,在复杂环境中,推理能力使空间智能能够处理开放集任务。 VexPoser [Huang et al., 2023b] 利用MLLM的推理和代码编写能力生成三维空间表示并规划机器人动作。GAJ-VGG [Wang et al., 2023] 设计一种图神经网络(图动作论证),通过空间和语义关系构建表示障碍物布局及其周围环境的图数据,机器人输出最优动作。

导航任务感知并记忆周围环境,并通过推理预测下一个位置。根据所采用的大型模型类型,导航任务可分为基于语言模型和基于视觉语言模型的任务。Guide-LLM [Song et al., 2024] 通过将结构化的文本地图输入到语言模型中,实现了室内空间感知,并利用语言模型的推理能力进行路径规划。NavGPT [Zhou et al., 2024a] 通过使用视觉模型将环境图像转换为文本来感知环境,并应用语言模型将当前环境描述与历史环境摘要相结合,从而进行轨迹规划。为了弥合基于LLM的导航范式与视觉-语言-导航(VLN)专用模型之间的差距,NavGPT-2 [Zhou et al., 2025] 将室内视觉观察与MLLM相结合,并结合导航策略网络来提升导航推理能力。TopV-Nav [Zhong et al., 2024] 利用鸟瞰环境图像中的边框和文本标签提示MLLM物体的空间排列,并通过MLLM推理实现动态地图缩放和目标引导导航。MP5 [Qin et al., 2024] 设计了一个具身系统,该系统通过调用MLLMS在Minecraft中分解复杂的开放世界任务并进行主动感知。VSI-Bench [Yang et al., 2024b] 测试了MLLM在室内路径规划中的应用,发现MLLM可以有效地与简单的认知地图设计配合使用。 NWM [Bar et al., 2024] 提出一种可控的视频生成模型,该模型可以预测导航的未来目标帧。

城市空间智能

具身空间智能主要涉及触手可及的微观空间内的互动和移动,而更大尺度下,LLM 则需要截然不同的空间推理范式。这种范式转变源于一个关键的尺度效应:随着空间维度的扩展,智体的物理尺寸相对于环境而言变得微不足道。因此,智体不再局限于嵌入身体的具体空间,而是开始处理超出直接物理触及范围的扩展空间领域。这种转变需要认知从主观具身认知转向客观空间表征,要求LLM将空间概念化为具有抽象属性的独立实体。这种表征能力使得高级空间功能成为可能,包括但不限于认知地图绘制、路径规划、轨迹优化,甚至生成式空间设计。
城市环境成为这些宏观尺度空间智能发展的理想试验场。作为人类创造的最复杂的空间系统,城市将各种异质元素整合到多层结构中,涵盖了物理基础设施、功能区和社会经济网络。其固有的空间复杂性已经推动了城市计算和空间计量经济学等跨学科研究前沿的发展,并奠定了重要的方法论基础。如图所示,为了系统地研究城市空间智能,本文提出了一个框架,该框架区分了理解、记忆、推理和智能能力。前者评估了LLM(生命周期管理模型)编码和保留海量城市元素的能力,而后者则考察了它们在执行城市特定任务(例如出行模拟、服务分配优化和城市规划)方面的运行能力。
请添加图片描述

空间理解与记忆

空间记忆是指模型回忆地理信息以及不同空间元素之间关系的能力[Gurnee and Tegmark, 2024]。预训练的大语言模型(LLM)能够自然地从其训练语料库中嵌入的地理数据中获取空间先验信息[Manvi et al., 2024]。这使得模型能够以类似于人类空间记忆的方式识别、存储和检索空间信息,这对于需要地理推理或解释的任务至关重要。

空间记忆可以分为两个关键方面:(1)区域特征理解;(2)空间位置和关系推理。对于区域特征理解,一种常用方法是通过快速工程提取先验知识,这包括从开源数据中收集空间信息,并利用多模态数据集成来对齐区域特征。另一种重要策略是利用 LLM来辅助下游任务,例如生成训练数据并为模型训练提供指导。关于空间位置和关系,模型可以基于其预训练的先验知识推断空间结构,并利用嵌入的地理知识来推理空间关系。此外,还开发用于构建和验证关系数据集的自动化工具,这有助于空间数据的结构化表示并增强地理推理能力。

空间推理与智能

城市空间推理是指通过推理,基于空间数据或空间关系,推导出新的空间信息或预测未来的城市动态。城市空间智能侧重于基于空间数据进行决策和响应,并能够在复杂的城市环境中做出实时判断。

地球空间智能

地球空间智能(ESI)是人工智能与地球科学交叉领域的一门跨学科学科。ESI利用大规模时空数据和前沿技术(例如 LLM和 MLLM),应对气候科学、地理学、海洋学和地质学等多个领域的复杂挑战。这些模型能够处理海量数据集,揭示模式,并生成洞见,从而推动建模、决策和环境韧性的进步。

以下略。


挑战和分析如下。

基础空间智能

对基础空间智能的研究提出了几个关键问题和挑战。

首先,空间推理的形式——空间智能的核心——仍然是一个核心问题:基于语言的空间推理是目前已知的最有效形式吗?还是存在更通用、更有效的建模方法,例如基于图的表示或多模态框架?其次,对一般空间智能进行全面评估是一项重大挑战。目前的框架通常侧重于特定任务或领域,缺乏一种统一的方法来评估跨不同情境、领域和尺度的空间智能。这种统一的评估对于理解基础空间智能及其在其他领域的表现之间的关系至关重要。这需要研究核心空间能力(例如心理自转或空间记忆)如何转化为专业领域的高阶应用。解决这些问题不仅将增进对空间智能的理论理解,还将为开发更稳健、更有效的通用人工智能模型提供信息。

具身空间智能

对于具身智能而言,空间记忆和智能的研究仍面临两大挑战。首先,目前具身智能的研究仅部分地将空间认知方面的先验知识作为方法设计的灵感来源。尽管一些研究借鉴人类空间认知的一些原理——例如寻路、心理地图构建或物体操作——但这​​些借鉴往往流于表面,缺乏与计算模型的系统性整合。因此,迫切需要一种能够将模型设计与人类空间认知底层机制深度结合的方法。这种方法不仅可以提高模型的鲁棒性和适应性,还能深入揭示人类智能的基本原理。然而,实现这种整合本身就极具挑战性,因为它需要弥合认知科学、神经科学和具身人工智能之间的鸿沟。其次,具身智能的研究涵盖了多层次的空间智能和认知,每个层次都具有独特的特征。例如,在较低层次上,诸如机器人操作之类的任务需要精细的运动控制和精确的空间推理能力,才能在受限环境中与物体进行交互。另一方面,诸如无人机(UAV)路径规划之类的较高层次任务则涉及大规模的空间推理。因此,是否有可能构建一个通用模型,将多层次(即多粒度)的空间智能集成到具身人工智能任务中,仍然是一个悬而未决的问题。

城市空间智能

尽管城市空间智能领域已取得显著进展,但仍存在一些关键挑战。首先,城市数据的异质性构成了根本性的局限性:现有框架难以将多模态输入(例如卫星图像、兴趣点和出行模式)整合为统一的空间表征,这往往导致理解碎片化。而且,对于城市专业人士而言,基于文本的复杂空间结构表征始终存在疑问。其次,由于LLM依赖静态训练数据,空间推理的稳健性仍然受到限制,而静态训练数据无法充分捕捉动态的城市现象,例如实时交通流量或不断变化的社会经济因素。第三,LLM 驱动的空间决策在城市规划和导航任务中存在可解释性不足的问题,这引发了人们对模型可信度的担忧,尤其是在模型优先考虑统计相关性而非因果空间关系时。因此,未来的研究可以优先考虑以下三个方向:(1)动态空间建模,将实时数据与 LLM 相结合,从而在应对各种限制的同时,实现对城市动态的自适应响应;(2)因果空间推理框架,以解耦环境、社会和基础设施之间的相互依赖关系,从而解决在文本范式下处理空间信息的担忧和阻力;(3)缓解空间偏见(LLM 中的地理先验信息凸显了这一问题)所面临的伦理挑战,需要系统性的审计方法来确保城市智能应用的公平性。

地球空间智能

LLM具有推动地球空间智能发展的变革性潜力,但要充分发挥其潜力,仍需克服若干挑战。其中一个关键限制是其在推理密集型任务(例如地理、地质和其他领域的上下文推理和高级空间分析)中的性能,这些任务仍然存在瓶颈。

与世界模型的关系

世界模型的概念近年来已成为该领域的重要课题,尤其是在具身空间智能领域,这得益于基于扩散生成模型的进步。正如最近的一项调查[Ding et al., 2024]所述,世界模型——植根于心理模型——具有两个关键功能:构建内部表征以解释世界的潜在机制,以及预测未来状态以指导决策。空间智能主要集中于第一个功能,即开发内部表征以加深空间理解。从计算角度来看,这与基于模型的强化学习相一致,其中参数化的环境模型可以增强智能行为。虽然其涉及世界模型的大部分方面,但重点在于理解而非生成方面,例如预测结果。将生成能力集成到空间智能建模中具有巨大的潜力。这可以构建更强大的系统,使其不仅能够理解物理世界,还能预测物​​理世界并采取行动,从而有可能解决当前基础模型中存在的局限性。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐