前言

在“企业大模型落地之道”这个专栏里,我们一直以来讨论最多的一个现实问题就是:大模型虽热,但多数企业用不起来、用不好、用不深。很多人把问题归结于算力不足、数据不够、Prompt 写得差,但更深层的瓶颈其实在认知层面——我们对“智能”的理解被语言模型的成功过度窄化了。当整个行业都在卷上下文长度、推理速度和多轮对话时,李飞飞却把目光投向了一个更根本的方向:AI 如何像人一样感知、理解并作用于三维物理世界?这不是哲学思辨,而是决定未来五年 AI 能否真正进入工厂、医院、家庭的关键。我在多个工业视觉项目中亲身体会到,哪怕一个最简单的“抓取异形零件”任务,现有大模型也完全无能为力。它能写出完美的操作手册,却看不懂零件朝哪个方向倾斜。这种“知行割裂”正是当前 AI 落地的最大障碍。本文将从技术原理、架构演进、应用场景三个维度,拆解空间智能为何是大模型之后的必经之路,以及企业该如何提前布局。

1. 语言模型的辉煌与盲区

1.1 大语言模型的成功建立在“符号抽象”之上

大语言模型(LLM)的本质是对人类语言符号序列的概率建模。它通过海量文本学习词与词之间的共现关系,进而模拟出连贯、合理甚至富有创造力的表达。这种能力在信息检索、内容生成、代码辅助等任务上展现出惊人效果。

• LLM 的训练目标极其简洁:预测下一个词元(token)。
• 数据来源高度结构化:互联网文本天然具备线性、离散、可标记化的特性。
• 评估标准明确:困惑度(perplexity)、BLEU、人类偏好打分等指标可量化进步。

这种范式之所以成功,是因为语言本身就是人类为高效沟通而发明的高度压缩的抽象系统。它剥离了感官细节,只保留语义骨架。LLM 恰好擅长处理这类骨架。

1.2 但世界不是由文字构成的

物理世界的信息密度远超文本。一段描述“阳光透过窗户洒在木地板上”的文字,背后包含:

• 光线的入射角、强度衰减、漫反射特性;
• 木材的纹理走向、热传导系数、表面粗糙度;
• 空气中尘埃的布朗运动轨迹;
• 观察者视角变化带来的透视畸变。

这些信息无法被文字完整编码。维特根斯坦说“我语言的极限即我世界的极限”,这句话对人类适用,因为人类拥有超越语言的感官体验。但对纯语言模型而言,这句话成了枷锁——它的世界真的只有语言那么大。

我在某汽车零部件质检项目中遇到典型困境:模型能准确识别“划痕”“凹陷”等缺陷类别,却无法判断“这个凹陷是否会影响装配间隙”。后者需要理解零件在三维空间中的几何约束关系,而不仅仅是像素级别的分类。

1.3 多模态模型仍未突破“感知-行动”闭环

当前主流多模态大模型(MLLM)通过图文对齐实现了初步的跨模态理解。它可以回答“图中有几把椅子”或“描述这张照片的氛围”。但这仍停留在被动观察阶段。

真正的空间智能要求主动交互:

• 给定目标“把红色积木放在蓝色积木上方”,模型需理解重力、接触面、稳定性;
• 在动态环境中预测物体运动轨迹(如接住抛来的球);
• 根据部分观测推断隐藏状态(如门后是否有障碍物)。

现有 MLLM 在这些任务上表现脆弱。它们缺乏对物理规律的内化建模,也无法维持长时间的状态一致性。生成视频几秒后就出现物体漂浮、穿模、数量突变等问题,根源在于模型没有构建内部的“世界状态”。

2. 什么是空间智能?重新定义 AI 的认知基础

2.1 空间智能是人类智能的进化原点

人类智能并非始于语言。考古证据表明,早期智人使用工具、绘制洞穴壁画的时间远早于文字系统的出现。空间操作能力——抓握、投掷、堆叠、导航——构成了认知发展的原始驱动力。

• 婴儿在出生后几个月就能追踪移动物体、判断距离;
• 动物即使没有语言,也能完成复杂的空间任务(如松鼠埋藏坚果并准确找回);
• 大脑中存在专门处理空间信息的神经回路(如海马体的位置细胞)。

这说明空间感知不是高级认知的附属品,而是智能的底层基础设施。AI 若想真正理解世界,必须重建这一基础。

2.2 空间智能的三大核心能力

李飞飞将空间智能归纳为三个相互关联的能力维度:

感知(Perception):从传感器输入中提取几何、语义、动态信息;
推理(Reasoning):基于物理规律和常识进行空间关系推断;
交互(Interaction):通过动作改变环境状态并预测结果。

这三者形成闭环:感知提供输入,推理生成策略,交互验证假设,新感知又反馈给系统。这个循环正是具身智能(Embodied Intelligence)的核心。

比如说:有一个仓储机器人项目,这个项目里有一个点让人体验深刻。机器人不能只靠摄像头识别货架,还需结合激光雷达构建局部地图,预测叉车移动路径,并实时调整自身位姿以避免碰撞。单一模态或静态模型完全无法胜任。

2.3 空间智能 ≠ 计算机视觉的简单延伸

有人误以为“加个3D检测模块就是空间智能”,这是严重误解。传统计算机视觉解决的是特定任务(如目标检测、姿态估计),而空间智能追求的是通用世界建模能力。

维度 传统计算机视觉 空间智能
目标 完成预设任务(如分类、分割) 构建可交互、可推理的世界模型
输入 固定传感器配置(如RGB图像) 多模态、异构输入(文本、图像、深度、动作等)
输出 任务特定结果(边界框、标签) 完整世界状态(含隐变量、物理属性、历史轨迹)
泛化性 依赖大量标注数据 通过模拟和自监督实现跨场景迁移

空间智能要求模型不仅能“看到”,还能“想象”未观测区域、“预测”未来状态、“解释”物理因果。这是一种更高阶的认知范式。

3. 世界模型:通往空间智能的技术路径

3.1 世界模型的定义与核心特征

世界模型(World Model)是一种能够内部表征环境状态、模拟动态演化、并支持交互推理的生成式系统。它不是单一算法,而是一套架构范式。

下面要敲黑板了!

李飞飞提出的世界模型需具备三大特性:

生成性:能根据指令生成几何、物理一致的三维场景;
多模态性:接受文本、图像、动作等多种提示并统一处理;
交互性:响应动作输入,输出符合物理规律的下一状态。

这三点共同构成一个可探索、可编辑、可预测的虚拟世界。用户可以像在真实环境中一样与之互动。

3.2 当前技术路线的局限

现有方法在构建世界模型时面临多重挑战:

表示瓶颈:Transformer 将图像视为二维 token 序列,丢失了三维连续性。例如,在视频中跟踪一个物体需要跨帧关联,但标准 ViT 无法自然建模这种时空一致性。
物理建模缺失:扩散模型擅长生成逼真图像,但不懂牛顿力学。生成的水流动画可能违反质量守恒。
记忆机制薄弱:LLM 的上下文窗口有限,无法长期维持世界状态。房间里的椅子在生成新画面时可能凭空消失或复制。

我在测试某开源3D生成模型时发现,即使输入“一个有窗户的房间,窗外是城市”,模型也常生成内外光照矛盾、透视错乱的场景。这说明它没有建立统一的光照模型和空间坐标系。

3.3 新兴架构探索:从序列到空间

研究界正在尝试突破传统序列建模范式:

神经辐射场(NeRF)及其变种:通过隐式函数表示三维场景,支持新视角合成。但训练慢、泛化差,难以处理动态物体。
3D Gaussian Splatting:显式表示点云,渲染速度快,适合实时应用,但缺乏高层语义。
空间记忆架构:如 World Labs 提出的 RTFM(Real-Time Frame-based Model),将空间帧作为记忆单元,维持状态持久性。

这些方法各有优劣,但共同趋势是:放弃将世界强行压平为一维序列,转而采用更适合空间结构的表示方式。

3.4 训练数据的范式转移

语言模型的成功依赖于互联网文本的规模效应。空间智能需要全新的数据生态:

互联网视觉数据:数十亿图像和视频是宝贵资源,但需从中提取深度、光流、相机位姿等隐含信号;
合成数据:通过物理引擎(如 NVIDIA Omniverse)生成带精确标注的3D场景,可控性强;
真实世界交互日志:机器人操作、VR 用户行为等记录提供动作-状态对,是训练交互性的关键。

4. 企业如何布局空间智能落地

4.1 识别高价值应用场景

并非所有业务都需要空间智能。优先考虑以下特征的场景:

强空间依赖:任务成败取决于对三维关系的理解(如装配、导航、布局设计);
高试错成本:真实环境实验昂贵或危险(如医疗手术、高空作业);
创意生成需求:需要快速构建可探索的虚拟世界(如游戏、影视、建筑)。

例如,某家电厂商用空间智能优化厨房动线设计:用户上传户型图,系统自动生成符合人体工学的橱柜布局,并支持VR漫游体验。这比传统CAD工具效率提升5倍以上。

4.2 技术选型策略

企业不必从零构建世界模型,可采取分层策略:

短期:集成现有3D生成API(如 Luma AI、Kaedim)+ 规则引擎处理物理约束;
中期:微调开源世界模型(如 Google’s DreamFusion、Meta’s CM3D)适配垂直领域;
长期:自建数据闭环,结合机器人或XR设备收集交互数据,训练专属世界模型。

4.3 构建数据飞轮

空间智能的核心壁垒在于数据。企业应尽早建立:

感知数据采集管道:部署多模态传感器(RGB-D相机、IMU、力传感器);
交互日志记录系统:保存用户/机器人与环境的完整交互轨迹;
合成-真实对齐机制:通过域随机化(Domain Randomization)缩小模拟与现实差距。

譬如说:某自动驾驶公司通过车载传感器收集corner case,自动注入仿真平台生成百万级训练样本,使模型在罕见场景下的反应时间缩短40%。这就是数据飞轮的力量。

4.4 人才与组织准备

空间智能项目需要跨学科团队:

计算机视觉工程师:负责底层感知模块;
图形学专家:处理渲染、光照、几何建模;
机器人学家:设计交互协议与动作空间;
领域专家:提供物理约束与业务规则(如医生、建筑师)。

传统AI团队往往缺乏图形学和机器人背景,需通过外部合作或内部培训补足。我在某医疗AI项目中引入游戏引擎工程师,显著提升了手术模拟的逼真度。

5. 空间智能的未来影响

5.1 重塑人机交互范式

当前人机交互主要依赖GUI(图形用户界面)或语音命令。空间智能将催生空间用户界面(SUI)

• 用户通过手势、眼神、空间位置与虚拟对象互动;
• AI 主动预测用户意图并调整环境(如自动调节灯光、移动家具);
• 数字内容与物理空间无缝融合(AR眼镜显示叠加在真实桌面上的数据图表)。

这不再是“操作电脑”,而是“生活在智能空间中”。

5.2 加速科学发现

空间智能可模拟复杂物理系统,降低科研门槛:

材料科学:模拟原子级相互作用,预测新材料性能;
生物医学:构建器官级数字孪生,测试药物效果;
气候建模:高保真模拟大气-海洋耦合系统。

5.3 推动普惠创造力

专业3D创作工具(如 Maya、Blender)学习曲线陡峭。空间智能将 democratize 创造力:

• 故事讲述者用自然语言生成可探索的奇幻世界;
• 中小学生通过搭建虚拟实验理解物理定律;
• 老年人用语音指令设计自己的养老院房间布局。

这种“所想即所得”的体验,将释放亿万普通人的创造潜能。

结语

大语言模型让我们相信机器可以“思考”,但空间智能将证明机器也能“体验”。从 ImageNet 到世界模型,李飞飞的坚持不是怀旧,而是回归智能的本质——智能诞生于与世界的互动之中。企业若只盯着语言模型的尾巴,终将错过下一波浪潮。真正的机会在于:让 AI 走出屏幕,走进车间、手术室、教室和家庭,成为能看、能动、能理解物理世界的伙伴。这条路很难,但值得。因为最终,我们想要的不是一个会聊天的 AI,而是一个能帮我们建造更好世界的 AI。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐