AI教母李飞飞:下一站不是更大语言模型,而是能“看懂”世界的空间智能
为什么李飞飞坚持认为 AI 的极限不在语言?本文系统拆解“空间智能”的核心逻辑、技术挑战与落地路径,揭示大模型之后 AI 真正需要补上的关键一课——理解物理世界。从 ImageNet 到世界模型,这不仅是学术转向,更是企业级 AI 落地的下一战场。

前言
在“企业大模型落地之道”这个专栏里,我们一直以来讨论最多的一个现实问题就是:大模型虽热,但多数企业用不起来、用不好、用不深。很多人把问题归结于算力不足、数据不够、Prompt 写得差,但更深层的瓶颈其实在认知层面——我们对“智能”的理解被语言模型的成功过度窄化了。当整个行业都在卷上下文长度、推理速度和多轮对话时,李飞飞却把目光投向了一个更根本的方向:AI 如何像人一样感知、理解并作用于三维物理世界?这不是哲学思辨,而是决定未来五年 AI 能否真正进入工厂、医院、家庭的关键。我在多个工业视觉项目中亲身体会到,哪怕一个最简单的“抓取异形零件”任务,现有大模型也完全无能为力。它能写出完美的操作手册,却看不懂零件朝哪个方向倾斜。这种“知行割裂”正是当前 AI 落地的最大障碍。本文将从技术原理、架构演进、应用场景三个维度,拆解空间智能为何是大模型之后的必经之路,以及企业该如何提前布局。
1. 语言模型的辉煌与盲区
1.1 大语言模型的成功建立在“符号抽象”之上
大语言模型(LLM)的本质是对人类语言符号序列的概率建模。它通过海量文本学习词与词之间的共现关系,进而模拟出连贯、合理甚至富有创造力的表达。这种能力在信息检索、内容生成、代码辅助等任务上展现出惊人效果。
• LLM 的训练目标极其简洁:预测下一个词元(token)。
• 数据来源高度结构化:互联网文本天然具备线性、离散、可标记化的特性。
• 评估标准明确:困惑度(perplexity)、BLEU、人类偏好打分等指标可量化进步。
这种范式之所以成功,是因为语言本身就是人类为高效沟通而发明的高度压缩的抽象系统。它剥离了感官细节,只保留语义骨架。LLM 恰好擅长处理这类骨架。
1.2 但世界不是由文字构成的
物理世界的信息密度远超文本。一段描述“阳光透过窗户洒在木地板上”的文字,背后包含:
• 光线的入射角、强度衰减、漫反射特性;
• 木材的纹理走向、热传导系数、表面粗糙度;
• 空气中尘埃的布朗运动轨迹;
• 观察者视角变化带来的透视畸变。
这些信息无法被文字完整编码。维特根斯坦说“我语言的极限即我世界的极限”,这句话对人类适用,因为人类拥有超越语言的感官体验。但对纯语言模型而言,这句话成了枷锁——它的世界真的只有语言那么大。
我在某汽车零部件质检项目中遇到典型困境:模型能准确识别“划痕”“凹陷”等缺陷类别,却无法判断“这个凹陷是否会影响装配间隙”。后者需要理解零件在三维空间中的几何约束关系,而不仅仅是像素级别的分类。
1.3 多模态模型仍未突破“感知-行动”闭环
当前主流多模态大模型(MLLM)通过图文对齐实现了初步的跨模态理解。它可以回答“图中有几把椅子”或“描述这张照片的氛围”。但这仍停留在被动观察阶段。
真正的空间智能要求主动交互:
• 给定目标“把红色积木放在蓝色积木上方”,模型需理解重力、接触面、稳定性;
• 在动态环境中预测物体运动轨迹(如接住抛来的球);
• 根据部分观测推断隐藏状态(如门后是否有障碍物)。
现有 MLLM 在这些任务上表现脆弱。它们缺乏对物理规律的内化建模,也无法维持长时间的状态一致性。生成视频几秒后就出现物体漂浮、穿模、数量突变等问题,根源在于模型没有构建内部的“世界状态”。
2. 什么是空间智能?重新定义 AI 的认知基础
2.1 空间智能是人类智能的进化原点
人类智能并非始于语言。考古证据表明,早期智人使用工具、绘制洞穴壁画的时间远早于文字系统的出现。空间操作能力——抓握、投掷、堆叠、导航——构成了认知发展的原始驱动力。
• 婴儿在出生后几个月就能追踪移动物体、判断距离;
• 动物即使没有语言,也能完成复杂的空间任务(如松鼠埋藏坚果并准确找回);
• 大脑中存在专门处理空间信息的神经回路(如海马体的位置细胞)。
这说明空间感知不是高级认知的附属品,而是智能的底层基础设施。AI 若想真正理解世界,必须重建这一基础。
2.2 空间智能的三大核心能力
李飞飞将空间智能归纳为三个相互关联的能力维度:
• 感知(Perception):从传感器输入中提取几何、语义、动态信息;
• 推理(Reasoning):基于物理规律和常识进行空间关系推断;
• 交互(Interaction):通过动作改变环境状态并预测结果。
这三者形成闭环:感知提供输入,推理生成策略,交互验证假设,新感知又反馈给系统。这个循环正是具身智能(Embodied Intelligence)的核心。
比如说:有一个仓储机器人项目,这个项目里有一个点让人体验深刻。机器人不能只靠摄像头识别货架,还需结合激光雷达构建局部地图,预测叉车移动路径,并实时调整自身位姿以避免碰撞。单一模态或静态模型完全无法胜任。
2.3 空间智能 ≠ 计算机视觉的简单延伸
有人误以为“加个3D检测模块就是空间智能”,这是严重误解。传统计算机视觉解决的是特定任务(如目标检测、姿态估计),而空间智能追求的是通用世界建模能力。
| 维度 | 传统计算机视觉 | 空间智能 |
|---|---|---|
| 目标 | 完成预设任务(如分类、分割) | 构建可交互、可推理的世界模型 |
| 输入 | 固定传感器配置(如RGB图像) | 多模态、异构输入(文本、图像、深度、动作等) |
| 输出 | 任务特定结果(边界框、标签) | 完整世界状态(含隐变量、物理属性、历史轨迹) |
| 泛化性 | 依赖大量标注数据 | 通过模拟和自监督实现跨场景迁移 |
空间智能要求模型不仅能“看到”,还能“想象”未观测区域、“预测”未来状态、“解释”物理因果。这是一种更高阶的认知范式。
3. 世界模型:通往空间智能的技术路径
3.1 世界模型的定义与核心特征
世界模型(World Model)是一种能够内部表征环境状态、模拟动态演化、并支持交互推理的生成式系统。它不是单一算法,而是一套架构范式。
下面要敲黑板了!
李飞飞提出的世界模型需具备三大特性:
• 生成性:能根据指令生成几何、物理一致的三维场景;
• 多模态性:接受文本、图像、动作等多种提示并统一处理;
• 交互性:响应动作输入,输出符合物理规律的下一状态。
这三点共同构成一个可探索、可编辑、可预测的虚拟世界。用户可以像在真实环境中一样与之互动。
3.2 当前技术路线的局限
现有方法在构建世界模型时面临多重挑战:
• 表示瓶颈:Transformer 将图像视为二维 token 序列,丢失了三维连续性。例如,在视频中跟踪一个物体需要跨帧关联,但标准 ViT 无法自然建模这种时空一致性。
• 物理建模缺失:扩散模型擅长生成逼真图像,但不懂牛顿力学。生成的水流动画可能违反质量守恒。
• 记忆机制薄弱:LLM 的上下文窗口有限,无法长期维持世界状态。房间里的椅子在生成新画面时可能凭空消失或复制。
我在测试某开源3D生成模型时发现,即使输入“一个有窗户的房间,窗外是城市”,模型也常生成内外光照矛盾、透视错乱的场景。这说明它没有建立统一的光照模型和空间坐标系。
3.3 新兴架构探索:从序列到空间
研究界正在尝试突破传统序列建模范式:
• 神经辐射场(NeRF)及其变种:通过隐式函数表示三维场景,支持新视角合成。但训练慢、泛化差,难以处理动态物体。
• 3D Gaussian Splatting:显式表示点云,渲染速度快,适合实时应用,但缺乏高层语义。
• 空间记忆架构:如 World Labs 提出的 RTFM(Real-Time Frame-based Model),将空间帧作为记忆单元,维持状态持久性。
这些方法各有优劣,但共同趋势是:放弃将世界强行压平为一维序列,转而采用更适合空间结构的表示方式。
3.4 训练数据的范式转移
语言模型的成功依赖于互联网文本的规模效应。空间智能需要全新的数据生态:
• 互联网视觉数据:数十亿图像和视频是宝贵资源,但需从中提取深度、光流、相机位姿等隐含信号;
• 合成数据:通过物理引擎(如 NVIDIA Omniverse)生成带精确标注的3D场景,可控性强;
• 真实世界交互日志:机器人操作、VR 用户行为等记录提供动作-状态对,是训练交互性的关键。
4. 企业如何布局空间智能落地
4.1 识别高价值应用场景
并非所有业务都需要空间智能。优先考虑以下特征的场景:
• 强空间依赖:任务成败取决于对三维关系的理解(如装配、导航、布局设计);
• 高试错成本:真实环境实验昂贵或危险(如医疗手术、高空作业);
• 创意生成需求:需要快速构建可探索的虚拟世界(如游戏、影视、建筑)。
例如,某家电厂商用空间智能优化厨房动线设计:用户上传户型图,系统自动生成符合人体工学的橱柜布局,并支持VR漫游体验。这比传统CAD工具效率提升5倍以上。
4.2 技术选型策略
企业不必从零构建世界模型,可采取分层策略:
• 短期:集成现有3D生成API(如 Luma AI、Kaedim)+ 规则引擎处理物理约束;
• 中期:微调开源世界模型(如 Google’s DreamFusion、Meta’s CM3D)适配垂直领域;
• 长期:自建数据闭环,结合机器人或XR设备收集交互数据,训练专属世界模型。
4.3 构建数据飞轮
空间智能的核心壁垒在于数据。企业应尽早建立:
• 感知数据采集管道:部署多模态传感器(RGB-D相机、IMU、力传感器);
• 交互日志记录系统:保存用户/机器人与环境的完整交互轨迹;
• 合成-真实对齐机制:通过域随机化(Domain Randomization)缩小模拟与现实差距。
譬如说:某自动驾驶公司通过车载传感器收集corner case,自动注入仿真平台生成百万级训练样本,使模型在罕见场景下的反应时间缩短40%。这就是数据飞轮的力量。
4.4 人才与组织准备
空间智能项目需要跨学科团队:
• 计算机视觉工程师:负责底层感知模块;
• 图形学专家:处理渲染、光照、几何建模;
• 机器人学家:设计交互协议与动作空间;
• 领域专家:提供物理约束与业务规则(如医生、建筑师)。
传统AI团队往往缺乏图形学和机器人背景,需通过外部合作或内部培训补足。我在某医疗AI项目中引入游戏引擎工程师,显著提升了手术模拟的逼真度。
5. 空间智能的未来影响
5.1 重塑人机交互范式
当前人机交互主要依赖GUI(图形用户界面)或语音命令。空间智能将催生空间用户界面(SUI):
• 用户通过手势、眼神、空间位置与虚拟对象互动;
• AI 主动预测用户意图并调整环境(如自动调节灯光、移动家具);
• 数字内容与物理空间无缝融合(AR眼镜显示叠加在真实桌面上的数据图表)。
这不再是“操作电脑”,而是“生活在智能空间中”。
5.2 加速科学发现
空间智能可模拟复杂物理系统,降低科研门槛:
• 材料科学:模拟原子级相互作用,预测新材料性能;
• 生物医学:构建器官级数字孪生,测试药物效果;
• 气候建模:高保真模拟大气-海洋耦合系统。
5.3 推动普惠创造力
专业3D创作工具(如 Maya、Blender)学习曲线陡峭。空间智能将 democratize 创造力:
• 故事讲述者用自然语言生成可探索的奇幻世界;
• 中小学生通过搭建虚拟实验理解物理定律;
• 老年人用语音指令设计自己的养老院房间布局。
这种“所想即所得”的体验,将释放亿万普通人的创造潜能。
结语
大语言模型让我们相信机器可以“思考”,但空间智能将证明机器也能“体验”。从 ImageNet 到世界模型,李飞飞的坚持不是怀旧,而是回归智能的本质——智能诞生于与世界的互动之中。企业若只盯着语言模型的尾巴,终将错过下一波浪潮。真正的机会在于:让 AI 走出屏幕,走进车间、手术室、教室和家庭,成为能看、能动、能理解物理世界的伙伴。这条路很难,但值得。因为最终,我们想要的不是一个会聊天的 AI,而是一个能帮我们建造更好世界的 AI。
更多推荐



所有评论(0)