AI教母李飞飞：下一站不是更大语言模型，而是能“看懂”世界的空间智能

为什么李飞飞坚持认为 AI 的极限不在语言？本文系统拆解“空间智能”的核心逻辑、技术挑战与落地路径，揭示大模型之后 AI 真正需要补上的关键一课——理解物理世界。从 ImageNet 到世界模型，这不仅是学术转向，更是企业级 AI 落地的下一战场。

TGITCIC

733人浏览 · 2025-11-12 10:20:00

TGITCIC · 2025-11-12 10:20:00 发布

前言

在“企业大模型落地之道”这个专栏里，我们一直以来讨论最多的一个现实问题就是：大模型虽热，但多数企业用不起来、用不好、用不深。很多人把问题归结于算力不足、数据不够、Prompt 写得差，但更深层的瓶颈其实在认知层面——我们对“智能”的理解被语言模型的成功过度窄化了。当整个行业都在卷上下文长度、推理速度和多轮对话时，李飞飞却把目光投向了一个更根本的方向：AI 如何像人一样感知、理解并作用于三维物理世界？这不是哲学思辨，而是决定未来五年 AI 能否真正进入工厂、医院、家庭的关键。我在多个工业视觉项目中亲身体会到，哪怕一个最简单的“抓取异形零件”任务，现有大模型也完全无能为力。它能写出完美的操作手册，却看不懂零件朝哪个方向倾斜。这种“知行割裂”正是当前 AI 落地的最大障碍。本文将从技术原理、架构演进、应用场景三个维度，拆解空间智能为何是大模型之后的必经之路，以及企业该如何提前布局。

1. 语言模型的辉煌与盲区

1.1 大语言模型的成功建立在“符号抽象”之上

大语言模型（LLM）的本质是对人类语言符号序列的概率建模。它通过海量文本学习词与词之间的共现关系，进而模拟出连贯、合理甚至富有创造力的表达。这种能力在信息检索、内容生成、代码辅助等任务上展现出惊人效果。

• LLM 的训练目标极其简洁：预测下一个词元（token）。
• 数据来源高度结构化：互联网文本天然具备线性、离散、可标记化的特性。
• 评估标准明确：困惑度（perplexity）、BLEU、人类偏好打分等指标可量化进步。

这种范式之所以成功，是因为语言本身就是人类为高效沟通而发明的高度压缩的抽象系统。它剥离了感官细节，只保留语义骨架。LLM 恰好擅长处理这类骨架。

1.2 但世界不是由文字构成的

物理世界的信息密度远超文本。一段描述“阳光透过窗户洒在木地板上”的文字，背后包含：

• 光线的入射角、强度衰减、漫反射特性；
• 木材的纹理走向、热传导系数、表面粗糙度；
• 空气中尘埃的布朗运动轨迹；
• 观察者视角变化带来的透视畸变。

这些信息无法被文字完整编码。维特根斯坦说“我语言的极限即我世界的极限”，这句话对人类适用，因为人类拥有超越语言的感官体验。但对纯语言模型而言，这句话成了枷锁——它的世界真的只有语言那么大。

我在某汽车零部件质检项目中遇到典型困境：模型能准确识别“划痕”“凹陷”等缺陷类别，却无法判断“这个凹陷是否会影响装配间隙”。后者需要理解零件在三维空间中的几何约束关系，而不仅仅是像素级别的分类。

1.3 多模态模型仍未突破“感知-行动”闭环

当前主流多模态大模型（MLLM）通过图文对齐实现了初步的跨模态理解。它可以回答“图中有几把椅子”或“描述这张照片的氛围”。但这仍停留在被动观察阶段。

真正的空间智能要求主动交互：

• 给定目标“把红色积木放在蓝色积木上方”，模型需理解重力、接触面、稳定性；
• 在动态环境中预测物体运动轨迹（如接住抛来的球）；
• 根据部分观测推断隐藏状态（如门后是否有障碍物）。

现有 MLLM 在这些任务上表现脆弱。它们缺乏对物理规律的内化建模，也无法维持长时间的状态一致性。生成视频几秒后就出现物体漂浮、穿模、数量突变等问题，根源在于模型没有构建内部的“世界状态”。

2. 什么是空间智能？重新定义 AI 的认知基础

2.1 空间智能是人类智能的进化原点

人类智能并非始于语言。考古证据表明，早期智人使用工具、绘制洞穴壁画的时间远早于文字系统的出现。空间操作能力——抓握、投掷、堆叠、导航——构成了认知发展的原始驱动力。

• 婴儿在出生后几个月就能追踪移动物体、判断距离；
• 动物即使没有语言，也能完成复杂的空间任务（如松鼠埋藏坚果并准确找回）；
• 大脑中存在专门处理空间信息的神经回路（如海马体的位置细胞）。

这说明空间感知不是高级认知的附属品，而是智能的底层基础设施。AI 若想真正理解世界，必须重建这一基础。

2.2 空间智能的三大核心能力

李飞飞将空间智能归纳为三个相互关联的能力维度：

• 感知（Perception）：从传感器输入中提取几何、语义、动态信息；
• 推理（Reasoning）：基于物理规律和常识进行空间关系推断；
• 交互（Interaction）：通过动作改变环境状态并预测结果。

这三者形成闭环：感知提供输入，推理生成策略，交互验证假设，新感知又反馈给系统。这个循环正是具身智能（Embodied Intelligence）的核心。

比如说：有一个仓储机器人项目，这个项目里有一个点让人体验深刻。机器人不能只靠摄像头识别货架，还需结合激光雷达构建局部地图，预测叉车移动路径，并实时调整自身位姿以避免碰撞。单一模态或静态模型完全无法胜任。

2.3 空间智能 ≠ 计算机视觉的简单延伸

有人误以为“加个3D检测模块就是空间智能”，这是严重误解。传统计算机视觉解决的是特定任务（如目标检测、姿态估计），而空间智能追求的是通用世界建模能力。

维度	传统计算机视觉	空间智能
目标	完成预设任务（如分类、分割）	构建可交互、可推理的世界模型
输入	固定传感器配置（如RGB图像）	多模态、异构输入（文本、图像、深度、动作等）
输出	任务特定结果（边界框、标签）	完整世界状态（含隐变量、物理属性、历史轨迹）
泛化性	依赖大量标注数据	通过模拟和自监督实现跨场景迁移

空间智能要求模型不仅能“看到”，还能“想象”未观测区域、“预测”未来状态、“解释”物理因果。这是一种更高阶的认知范式。

3. 世界模型：通往空间智能的技术路径

3.1 世界模型的定义与核心特征

世界模型（World Model）是一种能够内部表征环境状态、模拟动态演化、并支持交互推理的生成式系统。它不是单一算法，而是一套架构范式。

下面要敲黑板了！

李飞飞提出的世界模型需具备三大特性：

• 生成性：能根据指令生成几何、物理一致的三维场景；
• 多模态性：接受文本、图像、动作等多种提示并统一处理；
• 交互性：响应动作输入，输出符合物理规律的下一状态。

这三点共同构成一个可探索、可编辑、可预测的虚拟世界。用户可以像在真实环境中一样与之互动。

3.2 当前技术路线的局限

现有方法在构建世界模型时面临多重挑战：

• 表示瓶颈：Transformer 将图像视为二维 token 序列，丢失了三维连续性。例如，在视频中跟踪一个物体需要跨帧关联，但标准 ViT 无法自然建模这种时空一致性。
• 物理建模缺失：扩散模型擅长生成逼真图像，但不懂牛顿力学。生成的水流动画可能违反质量守恒。
• 记忆机制薄弱：LLM 的上下文窗口有限，无法长期维持世界状态。房间里的椅子在生成新画面时可能凭空消失或复制。

我在测试某开源3D生成模型时发现，即使输入“一个有窗户的房间，窗外是城市”，模型也常生成内外光照矛盾、透视错乱的场景。这说明它没有建立统一的光照模型和空间坐标系。

3.3 新兴架构探索：从序列到空间

研究界正在尝试突破传统序列建模范式：

• 神经辐射场（NeRF）及其变种：通过隐式函数表示三维场景，支持新视角合成。但训练慢、泛化差，难以处理动态物体。
• 3D Gaussian Splatting：显式表示点云，渲染速度快，适合实时应用，但缺乏高层语义。
• 空间记忆架构：如 World Labs 提出的 RTFM（Real-Time Frame-based Model），将空间帧作为记忆单元，维持状态持久性。

这些方法各有优劣，但共同趋势是：放弃将世界强行压平为一维序列，转而采用更适合空间结构的表示方式。

3.4 训练数据的范式转移

语言模型的成功依赖于互联网文本的规模效应。空间智能需要全新的数据生态：

• 互联网视觉数据：数十亿图像和视频是宝贵资源，但需从中提取深度、光流、相机位姿等隐含信号；
• 合成数据：通过物理引擎（如 NVIDIA Omniverse）生成带精确标注的3D场景，可控性强；
• 真实世界交互日志：机器人操作、VR 用户行为等记录提供动作-状态对，是训练交互性的关键。

4. 企业如何布局空间智能落地

4.1 识别高价值应用场景

并非所有业务都需要空间智能。优先考虑以下特征的场景：

• 强空间依赖：任务成败取决于对三维关系的理解（如装配、导航、布局设计）；
• 高试错成本：真实环境实验昂贵或危险（如医疗手术、高空作业）；
• 创意生成需求：需要快速构建可探索的虚拟世界（如游戏、影视、建筑）。

例如，某家电厂商用空间智能优化厨房动线设计：用户上传户型图，系统自动生成符合人体工学的橱柜布局，并支持VR漫游体验。这比传统CAD工具效率提升5倍以上。

4.2 技术选型策略

企业不必从零构建世界模型，可采取分层策略：

• 短期：集成现有3D生成API（如 Luma AI、Kaedim）+ 规则引擎处理物理约束；
• 中期：微调开源世界模型（如 Google’s DreamFusion、Meta’s CM3D）适配垂直领域；
• 长期：自建数据闭环，结合机器人或XR设备收集交互数据，训练专属世界模型。

4.3 构建数据飞轮

空间智能的核心壁垒在于数据。企业应尽早建立：

• 感知数据采集管道：部署多模态传感器（RGB-D相机、IMU、力传感器）；
• 交互日志记录系统：保存用户/机器人与环境的完整交互轨迹；
• 合成-真实对齐机制：通过域随机化（Domain Randomization）缩小模拟与现实差距。

譬如说：某自动驾驶公司通过车载传感器收集corner case，自动注入仿真平台生成百万级训练样本，使模型在罕见场景下的反应时间缩短40%。这就是数据飞轮的力量。

4.4 人才与组织准备

空间智能项目需要跨学科团队：

• 计算机视觉工程师：负责底层感知模块；
• 图形学专家：处理渲染、光照、几何建模；
• 机器人学家：设计交互协议与动作空间；
• 领域专家：提供物理约束与业务规则（如医生、建筑师）。

传统AI团队往往缺乏图形学和机器人背景，需通过外部合作或内部培训补足。我在某医疗AI项目中引入游戏引擎工程师，显著提升了手术模拟的逼真度。

5. 空间智能的未来影响

5.1 重塑人机交互范式

当前人机交互主要依赖GUI（图形用户界面）或语音命令。空间智能将催生空间用户界面（SUI）：

• 用户通过手势、眼神、空间位置与虚拟对象互动；
• AI 主动预测用户意图并调整环境（如自动调节灯光、移动家具）；
• 数字内容与物理空间无缝融合（AR眼镜显示叠加在真实桌面上的数据图表）。

这不再是“操作电脑”，而是“生活在智能空间中”。

5.2 加速科学发现

空间智能可模拟复杂物理系统，降低科研门槛：

• 材料科学：模拟原子级相互作用，预测新材料性能；
• 生物医学：构建器官级数字孪生，测试药物效果；
• 气候建模：高保真模拟大气-海洋耦合系统。

5.3 推动普惠创造力

专业3D创作工具（如 Maya、Blender）学习曲线陡峭。空间智能将 democratize 创造力：

• 故事讲述者用自然语言生成可探索的奇幻世界；
• 中小学生通过搭建虚拟实验理解物理定律；
• 老年人用语音指令设计自己的养老院房间布局。

这种“所想即所得”的体验，将释放亿万普通人的创造潜能。

结语

大语言模型让我们相信机器可以“思考”，但空间智能将证明机器也能“体验”。从 ImageNet 到世界模型，李飞飞的坚持不是怀旧，而是回归智能的本质——智能诞生于与世界的互动之中。企业若只盯着语言模型的尾巴，终将错过下一波浪潮。真正的机会在于：让 AI 走出屏幕，走进车间、手术室、教室和家庭，成为能看、能动、能理解物理世界的伙伴。这条路很难，但值得。因为最终，我们想要的不是一个会聊天的 AI，而是一个能帮我们建造更好世界的 AI。