李飞飞突破性发布:首款商用“世界模型”Marble开启AI空间智能时代
世界模型的概念并非全新,但直到最近才从学术论文走向商业应用。那么,究竟什么是世界模型?在李飞飞看来,当前以大型语言模型为代表的AI虽然擅长处理抽象知识,却如同在“黑暗中行走”,缺乏对物理世界的真实理解。而空间智能——即人类用以理解、导航并与三维世界交互的底层能力,将是实现机器真正智能的关键突破。“人类对世界的理解是整体性的,不仅关乎我们‘看见了什么’,还包括事物在空间上的关系、它们的意义以及彼此的
AI不再只是处理文本和图像,开始真正理解三维世界
11月13日,人工智能领域迎来一个里程碑时刻。被誉为“AI教母”的斯坦福大学教授李飞飞及其创业公司World Labs,正式推出了首款商用世界模型产品——Marble。这不仅是世界模型赛道的首个商用产品,更被业界视为AI向空间智能演进的关键一步。

世界模型:什么是它让李飞飞如此看重?
世界模型的概念并非全新,但直到最近才从学术论文走向商业应用。那么,究竟什么是世界模型?
在李飞飞看来,当前以大型语言模型为代表的AI虽然擅长处理抽象知识,却如同在 “黑暗中行走” ,缺乏对物理世界的真实理解。而空间智能——即人类用以理解、导航并与三维世界交互的底层能力,将是实现机器真正智能的关键突破。
“人类对世界的理解是整体性的,不仅关乎我们‘看见了什么’,还包括事物在空间上的关系、它们的意义以及彼此的关联。” 李飞飞在近期发表的长文中解释道。
为了赋予机器这种能力,我们需要构建一种全新的“世界模型”,一类能构建环境内部表征的AI系统。李飞飞指出,真正具备空间智能的世界模型必须拥有三大核心能力:
-
生成性:能创造遵守物理定律、空间一致的世界
-
多模态:能处理从图像、视频到动作的多模态输入
-
交互性:能预测世界随时间演变或互动的状态
Marble:与世界深度交互而不仅是观看
Marble作为World Labs的首个商业产品,展示了世界模型技术的成熟度。与传统的AI系统相比,Marble的核心突破在于其能够从有限的视觉输入中预测未来的场景状态。
Marble的几个关键特性:
-
物理预测:给定一个简单场景——如桌面上摆放的积木,Marble能够准确预测如果推动其中一块积木,整个结构将如何反应
-
持久化3D环境:与动态生成世界不同,Marble生成的是持久化、可下载的3D环境,显著减少了场景变形与不一致性
-
多格式导出:支持将生成世界导出为高斯泼溅(Gaussian splats)、网格(meshes)或视频格式
-
不确定性量化:与给出单一预测的传统模型不同,Marble能够明确表示预测中的不确定性
Marble目前已开放免费增值与付费订阅服务,支持用户通过文本提示词、照片、视频、3D布局图或全景图生成可编辑、可下载的3D环境。
定价方面,Marble提供四档订阅方案:免费版支持4次生成(仅文本和图像输入),标准版每月20美元,最贵的旗舰版达到95美元/月,包含75次生成并可解锁全部功能。
为何此刻空间智能成为AI的下一个前沿?
李飞飞在长文中回顾了智能的进化历程。她指出,视觉长久以来都是人类智能的基石,但其力量源于更为根本的能力。
“远在动物学会筑巢、哺育后代、用语言交流或建立文明之前,感知这一简单的行为就已悄然点燃了通往智能的进化火花。”
这种从外部世界收集信息的能力,在感知与生存之间架起了桥梁。李飞飞认为,感知与行动的循环是驱动智能进化的核心动力,也是自然界创造出人类的根基。
与此形成对比的是,当前的AI系统在空间理解方面仍存在巨大差距。李飞飞坦言,在最先进的MLLM模型在估算距离、方向和心理旋转等任务上,“表现鲜有超过随机猜测的”。它们无法走出迷宫、识别捷径或预测基本的物理现象。
世界模型的竞争格局与应用前景
World Labs并非唯一觊觎世界模型这一圣杯的玩家。在全球范围内,一场无声的竞赛早已展开:
-
谷歌的Genie:仍处于有限研究预览阶段
-
DeepMind的Genie:已能够从单张图像生成交互式环境
-
Meta:通过超大规模视频训练构建隐式世界模型
-
中国科技公司:如字节跳动、阿里巴巴和百度也纷纷布局相关研究
世界模型的应用前景广阔,沿着一条清晰的路径演进:
短期内,空间智能将赋能创造力,为电影、游戏和建筑领域的创作者提供强大工具。Marble这样的平台能快速生成可探索的3D环境。
中期来看,空间智能将推动具身智能机器人的发展,通过高仿真训练使其成为人类在家庭、实验室中的协作伙伴。
长远看,空间智能有望在科学、医疗和教育领域引发革命,通过模拟实验、辅助诊断和沉浸式学习,极大增强人类在各自专业领域的能力。
世界模型面临的技术挑战
尽管前景诱人,世界模型的发展仍面临重大技术挑战:
-
复杂性挑战:真实世界的物理规则极其复杂,构建统一世界模型需整合大量物理知识
-
计算成本:世界模型的训练和推理需要巨大的计算资源
-
评估难题:世界模型的预测质量难以用简单指标衡量
李飞飞在采访中承认这些挑战的存在:“我们正在攀登一座高山,目前可能只到达了山脚。”
从ImageNet到World Labs:李飞飞的愿景之旅
李飞飞对视觉与空间智能的追求并非一时兴起。在她踏入AI领域以来,这一直是指引她前行的“北极星”。
正是这一追求,促使她花费数年时间构建了ImageNet——首个大规模视觉学习与基准测试数据集。它与神经网络算法、GPU等现代计算设备一道,成为催生现代AI的三大关键基石之一。
也正因如此,她在斯坦福大学的学术实验室在过去十年里,始终致力于将计算机视觉与机器人学习相结合。
2024年,李飞飞与联合创始人共同创立了World Labs,旨在“首次将这一可能性淋漓尽致地变为现实”。公司在短短几月内就完成约2.3亿美元融资,估值迅速突破10亿美元,成为AI领域最新的独角兽企业。
未来展望:超越语言的人工智能
哲学家维特根斯坦曾说:“我语言的极限,意味着我世界的极限。”对此李飞飞回应:“至少对AI而言,世界远不止于文字。”
空间智能代表了超越语言的新前沿——它是一种将想象、感知与行动融会贯通的能力,为机器真正提升人类生活开启了无限可能。
更多推荐


所有评论(0)