李飞飞最新演讲:空间智能——AI的下一个前沿,开启三维世界理解新时代,收藏学习!
本文讲述了斯坦福教授李飞飞提出"空间智能"是AI的下一个前沿。她回顾了AI视觉从ImageNet到生成式AI的发展历程,认为AI需要从二维理解跃升至三维世界理解,才能真正接近通用智能。为此,她创立了World Labs,专注于"世界模型"研究,使AI能生成、推理和重建三维场景。空间智能将重塑内容创作、机器人交互等领域,成为连接物理与数字世界的关键基础层。
本文讲述了斯坦福教授李飞飞提出"空间智能"是AI的下一个前沿。她回顾了AI视觉从ImageNet到生成式AI的发展历程,认为AI需要从二维理解跃升至三维世界理解,才能真正接近通用智能。为此,她创立了World Labs,专注于"世界模型"研究,使AI能生成、推理和重建三维场景。空间智能将重塑内容创作、机器人交互等领域,成为连接物理与数字世界的关键基础层。
2025 年 6 月 16 日,斯坦福教授李飞飞在旧金山的 AI Startup School 举行了一场炉边对谈,主题为《Spatial Intelligence is the Next Frontier in AI》。这场演讲标志着她的研究和创业方向从“视觉识别”正式迈向“空间智能”,并介绍了她最新创立的公司——World Labs。
一、从 ImageNet 到生成式 AI:AI 视觉的第一阶段
李飞飞是全球人工智能领域最具影响力的研究者之一。她曾担任谷歌云 AI 首席科学家、现任斯坦福大学计算机科学教授。她的工作在很大程度上定义了现代计算机视觉的发展路径。
她在演讲中首先回顾了2009年创建 ImageNet 的过程——这是一个包含上千万张标注图片的数据集,成为后来深度学习时代的基础性里程碑。
“2007 年,我们意识到机器学习的瓶颈不在算法,而在数据。”
在当时,神经网络在视觉领域并不流行。李飞飞与学生决定从互联网收集上亿张图片,建立全球视觉分类体系,并开放给整个研究界。
2012 年,AlexNet 在 ImageNet 比赛中以前所未有的准确率胜出,开启了深度学习革命。
她强调,那一刻是“数据、算力和算法”三者首次融合:
- 数据:ImageNet 提供了大规模训练样本;
- 算力:GPU 计算被首次应用于深度学习训练;
- 算法:卷积神经网络(CNN)在视觉任务中展现出突破性性能。
这为后续的图像识别、自动驾驶、医疗影像、生成式模型奠定了基础。
二、从“识别物体”到“理解世界”:AI 视觉的第二阶段
在 ImageNet 之后,李飞飞的研究继续推进视觉智能的边界。
她与学生(包括后来的 OpenAI 联合创始人 Andrej Karpathy)合作,探索了“图像描述”问题——让模型不仅识别物体,还能用自然语言描述场景。
“当人类看一张图时,不只是看到猫或椅子,而是理解‘这是一间会议室’,‘这里有人在讲话’。那是视觉理解的真正意义。”
2015 年,李飞飞团队发表了早期的“图像自动生成文字描述”论文,这成为“多模态学习”的重要起点。
她在演讲中提到,当时她曾半开玩笑地对学生说:
“我们能不能反过来,让模型从一句话生成图像?”
十年后,这个笑谈成为现实。
如今的扩散模型与生成式 AI(如 Midjourney、Sora)都在执行这一任务。
三、空间智能:AI 的下一个前沿
李飞飞认为,当前的大模型在语言领域已经进入平台期,而人工智能要想进一步接近通用智能,必须跨过一个新的门槛——空间智能。
她在演讲中指出:
“语言是 1D 的,基于符号与序列;世界是 3D 的,甚至加上时间,是 4D 的。
AGI 如果不能理解三维世界,它就不完整。”
空间智能指 AI 理解、推理和生成三维世界的能力。这不仅包括识别和生成三维场景,还涉及物理约束、空间关系、物体交互与行为规划。
李飞飞从生物进化的角度解释这一点:
- 人类语言的演化大约花了几十万年;
- 视觉系统的发展则经历了超过 5 亿年,从最早的三叶虫开始。
她认为视觉与空间感知才是智能的根本驱动力。
而相比语言模型的“文本自监督学习”,空间智能要面对更复杂的数据获取、物理一致性与多模态融合问题。
四、World Labs:面向世界模型的基础研究公司
为了探索空间智能的落地路径,李飞飞创立了 World Labs。
她在演讲中透露,公司聚焦于“世界模型”的构建——这类模型不仅能生成视觉图像,更能推理三维结构、重建真实场景并进行空间推断。
联合创始团队由三位顶尖研究者组成:
- Justin Johnson:李飞飞在斯坦福的博士生,早期提出“神经风格迁移(Neural Style Transfer)”;
- Ben Mildenhall:NeRF(Neural Radiance Fields)第一作者,是三维重建技术的关键人物;
- Christoph Lassner:Pulsar 创始人,差分渲染(Differentiable Rendering)领域专家。
这些研究者代表了当下计算机视觉中最前沿的方向——从像素建模到场景重建,从图像理解到空间推理。
World Labs 的目标,是开发一类全新的基础模型,使 AI 能在“生成”与“重建”之间自由切换,既能用于虚拟世界(如内容创作、游戏、数字孪生),也能延伸到现实世界(如机器人感知、自动驾驶、工业仿真)。
“语言大模型重塑了文字世界,而世界模型将重塑物理世界。”
她强调,空间智能模型将成为连接物理世界与数字世界的关键基础层。
五、空间智能的技术与产业意义
1. 技术层面:从 2D 到 3D 的模型重构
当前的生成模型(如扩散模型)主要处理二维像素,而空间智能需要在三维空间中理解几何、光照、运动和物理规律。
这意味着模型架构、数据采集、算力组织都要重构。
李飞飞指出,3D 感知是一个“病态问题”——三维到二维的投影存在信息丢失,需要融合多传感器和多模态信号才能解决。
2. 应用层面:从虚拟世界到现实世界
空间智能的应用范围远超图像识别。李飞飞提到三个主要方向:
- 内容生成与设计:为建筑、游戏、影视提供可编辑的三维场景;
- 机器人与自动化:让机器具备空间推理与操作能力;
- 人机交互与沉浸体验:结合 XR、AR 硬件,实现更自然的交互方式。
她也认为,这将为“元宇宙”“数字孪生”等尚未成熟的领域带来新的技术基础。
六、从学术到创业:延续探索式的路径
李飞飞在演讲最后谈到自己的人生轨迹。
她早年移民美国时,在加州经营过一家自助洗衣店以资助学业;后来在普林斯顿任教,进入斯坦福与谷歌;2020 年在斯坦福创立“人本智能研究院”,推动人工智能与社会伦理结合。
她强调,无论在学术还是产业中,AI 的最终目标应当是“以人为中心的智能系统”:即在推动技术极限的同时,保持人类价值与社会责任的约束。
最后,过去十年,AI 的进步主要集中在“语言”这一维度:
从 GPT 到 Claude,再到 Gemini,机器已经可以理解和生成文字、代码与图像。
李飞飞所提出的“空间智能”,则代表着下一阶段的跃迁——让 AI 不仅能描述世界,更能在世界中行动、感知和推理。
2025年伊始,AI技术浪潮汹涌,正在深刻重塑程序员的职业轨迹:
阿里云宣布核心业务全线接入Agent架构;
字节跳动后端岗位中,30%明确要求具备大模型开发能力;
腾讯、京东、百度等技术岗位开放招聘,约80%与AI紧密相关;
……
大模型正推动技术开发模式全面升级,传统的CRUD开发方式,逐渐被AI原生应用所替代!
眼下,已有超60%的企业加速推进AI应用落地,然而市场上能真正交付项目的大模型应用开发工程师,却极为短缺!实现AI应用落地,远不止写几个提示词、调用几个接口那么简单。企业真正需要的,是能将业务需求转化为实际AI应用的工程师!这些核心能力不可或缺:
✅RAG(检索增强生成):为模型注入外部知识库,从根本上提升答案的准确性与可靠性,打造可靠、可信的“AI大脑”。
✅Agent(智能体): 赋能AI自主规划与执行,通过工具调用与环境交互,完成多步推理,胜任智能客服等复杂任务。
✅微调:如同对通用模型进行“专业岗前培训”,让它成为你特定业务领域的专家。
随着AI技术飞速发展,大模型的应用已从理论走向大规模落地,渗透到社会经济的方方面面。
- 技术能力上:其强大的数据处理与模式识别能力,正在重塑自然语言处理、计算机视觉等领域。
- 行业应用上:开源人工智能大模型已走出实验室,广泛落地于医疗、金融、制造等众多行业。尤其在金融、企业服务、制造和法律领域,应用占比已超过30%,正在创造实实在在的价值。

未来大模型行业竞争格局以及市场规模分析预测:
掌握AI能力的程序员,其薪资水位已与传统开发拉开显著差距。当大厂开始优化传统岗位时,却为AI大模型人才开出百万年薪——而这,在当下仍是一将难求。
技术的稀缺性,才是你「值钱」的关键!


AI浪潮,正在重构程序员的核心竞争力!不要等“有AI项目开发经验”,成为面试门槛的时候再入场,错过最佳时机!
那么,我们如何学习AI大模型呢?
在一线互联网企业工作十余年里,我指导过不少同行后辈,经常会收到一些问题,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题,也不是三言两语啊就能讲明白的。
所以呢,我专为各位开发者设计了一套全网最全最细的大模型零基础教程,从基础到应用开发实战训练,旨在将你打造成一名兼具深度技术与商业视野的AI大佬,而非仅仅是“调参侠”。
同时,这份精心整理的AI大模型学习资料,我整理好了,免费分享!只希望它能用在正道上,帮助真正想提升自己的朋友。让我们一起用技术做点酷事!
ps:微信扫描即可获取
加上后我将逐一发送资料
与志同道合者共勉
真诚无偿分享!!!
※大模型全套学习资料展示
通过与MoPaaS魔泊云的强强联合,我们的课程实现了质的飞跃。我们持续优化课程架构,并新增了多项贴合产业需求的前沿技术实践,确保你能获得更系统、更实战、更落地的大模型工程化能力,从容应对真实业务挑战。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
Part 1 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。希望这份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

👇微信扫描下方二维码即可~

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
Part2 全套AI大模型应用开发视频教程
包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点。剖析AI技术的应用场景,用实战经验落地AI技术。从GPT到最火的开源模型,让你从容面对AI技术革新!
01 大模型微调
- 掌握主流大模型(如DeepSeek、Qwen等)的微调技术,针对特定场景优化模型性能。
- 学习如何利用领域数据(如制造、医药、金融等)进行模型定制,提升任务准确性和效率。
02 RAG应用开发
-
深入理解检索增强生成(Retrieval-Augmented Generation, RAG)技术,构建高效的知识检索与生成系统。
-
应用于垂类场景(如法律文档分析、医疗诊断辅助、金融报告生成等),实现精准信息提取与内容生成。
03 AI Agent智能体搭建
- 学习如何设计和开发AI Agent,实现多任务协同、自主决策和复杂问题解决。
- 构建垂类场景下的智能助手(如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等)。


Part3 大模型学习书籍&文档
新手必备的权威大模型学习PDF书单来了!全是一系列由领域内的顶尖专家撰写的大模型技术的书籍和学习文档(电子版),从基础理论到实战应用,硬核到不行!
※(真免费,真有用,错过这次拍大腿!)

Part4 AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

Part5 大模型项目实战&配套源码
学以致用,热门项目拆解,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
学完项目经验直接写进简历里,面试不怕被问!👇

Part6 AI产品经理+大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。


最后,如果你正面临以下挑战与期待:
- 渴望转行进入AI领域,顺利拿下高薪offer;
- 即将参与核心项目,急需补充AI知识补齐短板;
- 拒绝“35岁危机”,远离降薪裁员风险;
- 持续迭代技术栈,拥抱AI时代变革,创建职业壁垒;
- ……
那么这份全套学习资料是一次为你量身定制的职业破局方案!
ps:微信扫描即可获取
加上后我将逐一发送资料
与志同道合者共勉
真诚无偿分享!!!与其焦虑……
不如成为「掌握AI大模型的技术人」!
毕竟AI时代,谁先尝试,谁就能占得先机!
最后,祝大家学习顺利,抓住机遇,共创美好未来!
更多推荐

与其焦虑……


所有评论(0)