从文字到世界:空间智能是人工智能的下一个前沿
日常生活中,人类依赖它完成看似平凡的动作:停车时想象车尾与路沿间的距离,接住抛来的钥匙,穿过人群而不相撞,或在半梦半醒间将咖啡倒入杯中。而让 AI 真正理解并增强人类创造力——无论是学习分子化学的学生、构思建筑的设计师、创作世界的电影人,还是追求沉浸体验的艺术家——这一目标依旧未能实现。科学界普遍认为,感知与行动构成了推动智慧进化的核心循环,也是自然创造出人类——这一感知、学习、思考与行动的顶点物
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

人”:语言优美却缺乏经验,知识丰富却缺乏落地。空间智能(Spatial Intelligence)则将改变人类创造与互动的方式——重塑叙事、创意、机器人、科学发现乃至更广泛的世界。这正是人工智能的下一个前沿。
视觉与空间智能的追求,自学界进入此领域以来,始终是引领方向的“北极星”。正是出于这一信念,科研团队曾花费多年时间构建了 ImageNet——第一个大规模视觉学习与基准数据集,它与神经网络算法及图形处理单元(GPU)一起,成为现代人工智能的三大基石。正因如此,斯坦福大学的实验室在过去十年持续探索计算机视觉与机器人学习的结合;也因此,研究者与合作者们于2024年创立了 World Labs,旨在首次完整实现这一可能性。
本文旨在阐释何为空间智能、为何它至关重要,以及如何通过“世界模型”(World Models)释放其潜力,从而重新定义创造力、具身智能与人类进步的方式。
空间智能:人类认知的脚手架
人工智能正处于史上最令人振奋的时刻。生成式人工智能模型,如大型语言模型(LLM),已经从研究实验室走进日常生活,成为数十亿人用于创作、生产与沟通的工具。这些模型展现了昔日被认为“不可能”的能力——能生成连贯文本、复杂代码、逼真图像,甚至短视频。人工智能是否将改变世界?答案已然明确:它已经在改变世界。
然而,仍有许多能力尚未触及。自主机器人的愿景依旧停留在猜想层面,距离真正融入日常生活仍有漫长距离。AI 加速疾病治愈、新材料发现或粒子物理研究的梦想,仍未兑现。而让 AI 真正理解并增强人类创造力——无论是学习分子化学的学生、构思建筑的设计师、创作世界的电影人,还是追求沉浸体验的艺术家——这一目标依旧未能实现。
要理解为何这些能力依然遥不可及,必须追溯空间智能的进化根源。
视觉长期以来是人类智能的核心,而其力量源于更为根本的能力。远在人类能筑巢、抚育后代、以语言交流或建立文明之前,感知世界的简单行为就已悄然引发了智慧的进化之旅。
这种从外界获取信息的能力——无论是光的闪烁还是触觉的反馈——在感知与生存之间架起了桥梁。随着世代更替,这座桥梁愈发复杂:神经系统由此演化,用以理解世界并协调生物体与环境之间的互动。科学界普遍认为,感知与行动构成了推动智慧进化的核心循环,也是自然创造出人类——这一感知、学习、思考与行动的顶点物种——的根基。
空间智能定义了人类与物理世界交互的方式。日常生活中,人类依赖它完成看似平凡的动作:停车时想象车尾与路沿间的距离,接住抛来的钥匙,穿过人群而不相撞,或在半梦半醒间将咖啡倒入杯中。更极端的情况下,消防员在烟雾与坍塌中导航,凭借空间直觉判断结构稳定性与逃生路线;儿童在学会语言之前的岁月里,则通过与环境的游戏探索世界。这些行为都自然、直觉且自动完成——这是机器尚未达到的流畅度。
空间智能同样是人类想象力与创造力的基础。从洞穴壁画到现代电影,从虚拟游戏到元宇宙,叙事者通过空间想象构建世界。无论是堆沙堡的儿童还是在电脑上构筑 Minecraft 世界的玩家,空间化的想象都支撑着现实与虚拟的互动体验。在工业应用中,对物体、场景与动态环境的模拟已成为设计、制造、数字孪生与机器人训练等核心环节。
历史上,空间智能推动了无数文明进步的关键时刻。古希腊学者埃拉托色尼通过测量影子的角度推算地球周长;哈格里夫斯通过并排布置多轴纺锤发明了“珍妮纺纱机”,极大提高了生产效率;沃森与克里克则通过搭建三维分子模型,发现了 DNA 的双螺旋结构。这些成就都离不开对空间结构与物理关系的思考——而这超出了语言所能描述的范畴。
空间智能是人类认知的支架。它存在于观察与创造的每一刻,驱动着推理与规划,构成了人与环境、人与人之间的交互基础。
然而,今日的人工智能尚未真正具备这种能力。
尽管多模态大模型(MLLM)已在视觉理解与生成上取得突破,但在空间推理上仍远不及人类。它们在判断距离、方向、大小等方面的准确率接近随机,无法进行空间旋转、路径规划或预测基本物理规律。AI 生成的视频常在数秒后失去连贯性。
人类对世界的理解是整体性的——不仅看到事物本身,还理解它们之间的空间关系与意义。而空间智能正是这种理解力的核心:让思维、想象与行动结合,从而与真实世界相连。没有空间智能的人工智能,无法真正驱动汽车、引导机器人在医院或家庭中工作,也难以创造沉浸式学习体验或加速科学发现。
哲学家维特根斯坦曾说:“语言的界限意味着世界的界限。”而对人工智能而言,世界不止于语言。空间智能代表着超越语言的前沿——它连接想象、感知与行动,让机器能够以全新方式扩展人类能力,从医疗到科学,从艺术到日常生活。
未来十年:构建真正具备空间智能的机器
构建空间智能 AI,需要超越语言模型的雄心:发展“世界模型”(World Models)。这种模型不仅要理解语义,更要在物理、几何与动态层面生成并交互于复杂的虚拟或真实世界。
空间智能世界模型具备三大核心特征:
一是生成性(Generative)——它们能创造感知上、几何上与物理上连贯的虚拟世界;
二是多模态性(Multimodal)——能从文字、图像、视频、动作等多种输入中理解与生成世界;
三是交互性(Interactive)——能根据输入动作预测世界的下一状态,乃至下一步行动。
这是一项前所未有的挑战。语言是人类认知的生成产物,而世界遵循复杂的物理规律:重力、光学、结构与能量共同决定一切互动。要让模型在语义、几何、动态与物理层面保持一致,需要彻底革新的架构与算法。
为实现这一目标,World Labs 正在开展多个方向的研究:
——开发类似“下一个词预测”的通用任务函数,用于世界建模训练;
——构建更复杂的数据体系,结合互联网图像、视频与合成数据,并引入深度与触觉信息;
——探索超越二维序列的新型架构,例如三维与四维感知模型,使 AI 拥有空间记忆与持续生成能力。
World Labs 已发布首个世界模型原型“Marble”,允许用户通过多模态输入生成并探索一致的三维世界。这是通向空间智能的重要一步。
用世界模型建设更好的世界
人工智能的发展动机至关重要。AI 应增强而非取代人类能力。它的价值在于延伸人的创造力、连接力与生产力。空间智能正体现这一理念——让科学家、创作者、护理者与梦想家实现曾经不可能的目标。
空间智能的应用正跨越不同时间尺度:短期内推动创意工具与沉浸式叙事;中期内强化机器人感知与行动循环;长期则将在科学、医疗与教育中带来革命性影响。
在创造力方面,空间智能将重塑叙事方式,使电影人、设计师、建筑师与游戏创作者能够快速构建可探索的三维世界;
在机器人领域,它将赋予机器具身智能,使其感知、推理与行动协同一致;
在科学研究中,它能模拟实验、探索极端环境;
在医疗中,它可加速药物研发与诊断过程;
在教育中,它能创造让学习者身临其境的互动体验。
最终目标始终一致:让 AI 扩展人类智慧、加速发现、增强关怀,而非取代人类独有的判断、创造与同理心。
结语
过去十年,人工智能已成为全球现象,重塑科技、经济与地缘政治。然而,真正驱动这一切的,仍是图灵七十五年前提出的问题——那份对智能本质的好奇。
历史上,人类首次有机会创造出能与物理世界深度协调的机器,让它们成为应对重大挑战的伙伴。无论是在实验室中加速疾病研究,还是在艺术与故事中扩展人类表达,或是在脆弱时刻提供支持,这项技术都正让生活变得更深刻、更丰富、更有力量。
距自然界首次在早期动物中孕育空间智能的火花已近五亿年,如今,人类有幸成为能够赋予机器同等能力的一代科技创造者——并将这些能力用于造福全人类。真正智能的机器之梦,唯有在实现空间智能之后,方能完整。
更多推荐


所有评论(0)