具身智能世界模型终极指南(超详细),啃下250篇论文,看这篇就够了!
在具身智能中,智能体需要**感知**环境、采取**行动**,并**预测**其行为将如何影响未来的世界状态。世界模型正是智能体的“**内部模拟器**”,它负责捕捉环境动态,从而支持智能体对未来进行推理。通过在内部模拟和推演未来状态,智能体可以在采取实际行动前预见多种可能的结果。
在具身智能中,智能体需要感知环境、采取行动,并预测其行为将如何影响未来的世界状态。世界模型正是智能体的“内部模拟器”,它负责捕捉环境动态,从而支持智能体对未来进行推理。通过在内部模拟和推演未来状态,智能体可以在采取实际行动前预见多种可能的结果。
World model的思想源于Model-based RL,这一概念在Ha和Schmidhuber的工作《Recurrent World Models Facilitate Policy Evolution》中得以体现。该模型利用RNN来学习环境的一种紧凑时空表征,并在低维空间中按时序推演未来的状态。
近年来,随着生成模型的爆发,世界模型的研究呈现出前所未有的繁荣,但其模型架构和技术选型也日趋庞杂,缺乏统一的梳理。为了进行清晰的梳理。今天带来的综述《A Comprehensive Survey on World Models for Embodied AI》针对世界模型的功能、时序建模、空间表征提出了一个新颖的三轴分类法,尝试将现有的世界模型纳入到一个全新的框架下。

图1:综述的脉络结构图。根据世界模型的三轴进行划分:
- 功能定位:决策耦合型与通用目的型,核心区别在于,模型是为特定决策任务优化的 ,构建为一个任务无关的通用模拟器 。
- 时序建模 :顺序序列模拟和整体差分预测,前者以逐个时间步(自回归的)方式对动态进行建模;后者并行捕捉未来时间步的映射关系。
- 空间表征:关注对空间状态的建模策略,涵盖了四种主流方式 :全局潜变量、Token特征序列、空间潜在网格、分解式渲染。
数学原理
时序动态通常被建模为一个部分可观察马尔可夫决策过程(POMDP)。World Models的核心任务是从部分观测中学习到紧凑的潜在状态,并学习状态之间的转移规律。世界模型的学习范式通常采用“重建-正则化”的训练范式:
- 重建项:鼓励模型在潜在状态中尽可能重建观察。
- 散度:迫使模型的推断后验(事后推断)尽可能贴近于动态先验(事前预测)。
三轴分类下的世界模型
基于这套新颖的分类方法,可以清晰地对当前的世界模型工作进行分类。表1和表2分别汇总了一些World Model在控制和自动驾驶领域的代表工作。


决策耦合 v.s. 通用目的
决策耦合型:
- 属于任务驱动 (task-specific),专为特定决策任务而设计,与策略优化紧密耦合。以学习环境动力学为目的,在模型“想象”的轨迹中直接优化策略,代表模型如Dreamer系列。
- 优势:模型直接在对应任务上优化,通常在任务表现出色。
- 局限性:学习的表征可能过度贴合任务,难以泛化。

通用目的型:
- 定位为任务无关 (task-agnostic) 的环境模拟器,着眼于对环境动态的广泛预测和包保真生成。这类模型的目标是捕捉环境演化的通用规律,能够为下游任务提供可迁移的模型支持。
- 优势:泛化能力强,且往往具备更丰富的表示能力。
- 局限性:计算复杂度高,实时推理成本较高,需设计模块针对任务进行优化。

顺序推理 v.s. 全局预测
顺序推理:
- 逐步模拟未来世界演化的时间建模方式,便于理解和规划。典型架构包括RNN、Mamba、自回归方式以及思维链(CoT)和LLM支持的目标分解。
- 优势:时序因果一致,适合闭环控制。
- 局限性:长时预测需多次迭代,容易误差累计,并行性较差。


全局预测:
- 并行地预测整段未来序列的时间建模方式。常见做法包括掩码/JEPA的特征预测与并行扩散视频生成,将未来时空区域作为整体目标,直接在潜空间中恢复或合成。
- 优势:降低误差累积,并行计算效率高,便于添加全局约束。
- 局限性:闭环交互性较弱,局部动力学细节不足。


空间表征方式
全局潜变量(Global Latent Vector):
- 将场景/世界状态压缩为一个低维变量,并在该紧凑表示上进行动力学建模。
- 优势:计算/时延友好,适配实时控制,模型/内存开销小,便于部署。
- 局限性:细粒度时空信息损失。

Token特征序列(Token Feature Sequence):
- 将世界状态表示为一组离散 token 的特征序列,便于建模token间的依赖关系。
- 优势: 与注意力机制耦合,能细粒度地表示复杂场景和多模态信息。
- 局限性:需要大量数据训练,且常依赖大参数量模型,推理开销高。

空间潜在网格(Spatial Latent Grid) :
- 将空间信息注入场景或将场景编码到空间网格中,是自动驾驶领域的主流。
- 优势:保留了空间局部拓扑,易于多视角融合和地图生成。
- 局限性:表示规模大,分辨率受限,对非结构化环境适应性差。

分解式渲染表示(Decomposed Rendering Representation):
- 将场景拆解为一组可渲染基本要素,再通过渲染流程或生成模型构建观察空间。
- 优势:能生成视角一致的高保真图像,支持物体级别操作。
- 局限性:对动态场景扩展性差,建模和推理成本高;难以实时更新场景中变化的部分。

数据资源与评价指标
数据资源
具身智能的数据资源因其任务和形态的多样性,可被划分为四类:仿真平台、交互式基准、数据集与真实机器人平台。表3将常见的一些数据平台进行了相应的整理。
- 仿真平台:如 MuJoCo(物理引擎用于机械臂、腿等模拟),CARLA(自动驾驶模拟环境),Habitat(室内导航3D模拟)等。这些平台生成合成数据并支持交互试验。
- 交互式基准:如DeepMind Control(DMC)套件、Atari游戏、Meta-World(多任务机器人操作)、RLBench(机器人操作任务集)、nuPlan(自动驾驶规划)、LIBERO(多机器人任务基准)等。这些基准提供统一环境和任务接口,可用于训练和评测世界模型的决策能力。
- 离线数据集:如 RT-1(机器人操作数据集)、Open X-Embodiment (OXE)(超过百万条跨机器人轨迹的大型数据集)、HM3D(室内三维扫描数据)nuScenes和Waymo Open Dataset(自动驾驶实车传感器数据)、Occ3D(带真实占据率标签的自动驾驶场景序列)、Something-Something v2 (SSv2)(大规模视频动作数据集)、OpenDV、VideoMix22M(综合多个来源的2200万视频帧数据)等。这些数据多为真实世界的记录或汇总,用于训练更具普适性的世界模型。
- 真实机器人平台:如Franka Emika机械臂、Unitree Go1四足机器人和Unitree G1在人型机器人。这些硬件上提供的硬件平台,为在真实物理环境中训练和验证世界模型提供了可能。

评价指标:
针对世界模型的不同侧重,有三层抽象水平:
- 像素级生成质量:衡量模型预测的观测序列在视觉上的逼真度和连贯性。如FID、 FVD、SSIM、PSNR等。
- 状态/语义一致性:评估模型是否理解了场景的结构和语义。如mIoU、mAP、Displacement Error、CD(点云结构相似度量)。
- 任务绩效指标:累积奖励、成功率、碰撞率。 理想情况下,我们希望指标不仅关注像素级误差,更关心物理一致性和任务成功。因此,新近的评测倾向于设计诸如物理合规性、因果一致性等指标来弥补传统指标的不足。 下面几个表格是一些世界模型在上述指标中的性能对比。





主要挑战与未来展望
尽管世界模型在具身智能中展现出巨大潜力,仍有许多开放挑战亟待解决:
- 数据与评估挑战:缺乏统一的大规模多模态数据集。此外,评估指标往往偏重像素重构误差,忽视了物理合理性、动态一致性和因果关系。未来需要构建跨领域的数据集和测试基准,例如考察长时间物理一致性、对意外情况的预测能力等。
- 计算效率与实时性:先进的世界模型(如DiT、VLM)推理开销巨大,难以满足实时控制的要求。如何在不显著损失性能的前提下,提高模型推理速度和效率是重要课题。这可能需要借助模型压缩(量化、剪枝)、稀疏计算,以及更高效的时序建模方法(如融合了连续时间建模优势的状态空间模型)等。只有解决计算瓶颈,世界模型才能真正应用在实时机器人控制、自主驾驶决策中。
- 建模策略与平衡:在序列自回归和全局并行两种时间建模、不同空间表示之间寻求最佳折中依旧困难。结合两者优点或是一条有效出路。例如利用分层模型:高层粗略全局预测长远趋势,低层局部需略精修细节,或引入显式记忆和层次规划,此外,借鉴于LLM的CoT范式,将决策问题拆解成一系列中间的推理步骤,可能有助于世界模型进行长程推断而不陷入错误循环。
总结
世界模型(World Models)是具身智能体连接感知、预测与决策的核心。这篇综述首次通过一个创新的三轴分类法,为这个复杂而充满活力的领域建立了一个清晰、全面的认知框架。该框架不仅系统性地梳理了现有工作的脉络,也为未来的研究提供了明确的方向。
如何学习大模型 AI ?
我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

2025最新大模型学习路线
明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。
大模型经典PDF书籍
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

配套大模型项目实战
所有视频教程所涉及的实战项目和项目源码等
博主介绍+AI项目案例集锦
MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。


这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

为什么要学习大模型?
2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

适合人群
- 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
- IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
- IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
- 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。

课程精彩瞬间
大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。
RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。
Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。
顶尖师资,深耕AI大模型前沿技术
实战专家亲授,让你少走弯路
一对一学习规划,职业生涯指导
- 真实商业项目实训
- 大厂绿色直通车
人才库优秀学员参与真实商业项目实训
以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调
大厂绿色直通车,冲击行业高薪岗位
文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐







所有评论(0)