Yann LeCun 的 JEPA 世界模型:为什么反对像素级视频预测,以及它如何把“决策”从试错拟合改造成可控规划

本文基于 Yann LeCun 在 World Model Workshop 的 slides《Training World Models》(2026-02-04)进行系统解读,并在此基础上给出一套可复用的工程化理解框架:世界模型(World Model)的核心价值不在“生成未来观测”,而在“在抽象表征空间里推演动作后果,并在目标与约束下选择动作”

在这里插入图片描述


1. 为什么 LeCun 一上来就“炮轰”生成式视频预测?

LeCun 在 slides 中用极强语气写道:“Generative Architectures DO NOT Work for Images and video”,理由集中在四点:世界只部分可预测、预测模型应能表达多种未来、在高维连续域显式概率模型不可 tractable、生成模型必须预测世界每一个细节(包括无关细节)。

这几句话可以翻译成非常工程化的诊断:

  1. 长期预测的敌人是“细节”:视频/传感器数据的高维细节包含大量不可预测扰动(光照噪声、纹理、动态背景、微小随机事件),这些细节对“决策正确性”往往并非必要,但生成式模型被迫为它们买单。
  2. 多解未来会让像素级生成不可控地膨胀:你要么输出一个“平均未来”(典型表现为模糊),要么引入潜变量/采样来覆盖多模态未来,但这会把训练、推理与评估都带进更重的概率建模负担。
  3. 高维连续概率的 tractability 是硬约束:即便忽略“是否能生成得更像”,当你把目标设为“学习真实世界未来分布”,你就进入一个在高维连续域里天然代价极高、难以验证的领域。

LeCun 还用“像素级视频预测会变糊(blurry)”作为直观例子,说明即使做得对,生成目标也容易把模型导向“在均方误差意义下更合理”的平均解,而非可用于决策的抽象结构。

因此,他给出一句非常明确的转向:“My solution: Joint-Embedding Predictive Architecture”。


2. JEPA 的关键切换:从“预测 y”变为“预测 y 的抽象表征”

LeCun 在“Generative vs Joint Embedding”页把分界线画得很清楚:

  • Generative:预测的是 y 本身(包含所有细节,含无关细节)。
  • Joint Embedding:预测的是 y 的抽象表征(abstract representation)。
  • 结论:JEPA 能“抬升抽象层级”,生成式架构不会。

这一页是理解整套 slides 的第一把钥匙。它意味着:

世界模型不该被定义为“未来像素的生成器”,而应被定义为“抽象状态的可预测动力学”。

LeCun 给出的世界模型最简形式化也非常直接:

给定观测 (x),计算其抽象表征 (S_x)。给定动作 (a),预测未来观测 (y) 的抽象表征 (S_y)。并满足:
Sy=Pred(Sx,a) S_y = Pred(S_x, a) Sy=Pred(Sx,a)

这行公式看似简单,但它把整个问题从“生成”转成了“状态空间动力学”:

  • Encoder:把观测映射到 latent state(状态表征)。
  • Predictor/Dynamics:把“状态 + 动作”映射到“下一状态”。
  • 训练信号:在表征空间对齐,而不是在像素空间重建。

3. 表征(Sx, Sy)到底是什么?不是“漂亮的 latent”,而是“可预测的相关变量”

很多读者会立即追问:表征不也是学出来的吗?那它凭什么“抽象”?LeCun 在 slides 里用“传统科学建模”给出答案:

传统科学建模的做法是:寻找一个允许预测的抽象状态表示;从观测/测量中抽取状态向量;预测干预/实验导致的结果。

然后他说出 JEPA 的核心原则:

无关且不可预测的信息会从表征中被消除;表征包含使预测成为可能的信息。

这句话的工程含义非常强:它是在定义一个“表征学习的目标函数方向”——不追求“信息最大化”,而追求“与预测/规划相关的信息保留”。如果把它写成更直白的原则:

  • 表征不是越丰富越好;对于长期推演,表征需要“足够”但不需要“过度”。
  • 表征需要可预测性;不可预测的成分越多,rollout 漂移越快。
  • 表征需要任务相关性(至少是可用于后续目标函数的相关性);否则规划即便准确也无从选择。

这也解释了一个你在阅读时容易产生的“震撼点”:

像素级预测不一定成立;更重要的是,它并不一定是世界模型该优化的目标。


4. 真正的范式切换:从“预测动作”到“评估后果并选择动作”

许多读者第一次接触 world model 会陷入一个误区:世界模型是不是也要像 policy 一样直接输出动作?
LeCun 的系统图明确表明:不是。世界模型的价值在于对动作后果进行推演,然后通过优化/搜索选择动作。

他给出的“规划/推理”循环结构非常典型:使用梯度下降、动态规划、蒙特卡洛树搜索等方法优化动作序列;反复调用 (Pred(s,a)) 推演未来状态;用代价函数 (C(s[t])) 评估轨迹;最终 Actor 只输出第一个动作(或前几个动作)执行。

这一段如果用一句话概括,就是:

动作不是“被预测出来”的,而是“被选择出来”的。

这句话非常关键,因为它把“世界模型路线”与“端到端 policy 路线”的根本差异讲清楚了:

  • Policy 路线(System-1):学一个映射 a=π(s)a=\pi(s)a=π(s),一次前向传播给动作。
  • World Model 路线(System-2):学一个后果函数 s^t+1=Pred(st,at)\hat s_{t+1}=Pred(s_t,a_t)s^t+1=Pred(st,at),通过推演与优化在轨迹层面选动作。

LeCun 还把“规划/推理系统”的模块拆得很清晰:Perception(表征,可结合记忆)、World Model(推演动作序列)、Task Objective(到目标的差异)、Guardrail Objective(不可违反的安全项)、Operation(寻找最优动作序列)。


5. MPC 是什么?为什么 LeCun 认为世界模型路线天然走向 MPC

在控制与机器人领域,MPC(Model Predictive Control)是一个非常成熟的思想:在每个时刻用模型预测未来若干步,优化一段动作序列,只执行第一步,然后滚动重算。LeCun 的 System-2 图基本就是 MPC 的现代学习版:模型由训练得到(learned world model),代价由目标与约束定义(task + guardrail),求解器用优化或搜索实现。

工程上可以把它写成一个极简闭环:

  1. 当前观测 (x_t) → 状态表征 st=Enc(xt)s_t = Enc(x_t)st=Enc(xt)
  2. 枚举/采样候选动作序列 at:t+H−1(i){a^{(i)}_{t:t+H-1}}at:t+H1(i)
  3. rollout:s^(i)∗t+k+1=Pred(s^(i)∗t+k,at+k(i))\hat s^{(i)}*{t+k+1} = Pred(\hat s^{(i)}*{t+k}, a^{(i)}_{t+k})s^(i)t+k+1=Pred(s^(i)t+k,at+k(i))
  4. 打分:J(i)=∑k=1H(TaskCost(s^t+k)+λ⋅Guardrail(s^t+k))J^{(i)} = \sum_{k=1}^{H} \big(\text{TaskCost}(\hat s_{t+k}) + \lambda \cdot \text{Guardrail}(\hat s_{t+k})\big)J(i)=k=1H(TaskCost(s^t+k)+λGuardrail(s^t+k))
  5. 选择最优序列,执行第一步动作 (a_t^*),下一时刻重复

这一套机制天然把可控性与安全约束放到系统中心:因为约束是打分函数的一部分,而不是事后修补。


6. “编译 System-2 到 System-1”:从强但慢的规划,到快而可部署的策略

如果读者只看到 MPC,很容易产生一个现实担忧:规划太贵,如何部署?LeCun 直接给出工程落点:Compiling System-2 into System-1,并类比 amortized inference:系统执行 Mode-2(规划)得到最优动作序列,把这些最优动作当作监督目标训练 policy 模块 (A(s));训练好后,policy 可用于 Mode-1 快速反应或用来初始化 Mode-2。

这一段极其关键,因为它给出一个现实世界常用的组合策略:

  • 训练/离线阶段:用世界模型 + 规划产生“高质量行为数据”(最优动作序列)。
  • 部署/在线阶段:用 policy 快速输出动作;必要时触发规划兜底。

这也解释了为什么在很多系统里,world model 的第二大用途不是“直接控制”,而是“改进 policy 学习”:它提供了一种高质量的行为生成机制。


7. 为什么他要引入 EBM(Energy-Based Model):因为推理与规划本质是优化

LeCun 在“World Models in Psychology”页写得很直接:feed-forward propagation 不足以支持复杂推理;复杂推理需要优化目标;每个计算问题都可约化为优化;这包括所有推理与规划问题。

于是他把整个推理/规划框架置于 EBM 语义之下:通过能量/打分函数表达“什么是好”,再通过优化过程寻找低能量解。

他还明确指出:概率模型是 EBM 的特例,能量类似未归一化的负 log 概率;使用 EBM 的原因是它在打分函数与学习目标的选择上更灵活。

对工程读者来说,这部分最重要的不是“概率与能量谁更哲学”,而是两个直接结论:

  1. 不必把世界模型绑定到显式概率建模:高维连续域里显式概率会很重。
  2. 把目标函数(task/guardrail)做成可优化的打分函数:这是让规划可控、可验证的关键。

8. 训练侧的硬问题:塌缩(collapse)与为什么他更偏向 regularized methods

JEPA 属于 joint embedding 家族,这类方法的最大训练风险之一是塌缩(collapse):表征退化成常量,使“对齐” trivially 成立但失去信息。LeCun 在 EBM 架构对比里明确指出:joint embedding architecture CAN COLLAPSE;生成式 latent-variable 架构也可能 collapse;prediction/regression 没有 collapse 问题。

他把 EBM 训练方法分为两类,并强调对比式方法在高维下扩展性差:

  • Contrastive methods:压低训练样本能量、抬高对比样本能量,但“scales very badly with dimension”。
  • Regularized methods:通过正则最小化可取低能量的空间体积(从结构上限制低能量区域),从而减少塌缩风险。

同时他强调 loss 需要塑造能量面:数据点低能量,数据密度之外高能量。

工程层面可理解为:
当负样本构造成本太高时,用结构与正则把解空间“收紧”是更可规模化的路径。


9. 长时域推演为什么必须分层:Hierarchy 不是装饰,是稳定性的来源

LeCun 明确提出:世界模型应是多层级模型与表征体系。低层做短期预测,保留细节,但不适合长程;高层做长程预测,表征细节更少,但更稳定、更能做准确的长期预测(即使细节更少)。

这条主张直接击中“为什么不做像素级世界模拟”的核心:
长期规划所需的是稳定的抽象变量,而不是逼真的细节渲染。

从工程实践看,分层往往意味着:

  • 高层 latent:低频、长时域、任务推进(规划/推理)。
  • 低层 latent:高频、短时域、动作执行(控制/追踪)。

并通过蒸馏或分层控制把两者连接起来。


10. 世界模型与 RL(尤其 PPO)的关系:一体两面,但不是同一条路

读者常见的一个直觉是:RL 也是为长时目标提出的,为什么现实里看起来反而“短回路更好用”?这里需要把“目标函数的长时性”与“学习机制的有效性”分开:

  • RL(如 PPO)形式化目标确实是最大化长期回报,但在 model-free 设定下,长时域会让 credit assignment、探索与样本效率变得非常困难。
  • 世界模型路线试图把长时依赖显式化:用模型 rollout 把未来影响前移到评估环节,把决策变成优化/搜索问题。

因此,更精确的对齐方式是:

  • PPO/Policy RL:直接学习策略映射 (a=\pi(s)),适合环境相对稳定、反馈较密、可规模采样的任务。
  • World Model + MPC:学习后果函数 (\hat s_{t+1}=Pred(s_t,a_t)),适合强约束、长时域、交互昂贵或危险的任务;并通过蒸馏把规划能力压缩进可部署策略。

LeCun 还在生成式 SSL 页强调:生成式预测适合文本等离散符号序列,但不适合高维连续、带噪数据(图像、视频、传感器、科学测量)。
这进一步强化了他的分工建议:生成式在离散域(文本)很好,连续世界的“可规划模型”应走 JEPA/表征预测路线


11. 世界模型真正的落地分水岭:Objective / Guardrail 才是核心难点

如果读者只记住一句工程结论,应该是这句:

Pred(s,a) 只提供“如果这样做会怎样”;真正决定系统质量上限的是“怎样算好、怎样算不安全”——也就是 Task Objective 与 Guardrail Objective。

LeCun 在模块化结构里将二者明确区分:Task objective 衡量到 goal 的差异;Guardrail objective 是不可变安全项。
这并非“概念优雅”,而是工程必需:没有 guardrail 的规划系统一旦开始优化,就会系统性寻找漏洞;而“安全约束”如果只靠 reward shaping 或事后规则拦截,往往难以在长时域里稳定工作。

从工程落地角度,Objective/Guardrail 往往来自三类来源(成熟度由低到高):

  1. 手写目标与约束:最快上线、可控、可审计。
  2. 学习一个 cost/critic:覆盖隐性目标与复杂风险,减少规则堆叠。
  3. 偏好学习/反事实学习:当目标难形式化但偏好数据可得时,用 reward model 驱动规划。

注意:这三类并非互斥;现实系统通常是“规则兜底 + learned cost 扩展 + 偏好微调”的组合。


12. 失败模式清单:为什么很多 World Model 系统“论文很美,上线很差”

要让读者对世界模型路线建立正确预期,必须把失败模式讲清楚。以下五类问题最常见,也最致命:

12.1 表征塌缩或表征无效

症状:训练 loss 看起来很漂亮,但 planning 完全无效;不同输入输出几乎同一 latent。
根因:joint embedding 架构天然可能 collapse。

12.2 Planner 钻模型漏洞(model exploitation)

症状:在模型内评估极优,落到真实环境却失败。
根因:模型偏差(model bias)+ 优化器会系统性利用偏差。
应对:短 rollout 优先、真实数据持续校正、对不确定区域降权/拒绝、加入行为先验与约束。

12.3 Objective/Guardrail 定义错误或漂移

症状:模型推演不错,但动作选择仍然不靠谱。
根因:打分函数不等价于真实目标,或部署分布变化导致 cost 失效。
LeCun 将 guardrail 视为“immutable objective terms that ensure safety”,这其实暗示:安全项需要更强的稳定性与可验证性。

12.4 多步 rollout 误差爆炸

症状:一步预测误差可接受,多步 rollout 很快漂移。
根因:误差累积 + 缺少层级抽象与纠偏机制。
LeCun 提出多层级表征与模型正是为长时域稳定性服务。

12.5 计算预算失控

症状:规划质量很好,但延迟与算力不可接受,无法上线。
应对:限制 horizon、限制候选数、用 CEM/采样型 MPC、把规划蒸馏成 policy(System-2 → System-1)。


13. 一个可复用的工程化“决策范式地图”

把整套内容压缩为一张决策选型地图,读者就能快速判断自己该走哪条路线:

13.1 什么时候更偏 Policy RL(如 PPO)

  • 环境相对平稳(训练分布≈部署分布)
  • 反馈较密或 shaping 容易
  • 可规模采样(仿真便宜、交互安全)
  • 低延迟强约束(必须毫秒级决策)

13.2 什么时候更偏 World Model + MPC

  • 强约束、安全敏感(需要轨迹级 guardrail)
  • 长时域、稀疏目标(需要 lookahead)
  • 在线交互昂贵/危险(需要用算力换样本)
  • 可容忍一定推理成本(或可蒸馏成 policy)

13.3 现实最佳实践:两者组合

  • 用世界模型做规划产生高质量行为 → 监督训练 policy(编译 System-2 到 System-1)
  • 在线默认 policy 快速输出,遇到高风险/高不确定触发 MPC 兜底
  • 用真实反馈持续校正世界模型与 cost(避免自嗨)

14. 结语:LeCun 的 JEPA 不是“另一个模型”,而是一种重组智能体的方式

这组 slides 的价值,不在于提供某个“一键复现”的网络结构,而在于把智能体架构的重心从“生成细节”迁移到“抽象状态 + 目标优化 + 安全约束”:

  • 生成式预测在文本等离散符号序列上很强,但对高维连续、噪声数据不适合作为统一范式。
  • JEPA把预测目标上移到抽象表征,剔除无关且不可预测的信息,使长期推演更可行。
  • 推理与规划被明确归约为“优化目标”的过程,而不是一次前向传播。
  • MPC/规划成为动作选择的核心机制:动作不是预测出来的,是在目标与 guardrail 下优化出来的。
  • 部署现实通过“编译 System-2 到 System-1”解决:用规划结果训练策略网络,使系统既强又快。

如果说“生成式路线”的胜利叙事是“更像真的未来”,那么 LeCun 的路线叙事是:更像一个会做决定的智能体——它不必画出每一个像素,却能在抽象层推演后果,在安全约束下选择动作,并把规划能力压缩成可部署的策略模块。


附:可直接引用的“核心观点摘录”

  1. 生成式视频预测作为世界模型主干会被“细节与概率负担”拖垮;JEPA 用抽象表征预测替代像素预测。
  2. 世界模型的形式化核心是:Sy=Pred(Sx,a)S_y = Pred(S_x, a)Sy=Pred(Sx,a),预测的是未来状态的表征,而不是未来观测本身。
  3. 动作不是被预测出来的,而是通过 rollout + objective(含 guardrail)被选择出来的;这天然对应 MPC。
  4. 规划强但慢,因此需要把 System-2 的最优动作蒸馏成 System-1 的策略网络以实现可部署。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐