【论文阅读】VideoWorld 2: Learning Transferable Knowledge from Real-world Videos
本文提出了一种新方法,让AI通过看无标签的真实世界视频(如手工折纸)来学习通用的技能和物理规律,并能举一反三应用到新环境(如不同背景的桌面)中。
·
快速了解部分
基础信息(英文):
1.题目: VideoWorld 2: Learning Transferable Knowledge from Real-world Videos
2.时间: 2026.02
3.机构: ByteDance Seed, Beijing Jiaotong University
4.3个英文关键词: Transferable Knowledge, Real-world Videos, Latent Dynamics
1句话通俗总结本文干了什么事情
本文提出了一种新方法,让AI通过看无标签的真实世界视频(如手工折纸)来学习通用的技能和物理规律,并能举一反三应用到新环境(如不同背景的桌面)中。
研究痛点:现有研究不足 / 要解决的具体问题
现有视频生成模型(如Sora等)虽然画面逼真,但学不到任务核心的物理规律和动作逻辑;而现有的世界模型(World Models)难以处理真实世界复杂的视觉干扰,无法从长视频中提取可迁移的通用知识。
核心方法:关键技术、模型或研究设计(简要)
提出 dLDM(动力学增强的潜在动力学模型),核心思想是将“画面外观”和“动作逻辑”解耦:用预训练模型处理画面细节,用专门设计的模型提取核心动作逻辑。
深入了解部分
作者想要表达什么
作者想表达:要想让AI从真实视频中学会通用技能,必须强制将“外观(长得什么样)”和“动力学(怎么动、物理规律)”分离开。 如果混在一起学,复杂的外观细节会干扰对核心动作逻辑的提取,导致AI换个环境(如换个桌布)就不会做事了。
相比前人创新在哪里
- 解耦方式创新:不同于前人用简单的编码器解码器(VAE)试图同时压缩画面和动作,本文利用强大的**预训练视频扩散模型(VDM)**专门负责“画画”(外观),迫使潜变量只去学“动作”(动力学)。
- 长视野能力:专门针对长时间、多步骤的复杂任务(如折纸飞机)进行了优化,能处理分钟级的长视频,而不仅仅是短动作。
解决方法/算法的通俗解释
想象一个学徒在看老师傅做木工。
- 旧方法:让学徒死记硬背老师的每一个表情、皱纹和衣服褶子,同时学动作。这导致学徒一旦换了环境(比如光线不同)就懵了。
- 本文方法(VideoWorld 2):给学徒配了一个专门的“美术老师”(预训练VDM),负责处理画面细节。学徒(dLDM)只需要专注于观察木头是怎么被切削、拼接的(核心动作)。这样,学徒学到的是通用的“切削逻辑”,不管在谁家的工坊都能干活。
解决方法的具体做法
- 双模型架构:
- 外观模型(VDM):冻结参数的预训练视频生成模型,负责把粗糙的画面变成高清画面。
- 动力学模型(dLDM):包含一个因果VQ-VAE,负责把视频中的“变化”压缩成一串极简的“动作代码”(Latent Codes)。
- 强制分工:训练时,动力学模型产生的粗糙画面作为VDM的参考(类似线稿),VDM负责上色和细节。通过这种机制,动力学模型被迫只提取任务核心的动作信息,因为细节反正有VDM来补全。
- 预测与执行:用一个自回归Transformer模型来预测这些“动作代码”,从而实现对长视频任务的生成和执行。
基于前人的哪些方法
- **VideoWorld **:本文的前身,但在真实世界视频上表现不佳,因为没能很好地区分外观和动作。
- VDM(Video Diffusion Models):如Cosmos等大规模预训练视频生成模型,提供了强大的外观先验知识。
- LDM(潜在动力学模型):利用离散潜变量来压缩视频信息的方法。
实验设置、数据、评估方式、结论
- 数据:
- Video-CraftBench(本文新建):包含折纸飞机/船、搭积木等手工任务的视频(约7小时)。
- Open-X:大规模机器人操作数据集。
- CALVIN:机器人仿真环境(用于测试泛化能力)。
- 评估:
- 任务成功率:生成的视频是否完成了正确的步骤(如折纸的7个关键步骤)。
- 视觉质量:SSIM, LPIPS指标。
- 结论:
- 在折纸任务中,VideoWorld 2的最终步骤成功率高达 68.8%,而对比的SOTA视频生成模型(如Wan, HunyuanVideo)几乎全军覆没(0%)。
- 在CALVIN环境中的跨域测试也证明了其极强的泛化能力。
提到的同类工作
- **VideoWorld **:最直接的前身,但在真实场景下失败。
- **LAPA , Moto , iVideoGPT **:其他潜在动作模型(Latent Action Models),在长视频任务上表现不如本文方法。
- Sora, Veo, HunyuanVideo, Wan:主流的视频生成大模型,虽然画面好,但学不到物理规律。
和本文相关性最高的3个文献
- ** VideoWorld**:本文的直接前身,本文旨在解决其在真实世界失效的问题。
- ** Cosmos**:提供了基础的AR Transformer和VDM模型架构,是本文的基座模型。
- ** LAPA**:代表了现有的潜在动作模型(Latent Action Models)流派,是本文主要的对比基线之一。
更多推荐

所有评论(0)