【论文阅读】VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

本文提出了一种新方法，让AI通过看无标签的真实世界视频（如手工折纸）来学习通用的技能和物理规律，并能举一反三应用到新环境（如不同背景的桌面）中。

萌新一个啥都不会

13人浏览 · 2026-03-13 16:08:52

萌新一个啥都不会 · 2026-03-13 16:08:52 发布

快速了解部分

基础信息（英文）：

1.题目: VideoWorld 2: Learning Transferable Knowledge from Real-world Videos
2.时间: 2026.02
3.机构: ByteDance Seed, Beijing Jiaotong University
4.3个英文关键词: Transferable Knowledge, Real-world Videos, Latent Dynamics

1句话通俗总结本文干了什么事情

研究痛点：现有研究不足 / 要解决的具体问题

现有视频生成模型（如Sora等）虽然画面逼真，但学不到任务核心的物理规律和动作逻辑；而现有的世界模型（World Models）难以处理真实世界复杂的视觉干扰，无法从长视频中提取可迁移的通用知识。

核心方法：关键技术、模型或研究设计（简要）

提出 dLDM（动力学增强的潜在动力学模型），核心思想是将“画面外观”和“动作逻辑”解耦：用预训练模型处理画面细节，用专门设计的模型提取核心动作逻辑。

深入了解部分

作者想要表达什么

作者想表达：要想让AI从真实视频中学会通用技能，必须强制将“外观（长得什么样）”和“动力学（怎么动、物理规律）”分离开。 如果混在一起学，复杂的外观细节会干扰对核心动作逻辑的提取，导致AI换个环境（如换个桌布）就不会做事了。

相比前人创新在哪里

解耦方式创新：不同于前人用简单的编码器解码器（VAE）试图同时压缩画面和动作，本文利用强大的**预训练视频扩散模型（VDM）**专门负责“画画”（外观），迫使潜变量只去学“动作”（动力学）。
长视野能力：专门针对长时间、多步骤的复杂任务（如折纸飞机）进行了优化，能处理分钟级的长视频，而不仅仅是短动作。

解决方法/算法的通俗解释

想象一个学徒在看老师傅做木工。

旧方法：让学徒死记硬背老师的每一个表情、皱纹和衣服褶子，同时学动作。这导致学徒一旦换了环境（比如光线不同）就懵了。
本文方法（VideoWorld 2）：给学徒配了一个专门的“美术老师”（预训练VDM），负责处理画面细节。学徒（dLDM）只需要专注于观察木头是怎么被切削、拼接的（核心动作）。这样，学徒学到的是通用的“切削逻辑”，不管在谁家的工坊都能干活。

解决方法的具体做法

双模型架构：
- 外观模型（VDM）：冻结参数的预训练视频生成模型，负责把粗糙的画面变成高清画面。
- 动力学模型（dLDM）：包含一个因果VQ-VAE，负责把视频中的“变化”压缩成一串极简的“动作代码”（Latent Codes）。
强制分工：训练时，动力学模型产生的粗糙画面作为VDM的参考（类似线稿），VDM负责上色和细节。通过这种机制，动力学模型被迫只提取任务核心的动作信息，因为细节反正有VDM来补全。
预测与执行：用一个自回归Transformer模型来预测这些“动作代码”，从而实现对长视频任务的生成和执行。

基于前人的哪些方法

**VideoWorld **：本文的前身，但在真实世界视频上表现不佳，因为没能很好地区分外观和动作。
VDM（Video Diffusion Models）：如Cosmos等大规模预训练视频生成模型，提供了强大的外观先验知识。
LDM（潜在动力学模型）：利用离散潜变量来压缩视频信息的方法。

实验设置、数据、评估方式、结论

数据：
- Video-CraftBench（本文新建）：包含折纸飞机/船、搭积木等手工任务的视频（约7小时）。
- Open-X：大规模机器人操作数据集。
- CALVIN：机器人仿真环境（用于测试泛化能力）。
评估：
- 任务成功率：生成的视频是否完成了正确的步骤（如折纸的7个关键步骤）。
- 视觉质量：SSIM, LPIPS指标。
结论：
- 在折纸任务中，VideoWorld 2的最终步骤成功率高达 68.8%，而对比的SOTA视频生成模型（如Wan, HunyuanVideo）几乎全军覆没（0%）。
- 在CALVIN环境中的跨域测试也证明了其极强的泛化能力。

提到的同类工作

**VideoWorld **：最直接的前身，但在真实场景下失败。
**LAPA , Moto , iVideoGPT **：其他潜在动作模型（Latent Action Models），在长视频任务上表现不如本文方法。
Sora, Veo, HunyuanVideo, Wan：主流的视频生成大模型，虽然画面好，但学不到物理规律。

和本文相关性最高的3个文献

** VideoWorld**：本文的直接前身，本文旨在解决其在真实世界失效的问题。
** Cosmos**：提供了基础的AR Transformer和VDM模型架构，是本文的基座模型。
** LAPA**：代表了现有的潜在动作模型（Latent Action Models）流派，是本文主要的对比基线之一。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

OpenClaw 与企业现有信息化系统整合：数据治理行业的自主智能体架构与实战报告

2048 AI社区

中大型企业适配：AI智能审核系统选型指南，高效简化财务审核流程

结合上述评估维度，本文梳理当前市场主流AI智能审核系统，按“全场景适配型、行业专项适配型、ERP协同适配型”四大类别分类，优先凸显合思费控的AI领先优势与规模化适配能力，其余品牌按国企适配度排序，聚焦各品牌核心优势与流程简化价值，规避对比贬低，贴合万人国企审核管理需求。

2048 AI社区

OpenClaw跟Skills、MCP、RAG和Agent有什么关系？

昨天，一个刚入行的小伙伴在群里问我：苏三哥，我看了两天OpenClaw的资料，什么Skills、MCP、RAG、Agent，这些词看得我头都大了。它们到底啥关系？OpenClaw又是干啥的？我回了他一句：“你见过小龙虾吗？OpenClaw就是那只‘龙虾’，其他都是它的‘钳子’、‘脑子’和‘食谱’。最近OpenClaw在GitHub上狂揽近30万星标，成为2026年开年最火的开源项目。但很多小伙伴和