蚂蚁集团旗下的具身智能公司灵波科技开源了两大重磅模型。

具身智能模型,最强开源机器人大脑!两万小时真机数据开启物理AI缩放定律

以及强大的世界模型LingBot-World。

图片

LingBot-World将视频生成模型进化成了可交互世界模拟器,让AI学会了理解物理规律、空间记忆和实时交互。

LingBot-World通过构建包含真实影像、游戏录屏及虚幻引擎合成数据的混合数据引擎,结合分层语义标注策略,成功将被动视频流转化为可交互的动态环境。

模型采用三阶段进化策略,从基础视频先验到注入物理规律,再到通过因果注意力机制和少步蒸馏实现实时推理。最终在普通GPU上实现了每秒16帧的低延迟交互。

LingBot-World展现出了令人惊叹的涌现记忆能力,能够保持分钟级的长程一致性,支持文本驱动的环境编辑和具身智能训练,为构建下一代无限、可玩、互动的虚拟世界提供了全新的开源范式。

分层语义与混合数据基座

文生视频领域取得了显著进展,能生成视觉效果逼真的短片,但它们本质上更像是造梦者而非模拟器。

这些模型根据统计相关性臆造像素的变换,却缺乏对因果关系、物体恒常性以及交互后果的根本理解。

LingBot-World构建了持久、可交互且逻辑一致的虚拟环境,是一个实时学习并渲染虚拟世界动态的整体系统。

具备分层语义的可扩展数据引擎、多阶段进化训练流水线,以及面向具身智能的多样化应用。

图片

真实世界的视频数据丰富,但缺乏精细的控制信息;游戏数据包含了精确的动作-反应对,但画质和多样性可能受限。

LingBot-World的数据获取策略兼顾了两者。

它收集了大量高质量的第一人称和第三人称视角的视频,涵盖人类、动物和车辆的运动。

同时,专门采集了严格配对RGB帧与用户控制输入(如W、A、S、D按键)及相机参数的游戏数据。

为了进一步增强数据的物理准确性,团队还开发了一套基于虚幻引擎的合成渲染流水线,能够生成无碰撞、随机化但合理的相机轨迹,并输出带有精确相机内外参的RGB流。

图片

数据获取之后,数据画像(Data Profiling)组件扮演了标准化的角色。

针对缺乏相机信息的通用视频,系统利用先进的姿态估计模型生成相机参数的伪标签。

随后,通过视觉语言模型(VLM)进行语义分析,评估视频的视觉质量、运动幅度和场景类型,剔除低质量样本。

为了解决原始数据中缺乏细粒度控制描述的问题,LingBot-World引入了分层标注策略(Hierarchical Captioning)。

这一策略为每个视频生成三个不同维度的描述:

  • 综合叙事描述(Comprehensive Narrative Caption):将环境特征、相机运动和时间演变编织成一个完整的故事,作为全局语义提示。

  • 场景静态描述(Scene-Static Caption):仅关注静态环境和美学细节,刻意忽略相机运动或角色动作。这种设计对于在世界模型中解耦运动控制与场景生成至关重要,让模型明白场景本身是什么,而不混淆于视角的移动。

  • 密集时序描述(Dense Temporal Caption):提供细粒度、时间对齐的特定事件描述,支持模型学习随时间变化的动态细节。

图片

确保了每一个用于训练的视频片段有高质量的视觉信息,还附带了丰富的结构化文本条件和几何先验,为模型理解物理世界的运作方式打下了坚实基础。

注入物理规律与长期记忆

LingBot-World并没有从零开始训练一个完美的世界模型,而是采用了多阶段的进化策略,将视频生成器逐步转化为交互式模拟器。

图片

预训练(Pre-Training)建立通用的视频先验。

在这个阶段,模型专注于学习自然视频序列的无条件分布。

LingBot-World采用了拥有140亿参数的Wan2.2图像到视频扩散模型作为基础。

这个强大的底座赋予了模型卓越的时空连贯性和开放域的语义理解能力,为后续学习复杂的交互物理规律提供了一张高质量的视觉画布。

中间训练(Middle-Training)注入世界知识与长时动态。

这是模型发生质变的阶段。

模型被提升为一个双向世界模型(Bidirectional World Model),开始学习动作控制、时间一致性和特定领域的规则。

为了在不显著增加推理成本的前提下提升性能,LingBot-World采用了混合专家(Mixture-of-Experts, MoE)架构。

MoE包含两个针对扩散过程定制的专家:

  • 高噪专家(High-noise expert):在去噪的早期时间步激活,专注于建模全局结构和粗略布局。

  • 低噪专家(Low-noise expert):在后期时间步激活,负责打磨精细的空间细节和纹理。

模型总参数量达到280亿,但在任何给定的去噪时间步只激活一个专家,从而保持了推理计算量和显存消耗与140亿参数模型相当。

为了实现动作可控性,LingBot-World引入了一种混合动作表示策略。

图片

它结合了连续的相机旋转(使用Plücker嵌入表示)和离散的键盘输入(W、A、S、D)。

这些动作信号通过自适应层归一化(AdaLN)机制注入到DiT(Diffusion Transformer)模块中,调节特征,从而引导视频生成的走向。

为了解决长视频生成中常见的遗忘和漂移问题,LingBot-World训练序列的长度从5秒逐步扩展到60秒。

随着视频长度的增加,训练更侧重于高噪时间步,因为这些时间步对维持全局场景结构至关重要。

通过这种方式,模型学会了在长达数分钟的漫游中保持环境的连贯性,涌现出了空间记忆能力。

因果架构适配与实时推理蒸馏

第二阶段的模型已经具备了强大的物理模拟能力,但它依赖于双向注意力机制,需要看到未来的信息来生成当前帧,且扩散模型的迭代采样速度极慢,无法满足实时交互的需求。

后训练(Post-Training)解决了这一问题。

图片

因果架构适配(Causal Architecture Adaptation)是实现实时性的关键一步。

团队将双向注意力机制替换为块状因果注意力(Block Causal Attention)。

在时间块内部,token之间保持双向关注以捕捉短程依赖;但在块与块之间,注意力被严格限制为因果关系,即当前块只能关注过去,不能看到未来。

这种混合模式既保留了局部的高质量生成,又满足了自回归生成的因果约束。

模型初始化时使用了第二阶段中对动态建模能力更强的高噪专家,通过混合时间步训练,使模型适应这种新的注意力模式。

为了彻底解决计算效率问题,LingBot-World实施了少步蒸馏(Few-Step Distillation)

传统的扩散模型生成一帧需要数十次去噪迭代,而实时应用要求毫秒级响应。

团队采用分布匹配蒸馏(DMD)结合对抗优化,将生成过程压缩到极少的步数。

他们引入了自回归扩展视界训练(Self-rollout extended horizon training)。让学生模型在自己生成的序列上进行训练,并将其产生的数据存入滚动的KV缓存中。

这种自己教自己的方法迫使模型学会处理自身生成过程中产生的累积误差,从而在长时间的自回归生成中保持鲁棒性,避免了画面崩坏。

能力涌现与多模态交互应用

经过这一系列复杂的进化,LingBot-World展现出了超越传统视频生成器的强大能力。

最令人印象深刻的是涌现记忆能力(Emergent Memory Capability)

图片

传统的3D引擎通过显式的几何数据存储场景,而LingBot-World作为视频模型,并没有内置的3D存储模块。

然而,实验发现,当用户控制相机在场景中移动,让某个地标(如巨石阵)移出视野长达60秒后,再次转回视角时,该地标依然保持着结构和外观的一致性。

这种对未观测状态的隐式记忆和推理能力,证明了模型真正学习到了环境的空间结构,而非仅仅是像素的统计规律。

LingBot-World还支持可提示的世界事件(Promptable World Events)

图片

用户不仅可以通过按键控制移动,还可以通过自然语言实时改变世界的状态。

比如输入冬天或像素艺术,整个场景的季节或渲染风格会立即平滑过渡,同时保持原有的几何结构和运动动态。

用户甚至可以无中生有,在城堡上空召唤烟花,或在喷泉中生成游动的鱼,模型能确保这些新增元素与环境物理交互的合理性。

此外,该模型还能作为动作智能体(Action Agent)的训练场,帮助机器人学习如何在虚拟环境中探索。

图片

利用其生成的高一致性视频序列,结合大型3D重建基础模型,LingBot-World还能实现从视频到高保真3D点云的重建,验证了其生成内容的几何精确性。

图片

LingBot-World在通用领域、生成时长、动态程度和实时性上均表现出色,且是唯一全开源的高性能模型。

图片

图片

当然,通往完全沉浸式虚拟世界的道路依然漫长。

目前的LingBot-World在记忆稳定性上仍有提升空间,长期模拟中偶尔会出现场景漂移;其推理成本依然较高,依赖企业级GPU;且目前的动作空间主要局限于导航,缺乏复杂的物体操作能力。

LingBot-World的发布,为开源社区在构建世界模型方面迈出了坚实的一步。

随着更多开发者参与进来,将共同推动社区在内容创作、游戏开发和机器人学习等领域的创新。

下一代无限、可玩、互动的虚拟未来越来越近了。

参考资料:

https://technology.robbyant.com/lingbot-world

https://github.com/Robbyant/lingbot-world

https://huggingface.co/collections/robbyant/lingbot-world

https://www.modelscope.cn/collections/Robbyant/LingBot-World

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐