【论文阅读】StableWorld: Towards Stable and Consistent Long Interactive Video Generation

本文提出了一种名为StableWorld的方法，通过智能地“扔掉”那些开始变模糊或变形的历史画面，只保留清晰的画面作为参考，从而让AI生成的长视频在长时间互动中保持稳定，不再“崩坏”。

萌新一个啥都不会

44人浏览 · 2026-04-24 16:25:58

萌新一个啥都不会 · 2026-04-24 16:25:58 发布

快速了解部分

基础信息（英文）：

题目: StableWorld: Towards Stable and Consistent Long Interactive Video Generation
时间: 2026.01
机构: NJU, HKU, UCAS, LibLib.ai, WeChat (Tencent Inc.), NTU
3个英文关键词: Interactive Video Generation, World Model, Temporal Consistency

1句话通俗总结本文干了什么事情

研究痛点：现有研究不足 / 要解决的具体问题

现有的World Model（世界模型）在生成长视频时，如果场景长时间不变或变化很小，画面会出现微小的误差积累（漂移），最终导致场景崩塌（Scene Collapse），比如物体扭曲或背景混乱。

核心方法：关键技术、模型或研究设计（简要）

Dynamic Frame Eviction Mechanism（动态帧驱逐机制）。利用ORB特征匹配计算几何相似度，动态决定从历史缓存中移除哪些“脏”帧，保留几何一致的“干净”帧。

深入了解部分

作者想要表达什么

长视频生成不稳定的根源在于“同一个场景内的误差积累”。只要保留最早期、最清晰的几帧作为“锚点”，就能抑制漂移；但为了兼顾场景切换的灵活性，不能死板地保留所有旧帧，必须动态剔除那些已经退化的中间帧。

相比前人创新在哪里

发现根源：明确指出场景崩塌不是因为动作复杂，而是因为同一场景内相邻帧的微小漂移不断累积。
机制创新：不同于以往单纯扩大缓存窗口（计算量大且限制场景切换）或Chunk-by-chunk生成（易断层），本文提出了一种动态的“去伪存真”的缓存管理策略。

解决方法/算法的通俗解释

想象你在画连环画，为了保持画风一致，你总是参考前一张画。但画到第100张时，前一张可能已经有点走形了，如果你继续参考它，后面会越来越歪。
StableWorld的做法是：桌面上摆着最近的几张画（缓存窗口）。每次画新画之前，先看看最早的那张“标准画”（Reference Frame）。如果发现中间某张画跟“标准画”长得不太像了（说明它已经走形了），就把它扔进垃圾桶，腾出位置给新画。这样，你始终是在参考清晰的画面，而不是走形的画面。

解决方法的具体做法

滑动窗口：维护一个包含历史帧的滑动窗口（Sliding Window）。
几何一致性检测：
- 选取窗口中最早的一帧作为参考帧（Reference Frame）。
- 使用ORB算法提取特征，结合RANSAC算法计算参考帧与中间帧（Middle Frames）的几何相似度（基于Homography或Fundamental matrix）。
动态驱逐：
- 如果中间帧与参考帧的相似度过低（低于阈值0.75），说明该帧已发生漂移，将其驱逐。
- 如果相似度够高，则驱逐最远的那一帧，为新帧腾出空间。
生成：利用清理后的窗口内容生成下一帧。

基于前人的哪些方法

Diffusion Models：用于帧内的去噪和生成。
Autoregressive Models：用于帧间的时序依赖建模。
ORB + RANSAC：经典的计算机视觉特征匹配与几何验证算法，用于计算帧间相似度。

实验设置、数据、评估方式、结论

实验对象：Matrix-Game 2.0, Open-Oasis, Hunyuan-GameCraft 1.0 三个不同的Interactive Video Model。
评估方式：VBench-Long基准测试（图像质量、美学质量、时序一致性等）+ 用户研究（20名参与者）。
结论：StableWorld显著提升了图像质量（如Matrix-Game上美学质量提升14.61%）和时序一致性，且计算开销极小（仅增加1.01-1.02倍延迟），证明了其通用性和有效性。

提到的同类工作

World Models: Genie, MiniWorld, Oasis.
Long Video Generation: StreamingT2V, Diffusion Forcing, Self-Forcing.
Memory Consistency: WorldMem, Context as Memory.

和本文相关性最高的3个文献

Self-Forcing (Bridging the train-test gap in autoregressive video diffusion)：本文在附录中专门验证了StableWorld对Self-Forcing模型的改进效果，两者都关注自回归视频生成中的误差积累问题。
Matrix-Game 2.0 (An open-source, real-time, and streaming interactive world model)：本文的主要实验基座之一，属于同类的交互式世界模型。
Hunyuan-GameCraft 1.0 (High-dynamic interactive game video generation with hybrid history condition)：本文验证的另一个主要基座模型，同样关注交互式视频生成。

我的

创新点并非提出了一个新的生成模型，而是优化了生成过程的Pipeline，通过计算和参考帧的相似度，来判断帧是否能够作为下一次的参考帧。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

答辩PPT还在熬夜调格式？百考通AI，让毕业生的时间花在刀刃上

毕业答辩，是对你数年学习与研究工作的终极考验。你的核心价值在于独特的研究思路、扎实的工作量与清晰的学术表达，而不在于PPT的排版是否绝对完美。当你可以用一小时搞定PPT的框架与美观，而将节省下的数小时甚至数天，用于更深度的内容反思、更流畅的演讲排练时，你便赢得了战略上的主动。面对毕业季的多重压力，是时候改变“熬夜调格式”的陈旧习惯了。让百考通AI这样的工具，替你处理好那些“重要但不核心”的环节。

2048 AI社区

gstack：让一个人拥有整个工程团队的生产力

2048 AI社区

MySQL ER_GRP_RPL_FAILED_TO_CREATE_TRANS_CONTEXT报错怎么修复？集群复制故障该怎么解决？

针对 MySQL ER_GRP_RPL_FAILED_TO_CREATE_TRANS_CONTEXT 报错，修复核心在于检查 Group Replication 配置与权限。首先确认连接用户是否为组拥有者 admin user 且拥有 SUPER 权限，其次检查 group_replication_transaction_size 等系统变量配置是否正确，确保所有成员 host 集群用户名密码一致