SimVS: Simulating World Inconsistencies for Robust View Synthesis 论文解读

该论文提出了一种名为SimVS的视频模型方法，旨在解决稀疏多视角图像捕捉中因动态变化（光照变化、物体运动）导致的视图合成鲁棒性问题。动机：现有方法在动态场景下需要依赖静态假设信息（比如NeRF），而实际的应用中输入的图像存在动态干扰，导致重建质量下降，或者使用了很少的数据，最后重建结果出现残影或者几何错乱（如下图CAT3D近期的NVS模型都是从一组一致性的图像作为输入，场景几何形状和照明。

Struart_R

734人浏览 · 2025-03-02 16:48:32

Struart_R · 2025-03-02 16:48:32 发布

一、概述

该论文提出了一种名为SimVS的视频模型方法，旨在解决稀疏多视角图像捕捉中因动态变化（光照变化、物体运动）导致的视图合成鲁棒性问题。

动机：现有方法在动态场景下需要依赖静态假设信息（比如NeRF），而实际的应用中输入的图像存在动态干扰，导致重建质量下降，或者使用了很少的数据，最后重建结果出现残影或者几何错乱（如下图CAT3D）。

近期的NVS模型都是从一组一致性的图像作为输入，场景几何形状和照明都是静态的，但是现实场景的图像捕捉一般很难遵循这一约束，人、物体可能存在移动或者变形，灯光也可能存在移动或改变亮度。

目的：该论文实现了从动态不一致的稀疏输入中恢复高质量的静态3D模型。原理是将动态干扰的稀疏图像隐式对齐到同一静态状态，输出一个与参考视角几何一致的图像，以供后续3D重建。

关键贡献：

一种生成式数据增强策略，利用视频扩散模型（Lumiere）去采样世界的不一致性（场景运动和光线改变）

一种多视图协调模型，根据生成的数据进行训练，将不一致的稀疏输入图像转换为一组一致的图像。

二、相关工作

三、SimVS

首先对于所假设的模型缺乏成对的动态-静态的训练数据，所以打算创建一个数据集。

基于现有的多视图数据集，当前大多数的静态多视图数据集只包含对一致场景的capture，而通过简单的缩放数据，不足以形成robust的NVS，而如果对图像移动视点或者单独进行场景变形或者照明改变是很繁杂的。如果利用启发式数据增强策略（如下图），比如随机变换，色彩变换，难以捕捉真实情况的照明变换和几何性质，甚至这种方式不能影响场景内的运动。如果使用objaverse数据集，他只能在物体级实现，而没有场景级。

下图第一列为原始图片，第二列真实场景下的加以dynamics/lighting的效果，第三列是通过VDM生成的效果，第四列是启发式数据增强策略生成的，效果很拉胯，不真实。