一、问题定义:为什么这是一个难题?

  • 核心挑战:4D高斯溅射(4DGS)虽能高质量、实时重建动态场景,但其流式传输面临两大瓶颈:

    1. 长序列质量退化:现有方法(如V³)使用固定的规范空间(Canonical Space)。当视频序列很长,出现新物体或大幅度运动时,固定的高斯集合无法有效表达这些新内容,导致重建质量断崖式下降。如图1所示,以第一帧为关键帧,到第25帧时,画面中人物的手部细节严重模糊,PSNR显著降低。

    2. 巨大的传输开销:即使每帧只传输高斯属性的变化量(Delta),未经优化的原始数据量依然庞大,无法在真实波动的网络环境(如移动网络)下保证实时、流畅的播放体验。

  • AirGS的定位:它不追求在理想条件下刷新重建质量的最高分,而是系统性地解决4DGS从“可用”到“好用”的工程落地问题,专注于长序列稳定性动态网络自适应流式传输

二、系统总览:重新设计两条流水线

  • 核心洞察(图2与图3)

    • 图2 对比了三种范式:(a) 每帧独立3DGS(质量高,成本巨大),(b) 典型4DGS(单一规范空间+运动估计),(c) 可流式4DGS(将高斯编码为2D图像)。AirGS属于(c)类,但做出了关键改进。

    • 图3 展示了AirGS的完整框架,其创新在于动态地、智能地管理“关键帧”和“传输数据”,而非采用固定策略。

      • 训练侧:输入视频,通过质量监测动态划分出多个“帧组”,每个组以关键帧为核心。组内帧通过轻量级MLP预测属性变化;新关键帧则触发一次“快速重建”。

      • 流式侧:服务器存储关键帧的完整高斯图像和序列的累积差异。客户端播放时,根据当前网络带宽,动态选择一个剪枝级别,对要传输的帧间差异数据进行压缩,再发送给客户端解码渲染。

三、训练优化:质量驱动与高效初始化

1. 质量驱动的帧分组策略(图4)

  • 过程

    1. 以第 t 帧为关键帧,建立规范空间 GC_t

    2. 对于后续帧 t+1, t+2, ...,使用该规范空间通过运动估计进行重建。

    3. 实时计算每一帧重建结果的PSNR。一旦某帧的PSNR低于预设阈值 τ(例如30),系统立即判定当前规范空间“失效”。

    4. 将该质量下降的帧标记为新的关键帧 t+n,并为其启动一个新的规范空间 GC_{t+n},开始一个新的帧组。

  • 意义:这是一种数据驱动的自适应策略,使模型复杂度与场景动态变化相匹配,从根本上避免了因模型表达能力不足导致的长序列质量衰退。

2. 关键帧快速重建与“膨胀损失”(图5)

  • 问题:传统方法重建一个新关键帧需要从头训练,耗时严重。

  • AirGS的解决方案(图5详解)

    1. 继承初始化:不从头开始,而是用上一帧训练好的高斯集 GS_{t-1} 作为初始状态。因为背景等静态部分大量存在且不变。

    2. 高斯致密化:在训练时,对重建误差高(梯度大)的区域(如图5红框内新手部)进行高斯克隆或分裂,增加该区域的表达能力以拟合新内容。

    3. 核心创新:膨胀损失:致密化会盲目增加高斯数量。为此,论文提出 L_inf = max(0, N - U)

      • N:当前高斯总数。

      • U:一个软性上限,通常设定为上一关键帧的高斯数量。

      • 作用机制:这个损失函数会惩罚高斯数量的增长。在优化过程中,它会驱动渲染器降低那些对最终图像贡献度低的“冗余”高斯的不透明度。随着训练进行,这些不透明度趋近于零的高斯被自然剔除,从而在提升对新增内容拟合能力的同时,自动将高斯总数稳定在上一帧的水平附近。

  • 结果:实现了“原地快速革新”,用最短的时间和最小的存储增长,获得一个适应新内容的高质量规范空间。

四、流式传输优化:网络自适应的差分剪枝

1. 数据表示与差分传输
  • 将每个高斯的所有属性编码为一组多通道2D图像,一个像素对应一个高斯。这种格式天然兼容硬件加速解码和标准视频编码。

  • 传输时,只发送当前帧与上一帧高斯属性之间的差异(Delta)。由于连续帧间变化小,差异矩阵非常稀疏,利于压缩。

2. 基于使用频率的自适应剪枝(图6与算法1)

  • 核心问题:即使传输差异,在带宽极度受限时仍需进一步压缩。如何剪枝能在给定带宽下最大化渲染质量

  • 关键观察(图6):剪枝率与质量(PSNR)并非线性关系。存在一个 “质量悬崖” —— 当剪枝超过某个临界点,PSNR会急剧下降。最优操作就是在悬崖边缘之前,尽可能多地剪枝。

  • 算法流程(Algorithm 1)

    1. 构建质量-尺寸曲线:对每一帧,预先计算从0%到100%不同剪枝级别下的渲染质量(PSNR) 和数据大小。

    2. 检测“悬崖”点:遍历曲线,如果相邻两级之间的质量下降幅度,超过前一级下降幅度的 β 倍(例如2倍),则判定为“悬崖”。保留悬崖之前的所有级别作为候选集 S

    3. 二分搜索适配带宽:根据实时网络带宽 B 和目标帧率 R,计算出每帧可用的最大数据预算 C = B / R。在候选集 S 中,使用二分搜索快速找到数据尺寸小于等于C的最高质量剪枝级别。

  • 剪枝依据:高斯的使用频率。在训练和预览渲染中统计每个高斯被投影到屏幕像素上的频率,频率越低的高斯被认为越“不重要”,优先被剪枝。

五、实验评估:全面领先的流式体验

1. 整体性能对比(表I,图7,图8)

  • 图7 视觉对比显示,AirGS在动态场景(如挥动的手)中能清晰重建细节,而基线方法(如4DGS、V³)出现明显的模糊和伪影。

  • 表I 数据表明:

    • 质量:PSNR (32.29) 接近顶级的朴素3DGS (33.94),大幅领先其他4DGS方法。

    • 效率:传输尺寸 (1.1MB) 和渲染速度 (400 FPS) 均为所有方法中最优。

    • 训练速度:1.4分钟/帧,实用性极强。

2. 质量一致性分析(图9)

  • 图9(a):绘制了各方法逐帧PSNR曲线。AirGS的曲线最为平稳且高位运行,始终高于31dB,证明了其分组策略有效消除了质量波动。

  • 图9(b):展示了各序列的最大质量偏差。AirGS的平均偏差最小,说明其在不同内容的视频上均有稳定的表现。

3. 传输性能与剪枝效果(图10,图11,图12,表III)

  • 图10:在真实LTE网络轨迹下,AirGS的帧传输时间CDF曲线最靠左,95%的帧能在25ms内传完,最大传输时间远低于其他方法。

  • 表III:平均传输时间仅 12ms,传输速率高达 92.74帧/秒,确保了超流畅的流式体验。

  • 图11:展示了剪枝的视觉影响。即使在高强度剪枝下,画面主要结构仍然保持完好,仅细微纹理有损失。

  • 图12:对比了同一序列在有无剪枝下的传输时间。剪枝后,传输时间被显著压缩且波动大幅减小,有效对抗了网络抖动。

六、总结:技术路径与汇报定位

  • AirGS的技术路径是一条清晰的 “感知-决策-优化” 闭环:

    1. 感知:在训练时感知质量下降(分组),在传输时感知网络带宽(剪枝)。

    2. 决策:决策何时创建新关键帧,决策使用何种剪枝级别。

    3. 优化:通过膨胀损失优化模型效率,通过差分剪枝优化传输效率。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐