AirGS: Real-Time 4D Gaussian Streaming for Free-Viewpoint Video Experiences

对比了三种范式：(a) 每帧独立3DGS（质量高，成本巨大），(b) 典型4DGS（单一规范空间+运动估计），(c) 可流式4DGS（将高斯编码为2D图像）。如图1所示，以第一帧为关键帧，到第25帧时，画面中人物的手部细节严重模糊，PSNR显著降低。视觉对比显示，AirGS在动态场景（如挥动的手）中能清晰重建细节，而基线方法（如4DGS、V³）出现明显的模糊和伪影。在训练和预览渲染中统计每个高斯被

ZgZg050929

638人浏览 · 2026-02-05 17:31:13

ZgZg050929 · 2026-02-05 17:31:13 发布

一、问题定义：为什么这是一个难题？

核心挑战：4D高斯溅射（4DGS）虽能高质量、实时重建动态场景，但其流式传输面临两大瓶颈：
1. 长序列质量退化：现有方法（如V³）使用固定的规范空间（Canonical Space）。当视频序列很长，出现新物体或大幅度运动时，固定的高斯集合无法有效表达这些新内容，导致重建质量断崖式下降。如图1所示，以第一帧为关键帧，到第25帧时，画面中人物的手部细节严重模糊，PSNR显著降低。
2. 巨大的传输开销：即使每帧只传输高斯属性的变化量（Delta），未经优化的原始数据量依然庞大，无法在真实波动的网络环境（如移动网络）下保证实时、流畅的播放体验。
AirGS的定位：它不追求在理想条件下刷新重建质量的最高分，而是系统性地解决4DGS从“可用”到“好用”的工程落地问题，专注于长序列稳定性与动态网络自适应流式传输。

二、系统总览：重新设计两条流水线

核心洞察（图2与图3）：
- 图2 对比了三种范式：(a) 每帧独立3DGS（质量高，成本巨大），(b) 典型4DGS（单一规范空间+运动估计），(c) 可流式4DGS（将高斯编码为2D图像）。AirGS属于(c)类，但做出了关键改进。
- 图3 展示了AirGS的完整框架，其创新在于动态地、智能地管理“关键帧”和“传输数据”，而非采用固定策略。
  - 训练侧：输入视频，通过质量监测动态划分出多个“帧组”，每个组以关键帧为核心。组内帧通过轻量级MLP预测属性变化；新关键帧则触发一次“快速重建”。
  - 流式侧：服务器存储关键帧的完整高斯图像和序列的累积差异。客户端播放时，根据当前网络带宽，动态选择一个剪枝级别，对要传输的帧间差异数据进行压缩，再发送给客户端解码渲染。

三、训练优化：质量驱动与高效初始化

1. 质量驱动的帧分组策略（图4）

过程：
1. 以第 t 帧为关键帧，建立规范空间 GC_t。
2. 对于后续帧 t+1, t+2, ...，使用该规范空间通过运动估计进行重建。
3. 实时计算每一帧重建结果的PSNR。一旦某帧的PSNR低于预设阈值 τ（例如30），系统立即判定当前规范空间“失效”。
4. 将该质量下降的帧标记为新的关键帧 t+n，并为其启动一个新的规范空间 GC_{t+n}，开始一个新的帧组。
意义：这是一种数据驱动的自适应策略，使模型复杂度与场景动态变化相匹配，从根本上避免了因模型表达能力不足导致的长序列质量衰退。

2. 关键帧快速重建与“膨胀损失”（图5）

问题：传统方法重建一个新关键帧需要从头训练，耗时严重。
AirGS的解决方案（图5详解）：
1. 继承初始化：不从头开始，而是用上一帧训练好的高斯集 GS_{t-1} 作为初始状态。因为背景等静态部分大量存在且不变。
2. 高斯致密化：在训练时，对重建误差高（梯度大）的区域（如图5红框内新手部）进行高斯克隆或分裂，增加该区域的表达能力以拟合新内容。
3. 核心创新：膨胀损失：致密化会盲目增加高斯数量。为此，论文提出 L_inf = max(0, N - U)。
  - N：当前高斯总数。
  - U：一个软性上限，通常设定为上一关键帧的高斯数量。
  - 作用机制：这个损失函数会惩罚高斯数量的增长。在优化过程中，它会驱动渲染器降低那些对最终图像贡献度低的“冗余”高斯的不透明度。随着训练进行，这些不透明度趋近于零的高斯被自然剔除，从而在提升对新增内容拟合能力的同时，自动将高斯总数稳定在上一帧的水平附近。
结果：实现了“原地快速革新”，用最短的时间和最小的存储增长，获得一个适应新内容的高质量规范空间。

四、流式传输优化：网络自适应的差分剪枝

1. 数据表示与差分传输

将每个高斯的所有属性编码为一组多通道2D图像，一个像素对应一个高斯。这种格式天然兼容硬件加速解码和标准视频编码。
传输时，只发送当前帧与上一帧高斯属性之间的差异（Delta）。由于连续帧间变化小，差异矩阵非常稀疏，利于压缩。

2. 基于使用频率的自适应剪枝（图6与算法1）

核心问题：即使传输差异，在带宽极度受限时仍需进一步压缩。如何剪枝能在给定带宽下最大化渲染质量？
关键观察（图6）：剪枝率与质量（PSNR）并非线性关系。存在一个 “质量悬崖” —— 当剪枝超过某个临界点，PSNR会急剧下降。最优操作就是在悬崖边缘之前，尽可能多地剪枝。
算法流程（Algorithm 1）：
1. 构建质量-尺寸曲线：对每一帧，预先计算从0%到100%不同剪枝级别下的渲染质量（PSNR）和数据大小。
2. 检测“悬崖”点：遍历曲线，如果相邻两级之间的质量下降幅度，超过前一级下降幅度的 β 倍（例如2倍），则判定为“悬崖”。保留悬崖之前的所有级别作为候选集 S。
3. 二分搜索适配带宽：根据实时网络带宽 B 和目标帧率 R，计算出每帧可用的最大数据预算 C = B / R。在候选集 S 中，使用二分搜索快速找到数据尺寸小于等于C的最高质量剪枝级别。
剪枝依据：高斯的使用频率。在训练和预览渲染中统计每个高斯被投影到屏幕像素上的频率，频率越低的高斯被认为越“不重要”，优先被剪枝。

五、实验评估：全面领先的流式体验

1. 整体性能对比（表I，图7，图8）

图7 视觉对比显示，AirGS在动态场景（如挥动的手）中能清晰重建细节，而基线方法（如4DGS、V³）出现明显的模糊和伪影。
表I 数据表明：
- 质量：PSNR (32.29) 接近顶级的朴素3DGS (33.94)，大幅领先其他4DGS方法。
- 效率：传输尺寸 (1.1MB) 和渲染速度 (400 FPS) 均为所有方法中最优。
- 训练速度：1.4分钟/帧，实用性极强。