论文Review 3DGS综述 | 南京大学 | 3DGS Survey, Technologies, Challenges, and Opportunities |（一）3DGS 优化和应用分类

元让_vincent

1032人浏览 · 2025-12-17 16:26:54

元让_vincent · 2025-12-17 16:26:54 发布

基本信息

题目：3D Gaussian Splatting: Survey, Technologies, Challenges, and Opportunities

来源：IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 35, NO. 7, JULY 2025

学校：南京大学

是否开源：https://github.com/qqqqqqy0227/awesome-3DGS

摘要：三维高斯泼溅（3DGS）已成为一种重要技术，有潜力成为主流的三维表示方法。它可以通过高效的训练，将多视图图像转化为显式的3D高斯分布，并实现新颖视图的实时渲染。本次调查旨在从多个交叉视角分析现有的3DGS相关工作，包括相关任务、技术、挑战和机遇。其主要目标是让新手快速理解该领域，并协助研究人员有条不紊地组织现有技术和挑战。具体来说，我们深入探讨了3DGS的优化、应用和扩展，并根据它们的重点或动机进行分类。此外，我们还总结并分类了九类技术模块及其在现有作品中识别出的相应改进。基于这些分析，我们进一步探讨了各项任务中的共同挑战和技术，提出了潜在的研究机会。

I. INTRODUCTION

论文引言部分首先回顾了3D表示技术的演进背景，强调NeRF[1]虽然开启了逼真3D重建的时代，但效率瓶颈始终存在。3DGS的出现像是一场革命，它结合了传统几何重建和神经隐式表示的优势，实现1080p分辨率下≥30fps的实时新视角合成。这不只是计算效率的提升，更是范式转变——显式、可微分、可控的表示形式，为VR/AR、机器人、城市规划等应用铺平道路。

动机：作者指出，3DGS相关工作爆炸式增长，但现有综述[2],[3],[4]多按任务分类，忽略了跨任务的技术共性，导致重复讨论。本文创新点在于“任务+技术”双层分析：按动机分类任务（如优化、应用、扩展），并总结九大技术模块改进。同时，作者构建了GitHub仓库（https://github.com/qqqqqq/0227/awesome-3DGS）持续更新相关论文。

背景解释：NeRF依赖体积渲染，计算密集；3DGS用高斯原语“溅射”（splatting）到2D平面，像泼墨画一样高效渲染。相比NeRF，3DGS的显式性便于编辑和扩展，但也带来存储和泛化挑战。

分析：这个双层框架为什么重要？它像一座桥梁，连接了看似独立的领域——比如SLAM中的初始化技巧能借鉴到AIGC中。相比前作[2]，本文更注重技术“原子级”拆解，帮助研究者自定义3DGS pipeline。

[2] G. Chen and W. Wang, “A survey on 3D Gaussian splatting,” 2024, arXiv:2401.03890.

论文Review 3DGS综述 | 浙江大学 | A Survey on 3D Gaussian Splatting |（一）稀疏视角和内存压缩

论文Review 3DGS综述 | 浙江大学 | A Survey on 3D Gaussian Splatting |（二）发展、应用与结论

[3] T. Wu et al., “Recent advances in 3D Gaussian splatting,” Comput. Vis. Media, vol. 10, no. 4, pp. 613–642, Aug. 2024.

论文Review 3DGS综述 | 中国科学院计算技术研究所 | 3DGS重建、编辑、应用

[4] B. Fei, J. Xu, R. Zhang, Q. Zhou, W. Yang, and Y. He, “3D Gaussian splatting as new era: A survey,” IEEE Trans. Vis. Comput. Graph., pp. 1–20, 2024, doi: 10.1109/TVCG.2024.3397828. [Online]. Available: https://ieeexplore.ieee.org/document/10521791/citations#citations

II. PRELIMINARIES

这一节详细介绍了vanilla 3DGS[5]的pipeline和技术细节，包括初始化、属性扩展、溅射、正则化、训练策略、自适应控制、后处理等模块（如图2所示）。

初始化

核心观点：训练开始时，用SfM生成的稀疏点云或随机点初始化高斯基元。动机是避免从零开始优化，减少对稠密点云的依赖。背景：传统点基渲染需要稠密输入，3DGS通过自适应控制缓解此问题。

重要公式：高斯密度定义为 $G(x) = \exp\left(-\frac{1}{2}(x)^T \Sigma^{-1}(x)\right)$ ，其中 Σ 是协方差矩阵，x是距均值μ的位置。解释：这像一个“柔软的椭球体”，中心密度高，边缘渐淡，便于渲染连续场景。

再参数化： $\Sigma = R S S^T R^T$ ，S是缩放向量s（3维），R由四元数q（4维）得来，总7个参数。类比：不像Cholesky分解，这允许几何约束，比如压扁s让高斯变“薄片”状，用于表面重建。优势：比Cholesky多1参数，但更灵活。

分析：初始化为什么重要？它决定优化起点，稀疏输入下随机初始化易陷局部最优。与前作相比，3DGS的自适应（基于视空间位置梯度判断“欠/过重建”）允许从小规模高斯起步，减少浮点运算。

属性扩展

每个高斯有几何（位置、旋转、缩放）、不透明度α、视依赖SH系数。SH像“彩色滤镜”，捕捉光照变化。

图表描述：Fig.2展示了pipeline：初始化高斯投影到图像平面，经溅射和α混合得像素色。

溅射（Splatting）

用EWA[6]将3D高斯投影到2D平面，像“泼洒”高斯斑点。解释：避免锯齿，确保平滑渲染。

正则化与训练策略

通过图像监督优化属性，周期重置α除噪。训练像“雕塑”：梯度驱动克隆/分裂高斯，增加细节。

自适应控制

监测视空间梯度，克隆“欠重建”高斯，分裂“过重建”者。类比：像细胞分裂，动态增长点云。

后处理

渲染后α混合像素色。

分析：这些模块是3DGS高效的核心，与NeRF的隐式表示相比，显式高斯更易并行计算，但需小心过拟合。论文在这里奠基，后续章节扩展这些。

III. OPTIMIZATION OF 3D GAUSSIAN SPLATTING

A. Efficiency

核心观点：3DGS虽高效，但存储、训练、渲染仍有瓶颈。动机：实际应用需压缩到MB级，实时>30fps。

1) Storage Efficiency

背景：典型场景需百万高斯，存数百MB。解决：用VQ[11]压缩属性。

关键方法：

Compact3D[9]：用4码本压缩属性，存索引。创新：梯度通过码本回传，训练后丢弃非量化参数。问题：量化误差，超参敏感。
FAGLFS[8]、LightGaussian[13]：类似VQ+蒸馏高阶SH[13]。
剪枝[12],[13]：学mask或全局重要分移除冗余高斯。
结构表示[14-17]：Scaffold-GS[14]用锚点+体网格生长/剪枝；HAC[17]用哈希网格缓解无结构限制。

表格I解读（MipNeRF360数据集）：

3DGS：PSNR 27.49, SSIM 0.813, LPIPS 0.222, Size 744.7MB（基准）。
HAC：PSNR 27.53（略高），Size 15.26MB（压缩48x），含义：高压缩下质量接近，适合移动设备。
LightGaussian：Size 44.54MB，PSNR 27.00（小降），优势：全局分+SH蒸馏，平衡质量与大小。

分析：VQ为什么重要？减少冗余属性（如相似高斯），压缩率高。但误差大，与前作NeRF压缩比，3DGS更易因显式性优化。优势：HAC的哈希网格比Scaffold-GS多分辨率更稳。

2) Training Efficiency

DISTWAR[20]：用warp级归约加速原子操作，平均2.44x提速。创新：利用intra-warp局部性，减少梯度计算瓶颈。问题：限光栅渲染。

3) Rendering Efficiency

[21]：离线聚类剔除无用高斯+专用硬件，10.7x加速GPU。分析：渲染瓶颈在高斯数，与存储优化共生。

B. Photorealism

核心观点：追求真实渲染，针对凡尼拉设置、多尺度、反射表面、去模糊。

vanilla settings

GaussianPro[24]：2D-3D联合训练，渐进高斯传播用深度/法线一致性精炼。创新：补3D不一致，与前作比强在处理伪影。

[27]：N维高斯混合模型，无领域启发式高维建模。问题：依赖稠密数据。

多尺度渲染

Mip-splatting[29]：用Nyquist定理低通+2D Mip滤波限频，防过平滑。Analytic-Splatting[31]：像素窗内积分近似logistic函数。分析：为什么重要？多尺度下性能降，[31]比[29]强在解析积分，细节保真但效率降。

挑战场景

反射[32-37]：GaussianShader[32]混色+GGX[42]+法线估计，处理散射/间接光。Deferred shading[35]：屏幕空间逐像素着色+法线传播，高效。优势：比vanilla 3DGS快，处理复杂反射。

去模糊[38-41]：DeblurGS[38]建模模糊过程，用模糊图像监督锐化。BAGS[41]模糊无关建模，粗-细优化。分析：扩展场景范围，[41]比[38]强在泛用性。

C. Generalizable 3DGS

核心观点：从参考图像推断像素级高斯，用于目标视图渲染。动机：避免逐场景训练。

方法：Splatter Image[43]转图像为高斯属性图。MVSplat[45]用平面扫掠建成本卷，预测深度定位高斯。FreeSplat[46]三元融合策，DGGS[47]无干扰训练。G3R[48]加LiDAR扩展动态。

用Triplane[49],[50]查询特征预测属性。Transformer[51],[52]从稀疏图像推3D资产。

分析：比vanilla强在泛化，但合成范围限，受干扰。未来：结合LiDAR等多模态。

D. Sparse Views Setting

核心观点：类似NeRF[53],[54]，用正则+额外信息如深度/扩散模型[55-62]重建。

方法：深度缓解空间需求，扩散提供稠密先验。GaussianObject[63]用Visual Hull初始化+距离统计优化除浮点。

分析：稀疏下3D理解难，先验重要。与前作比，3DGS显式性易整合深度，但一致性仍需额外正则。

IV. APPLICATIONS OF 3D GAUSSIAN SPLATTING

A. Human Reconstruction

1) Body Reconstruction

核心观点：从多/单视图视频重建可动人体，支持实时渲染。表格II比较依赖变形、姿势等。

方法：多用SMPL[73]/SMPL-X[74]先验。HUGS[66]初期用SMPL+LBS，允许高斯偏离网格捕衣/发。ASH[70]投2D纹理图用2D网预测参数。分析：SMPL限体，[66]比[64]强在衣发；2D投影减复杂，但分离衣难。

表格II关键：HuGS[64]姿势依赖、新姿无；GauHuman[68]动画/训练/渲染全优。含义：权衡泛化与效率。

2) Head Reconstruction

用FLAME[80]网格指导[75-79]。Gaussian Head Avatar[81]用MLP预测中性到目标表情位移，高达2K渲染。 [82],[83]用SDF/DMTet替代初始化。[84],[85]>300fps。[86-88]加音频同步。

分析：FLAME+LBS限表情，MLP强在细节。

3) Others

GaussianHair[89]用圆柱高斯链重建发。生成[91-93]整合3DGS与生成模型。

B. Artificial Intelligence-Generated Content (AIGC)

1) Text to 3D Objects

用2D生成模型+SDS[94]。DreamGaussian[95]从3DGS提Mesh，UV空间精纹理。LucidDreamer[100]间距匹配防过平/欠采样。问题：SDS易过饱和/平滑[99-103]。

更多视图/视频[104-108]：用视频生成多视图重建。Feed-forward[109-112]：BrightDreamer[109]77ms转3D，但质量降。

直接3DGS生成[113-116]：L3DG[115]潜扩散压缩3DGS。限3D数据。

数字人[91],[92],[117]：HumanGaussian[92]RGB+深度SDS联合监督。

分析：SDS像“梦工厂”，但一致性差。视频SDS比文本强在动态，与前作NeRF比，3DGS快但数据饥饿。

2) Image to 3D Object

类似文本[118-120]：Repaint123[119]用Zero-123[121]粗3DGS，Mesh精+深度导重绘。

3) Multi-Object and Scene Generation

多物体[122-125]：CG3D[122]SDS+概率图预测交互，加重力/接触先验。

场景[126-128]：需深度估计/LLM。LucidDreamer2[126]文本-图像+深度初始化点云，转3DGS。

4) 4D Generation

文本到视频SDS[130-135]：Align Your Gaussians[130]2阶段：MVDream[136]静3DGS+视频导4DGS。

伪标签[137-140]：4DGen[137]多视图伪标签/帧+Hexplane[141]时一致。

动画静态3DGS[142],[143]：BAGS[142]神经骨+蒙皮权重变形。

分析：4D如“活起来的3D”，但SDS限存。伪标签比SDS稳，与动态3DGS共性多。

C. Autonomous Driving

1) Autonomous Driving Scene Reconstruction

挑战：大规模、动态。DrivingGaussian[144]深度分箱静高斯+动态图多目标。StreetGaussians[145]加语义+Fourier时SH。TCLC-GS[147]紧耦LiDAR-相机高斯。多时校准[148]用LiDAR参考一致性。

2) Simultaneous Localization and Mapping (SLAM)

在线跟踪+增量映射。GS-SLAM[149]自适应扩展+粗细优化。Photo-SLAM[150]ORB特征+高斯属性超原图。CG-SLAM[153]不确定感知+GPU加速。RGBD GS-ICP SLAM[154]G-ICP[157]共享协方差。

语义[158-160]：SGS-SLAM[158]几何/语义特征渲染+关键帧选。

定位[161]、导航[162]：3DGS-ReLoc[161]LiDAR初始化+KD树；GaussNav[162]图像目标导航。

表格III（Replica数据集）：GS-ICP SLAM PSNR 38.83, Tracking RMSE 0.16（最佳），含义：高保真+精确跟踪，适合机器人。

分析：自动驾驶需实时，3DGS比NeRF强在效率，但噪声敏感。未来：多传感器融合。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI 代码审查的「硬苏打水时代」：当每个工具都说自己最会抓 Bug

2048 AI社区

收藏备用｜小白/程序员必看！从零搭建可落地的AI Agent学习框架（附实战案例）

2048 AI社区

【gemini】多模态AI王者Gemini，手把手教你丝滑使用

2048 AI社区

所有评论(0)

查看更多评论

元让_vincent

@weixin_42148238

已为社区贡献7条内容