【论文笔记】GaussianPretrain: A Simple Unified 3D Gaussian Representation for Visual Pre-training in Auton

【论文笔记】GaussianPretrain: A Simple Unified 3D Gaussian Representation for Visual Pre-training in Autonomous Driving

byzy

1410人浏览 · 2024-12-08 16:37:49

byzy · 2024-12-08 16:37:49 发布

GaussianPretrain: A Simple Unified 3D Gaussian Representation for Visual Pre-training in Autonomous Driving
原文链接：https://arxiv.org/pdf/2411.12452

简介：自动驾驶中，现有的自监督图像处理方法关注几何信息，而忽视纹理或与纹理分开对待，阻碍了场景的全面理解。本文提出GaussianPretrain，将场景的几何和纹理表达整合起来实现对场景的完整理解。本文方法将3D高斯锚点定义为体积激光雷达点，能加深对场景的理解，并提高几何和纹理的预训练性能。相比于NeRF方法，本文的速度和GPU存储消耗均更低；在多个下游任务上的实验均表明，GaussianPretrain能提高性能。

1. 引言

3D高斯溅射（3D GS）将场景表达为点云，通过位置、色彩、旋转、尺度和不透明度等属性，编码了几何和纹理信息。相比NeRF，3D GS能更快地在训练中收敛，且存储消耗低。

本文将3D GS与MAE结合，提出预训练方法GaussianPretrain，用于3D视觉学习。方法的关键创新有二：（i）激光雷达深度指导的掩膜生成器。为提高效率，本文仅在多视图图像有限的有效掩膜区域学习高斯。这些掩膜区域被MAE确定，且只保留其中有激光雷达深度监督的部分。（ii）基于射线的3D高斯锚指导策略：对于每个有激光雷达点投影的像素，射线投射操作会在体素中采样点。本文引入可学习高斯锚，指导从3D体素学习高斯属性。这样模型可以同时学习几何和纹理信息。最后，通过解码高斯参数，可在有效掩膜区域内重建RGB、深度和占用属性。

3. 准备知识

3.1 3D高斯溅射

高斯被定义为
$G(x)=e^{-\frac12(x-\mu)^T\Sigma^{-1}(x-\mu)}$

其中 $\mu$ 和 $\Sigma$ 分别为均值和协方差矩阵。投影到2D的协方差矩阵为 $\Sigma'=JW\Sigma W^TJ^T$ ，其中 $W$ 表示视角变换，雅可比矩阵 $J$ 为变换的线性近似。像素颜色可通过 $N$ 个排序的高斯、使用混合方程渲染：
$C(p)=\sum_{i=1}^Nc_i\alpha_i\tau$

其中 $c_i$ 为球面谐波表示的高斯颜色， $\alpha_i$ 为不透明度的影响， $\tau=\prod_{j=1}^{i-1}(1-\alpha_j)$ 为透明度。

4. 方法

如图所示，给定带有效掩膜区域的多视图图像，目的是通过解码高斯参数 $\{(\mu_j,\alpha_j,\Sigma_j,c_j)\}_{j=1}^K$ 重建RGB、深度和占用，其中 $K$ 为高斯锚的最大数量。
在这里插入图片描述

4.1 激光雷达深度指导的掩膜生成器

本文使用随机区块掩膜 $M$ ，并在图像主干中使用稀疏卷积替代传统卷积。为提高效率，本文仅在有效掩膜区域的子集内学习高斯参数。
在这里插入图片描述
如图所示，通过检查掩膜区域 $M_i$ 中是否存在深度在范围 $[a, b]$ 内的激光雷达点来判断有效性：
$M'^n_{i=1}=有效, 若Proj(Set(pc))\in\{[a,b],M\}$

其中 $n\leq m$ 为有效掩膜区块的数量。该策略能保证模型关注前景。

4.2 基于射线指导的3D高斯锚

为保证模型同时理解几何与纹理，本文引入可学习高斯锚，作为体积激光雷达点指导高斯参数的学习。记有激光雷达点投影的像素 $u=(u_1,u_2,1)$ 对应射线 $R$ 。采样 $D$ 个射线点 $\{p_j=ud_j|j=1,\cdots,D,d_j<d_{j+1}\}$ ，其中 $d_j$ 为对应的射线深度。有效掩膜区域 $M^{'}$ 内的采样射线点 $p$ 可立即投影到3D空间，作为3D高斯锚 $G_p^{M'}(\cdot)$ 。这样既可避免对整个图像渲染从而降低存储消耗，还能同时重建RGB、深度和占用。

4.3 体素编码器

本文使用LSS生成3D体素特征 $V\in\mathbb R^{C\times Z\times H\times W}$ 。对每个有激光雷达投影的像素，使用射线投射操作从 $V$ 中提取 $N_t$ 个采样的目标体素 $V_t$ ，目标体素内存在高斯锚。

4.4 高斯参数解码器

将 $G_p^{M'}$ 作为3D高斯锚，可有效捕捉高质量、细粒度的细节。高斯锚 $G=\{x\in\mathbb R^3,c\in\mathbb R^3,r\in\mathbb R^4,s\in\mathbb R^3,\alpha\in\mathbb R^1\}$ ，高斯图 $G$ 被定义为
$G(x)=\{M_c(x),M_r(x),M_s(x),M_\alpha(x)\}$

其中 $x$ 为高斯锚的位置， $M_c,M_r,M_s,M_\alpha$ 分别为颜色、旋转、尺度和不透明度的高斯参数图。

由于多视图图像存在重叠区域，逐像素的预测会导致冲突，本文直接从3D体素特征预测高斯参数。给定体素特征 $V$ 和中心位置 $x$ ，使用三线性插值采样特征 $f (x)$ ：
$f (x) = T r i I n t er (V, x)$

各高斯参数图通过预测头 $h=MLP(\cdot)$ 生成，其中颜色和不透明度使用Sigmoid函数归一化到 $[0, 1]$ 范围内。

旋转图表达四元数，需要进行 $Norm(\cdot)$ 以确保单位幅值。尺度图则需要Softplus激活函数以满足范围要求。

4.5 重建信号的监督

仅在有效掩膜区域内进行高斯锚参数解码和重建。

RGB重建：本文直接预测固定视角的RGB，使用3.1节中的第二式渲染RGB $\hat C$ 。

深度重建：按下式渲染深度 $\hat D$ ：
$\hat D=\sum_{i=1}^Nd_i\alpha_i\tau$

其中 $N$ 为高斯锚的数量， $d_i$ 为第 $i$ 个高斯锚的深度。

占用重建：本文直接使用不透明度表示占用：
$\hat O=\max_{j=1}^k(M_\alpha^j(x))|x\in V_t$

其中 $k$ 为目标体素 $V_t$ 中高斯锚的数量。

损失函数：包括颜色损失、深度损失和占用损失：
$L=\frac{\lambda_{RGB}}{N^p_t}\sum_{i=1}^{N_t^p}|C_i-\hat C_i|+\frac{\lambda_{depth}}{N^p_t}\sum_{i=1}^{N_t^p}|D_i-\hat D_i|+\frac{\lambda_{Occ}}{N^v_t}\sum_{i=1}^{N_t^v}|O_i-\hat O_i|$

其中 $C_i,D_i$ 为真实色彩和深度， $O_i$ 为真实占用（至少包含一个激光雷达点）。 $N_t^p$ 和 $N_t^v$ 分别为目标像素 $P_t$ 和体素 $V_t$ 的数量。

实验表明，本文的预训练方法还能降低对标注的依赖。即相比传统方法，使用更少的标注训练就能达到更高的性能。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI Coding 全栈实战

它的目标不是展示"我有多厉害"，而是告诉你：在 2026 年的今天，任何一个有想法、会打字的人，都可以借助 AI 编程工具，从零做出一个完整的全栈网站。当然，在此过程中，你仍然可能遇到不懂的名字或概念，此时AI不仅可以是你的工具，还可以是你的老师，保持求知欲，可以学会任何事情，并且比以往任何一个时候都要更快、更全。如果你只想快速上线一个东西，用 Vercel + Supabase 可能十分钟就搞定

2048 AI社区

【低空经济】低空AI无人机设计方案

2048 AI社区

AI广告投放Agent：从Demo到实战的半年进化

腾讯广告团队开发广告投放Agent的经验教训：从Demo到生产环境的半年进化之路摘要：腾讯广告团队在开发广告投放Agent过程中发现，Demo与生产环境存在巨大差距。初期Demo虽能快速响应指令，但实际应用中暴露出三大问题：频繁确认导致效率低下（20分钟完成3分钟工作）、响应速度慢（26分钟vs人工3分钟）、关键错误（如单位混淆导致20元变2000元）。团队通过三个阶段实现进化：1）建立Ski