文章标题:FastVGGT: Training-Free Acceleration of Visual Geometry Transformer
项目链接:https://mystorm16.github.io/fastvggt/
文章链接:https://arxiv.org/abs/2509.02560
代码链接:https://github.com/mystorm16/FastVGGT

原文链接:厦门大学曹刘娟团队FastVGGT:四倍速度提升,打破VGGT推理瓶颈并降低累积误差!

一、主要贡献

  1. 系统分析了 VGGT 推理速度的瓶颈。
  2. 观察到 VGGT 全局注意力机制的冗余特性,首次将 token merging 引入前向3D模型。
  3. 基于VGGT的工程优化,使得VGGT可以在单GPU(80G VRAM)一次前向处理1000张输入图像(优化前为300张输入)。
  4. 提出FastVGGT,在 1000 张图像推理任务中实现 4× 加速,并有效降低了 VGGT 的累积误差。

二、瓶颈分析

2.1 推理效率问题:

  • Frame Attention(帧内交互) 与 Global Attention(跨帧交互)在短序列时,两者开销相当;但随着帧数增加,Global Attention 的计算量占据主要时间消耗。
  • 时间复杂度:即便VGGT使用 Flash-Attention 将内存复杂度降到 O(nd),时间复杂度仍然是O(n²d)。

2.2 累积误差问题:

  • VGGT 的 全局注意力机制会在跨帧关联时逐渐放大细微错误。
  • 随着序列延长,token 空间不断扩展,误差被累积和放大,导致预测结果漂移,影响重建稳定性。

三、观察:全局注意力存在大量冗余

  • 在 VGGT 的 Global Attention 中,同一 Block 下不同 token 的注意力图几乎重合,说明大量 token 之间的信息存在冗余,许多计算并未引入新的信息。
  • 这种全局层面的差异性丧失(token collapse)现象在 DINO 系列中也曾出现。不同的是,在 DINO 中,这种退化会削弱密集预测任务的效果;而在 VGGT 中,由于采用了 Global + Frame Attention 的混合模式,全局退化反而在一定程度上反映了场景一致性。然而,这种相似性也带来了计算冗余,为后续优化提供了空间。

四、方法

4.1 Token划分:

我们探索了 training-free 的 token merging 方法来优化 VGGT 中的冗余注意力。Token merging 在 2D 视觉任务中已有较为成熟的应用,但在 3D 架构中的探索仍然十分有限。针对 visual geometry 模型的特点,我们提出了三种简洁而高效的 token merging 策略:

  1. 参考系约束:第一帧作为全局的参考系,别的token都对第一帧的token有非常强的注意力,因此全部作为destination token,
  2. 关键token保留:为保持全局连续性并避免破坏匹配所需的重要信息,我们在场景中保留 特异性最高的 token 作为 salient token。这些 token 不作为 merging 的目标,也不被合并,而是仅参与注意力计算。
  3. 基于区域的采样:受 ToMeSD 启发,我们在帧内对 token 进行 region-based sampling,分别采样 destination token 与 source token,以确保采样均匀性,避免过度丢失局部信息。

4.2 Token Merging:

我们计算每个 source token (src) 与所有 destination token (dst)的余弦相似度

将每个src token 合并到最相似的 dst token 中

合并完成后,source token 将被丢弃,从而显著减少参与注意力计算的 token 数量。

4.3 Token Unmerging:

在 3D 重建任务中,模型需要逐 token 地生成密集输出(例如深度图或点云)。这意味着每个输入 patch/token 在解码器阶段都必须对应一个输出。为此,我们引入 Token Unmerging 机制:将合并后的 token 复制回其原始位置,从而恢复输入 token 的数量。这一过程既保证了密集 3D 重建输出的完整性,又保持了与 VGGT 的完全兼容性。

五、实验

5.1 数据集

  • ScanNet-50:从 1500 个场景中均匀均匀抽样 50 个,作为主要测试集。
  • 7Scenes、NRGBD:用于进一步验证模型的泛化能力。

5.2 任务

  • 点云重建(Point Map Reconstruction)
  • 相机位姿估计(Camera Pose Estimation)

5.3 模型配置

  • VGGT* 作为 baseline(显存优化版本的VGGT,在前向过程中手动清理VGGT encoder产生的中间变量,使得A800可以塞入1000张image)
  • GPU:NVIDIA A800 GPU (80GB VRAM)。
  • 所有实验均采用FlashAttention-V2,未采用xFormers。

5.4 点云重建实验

(a) ScanNet-50

  • 输入帧数:100、300、500、1000。
  • 评价指标:Chamfer Distance (CD)、推理时间。
  • 结果:FastVGGT 相比 VGGT*,在 1000 帧输入下加速 4倍(724.6s → 180.7s),并具有更好的重建质量(0.471 → 0.425)。

(b) 7 Scenes & NRGBD

  • 输入设置:每隔 3 帧或 10 帧采样 keyframe 作为输入。
  • 评价指标:Accuracy (Acc)、Completeness (Comp)、Normal Consistency (NC)、推理时间。
  • 结果:FastVGGT 在 7Scenes 与 NRGBD 上延续了 ScanNet 实验的结论:在显著缩短推理时间的同时,仍保持了 VGGT 的强大重建性能。

5.5 点云重建实验

  • 输入帧数:100、300、500、1000。
  • 评价指标:
    • ATE (Absolute Trajectory Error)
    • ARE (Absolute Rotation Error)
    • RPE-rot (Relative Pose Error, 旋转)
    • RPE-trans (Relative Pose Error, 平移)
  • 结果:在1000 帧输入的情况下,FastVGGT 将 ATE 从 0.196 (VGGT*) 降低至 0.164。同时,旋转与平移的相对误差也均显著降低。FastVGGT 不仅实现了更快的推理速度,还有效缓解了长序列推理过程中的误差累积问题。

六、结论

本文提出 FastVGGT,一种 training-free 的加速方法。基于对 VGGT 全局注意力冗余性的观察,FastVGGT 引入 token merging,在有效减少冗余计算的同时保持重建精度。在 ScanNet-50、7Scenes、NRGBD 等数据集上,FastVGGT 实现了 最高 4 倍的推理加速,并在 3D 重建与相机位姿估计任务中保持了VGGT的精确度,同时有效缓解了 VGGT 的误差累积问题,证明了FastVGGT 在大规模 3D 视觉系统中的实用性。

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐