厦门大学曹刘娟团队FastVGGT：四倍速度提升，打破VGGT推理瓶颈并降低累积误差！

文章标题：FastVGGT: Training-Free Acceleration of Visual Geometry Transformer项目链接：https://mystorm16.github.io/fastvggt/文章链接：https://arxiv.org/abs/2509.02560代码链接：https://github.com/mystorm16/FastVGGT。

Tom Hardy

627人浏览 · 2026-01-17 10:53:20

Tom Hardy · 2026-01-17 10:53:20 发布

文章标题：FastVGGT: Training-Free Acceleration of Visual Geometry Transformer
项目链接：https://mystorm16.github.io/fastvggt/
文章链接：https://arxiv.org/abs/2509.02560
代码链接：https://github.com/mystorm16/FastVGGT

原文链接：厦门大学曹刘娟团队FastVGGT：四倍速度提升，打破VGGT推理瓶颈并降低累积误差！

一、主要贡献

系统分析了 VGGT 推理速度的瓶颈。
观察到 VGGT 全局注意力机制的冗余特性，首次将 token merging 引入前向3D模型。
基于VGGT的工程优化，使得VGGT可以在单GPU（80G VRAM）一次前向处理1000张输入图像（优化前为300张输入）。
提出FastVGGT，在 1000 张图像推理任务中实现 4× 加速，并有效降低了 VGGT 的累积误差。

二、瓶颈分析

2.1 推理效率问题：

Frame Attention（帧内交互）与 Global Attention（跨帧交互）在短序列时，两者开销相当；但随着帧数增加，Global Attention 的计算量占据主要时间消耗。
时间复杂度：即便VGGT使用 Flash-Attention 将内存复杂度降到 O(nd)，时间复杂度仍然是O(n²d)。

2.2 累积误差问题：

VGGT 的全局注意力机制会在跨帧关联时逐渐放大细微错误。
随着序列延长，token 空间不断扩展，误差被累积和放大，导致预测结果漂移，影响重建稳定性。

三、观察：全局注意力存在大量冗余

在 VGGT 的 Global Attention 中，同一 Block 下不同 token 的注意力图几乎重合，说明大量 token 之间的信息存在冗余，许多计算并未引入新的信息。
这种全局层面的差异性丧失（token collapse）现象在 DINO 系列中也曾出现。不同的是，在 DINO 中，这种退化会削弱密集预测任务的效果；而在 VGGT 中，由于采用了 Global + Frame Attention 的混合模式，全局退化反而在一定程度上反映了场景一致性。然而，这种相似性也带来了计算冗余，为后续优化提供了空间。

四、方法

4.1 Token划分：

我们探索了 training-free 的 token merging 方法来优化 VGGT 中的冗余注意力。Token merging 在 2D 视觉任务中已有较为成熟的应用，但在 3D 架构中的探索仍然十分有限。针对 visual geometry 模型的特点，我们提出了三种简洁而高效的 token merging 策略：

参考系约束：第一帧作为全局的参考系，别的token都对第一帧的token有非常强的注意力，因此全部作为destination token，
关键token保留：为保持全局连续性并避免破坏匹配所需的重要信息，我们在场景中保留特异性最高的 token 作为 salient token。这些 token 不作为 merging 的目标，也不被合并，而是仅参与注意力计算。
基于区域的采样：受 ToMeSD 启发，我们在帧内对 token 进行 region-based sampling，分别采样 destination token 与 source token，以确保采样均匀性，避免过度丢失局部信息。

4.2 Token Merging：

我们计算每个 source token (src) 与所有 destination token (dst)的余弦相似度

将每个src token 合并到最相似的 dst token 中

合并完成后，source token 将被丢弃，从而显著减少参与注意力计算的 token 数量。

4.3 Token Unmerging：

在 3D 重建任务中，模型需要逐 token 地生成密集输出（例如深度图或点云）。这意味着每个输入 patch/token 在解码器阶段都必须对应一个输出。为此，我们引入 Token Unmerging 机制：将合并后的 token 复制回其原始位置，从而恢复输入 token 的数量。这一过程既保证了密集 3D 重建输出的完整性，又保持了与 VGGT 的完全兼容性。

五、实验

5.1 数据集

ScanNet-50：从 1500 个场景中均匀均匀抽样 50 个，作为主要测试集。
7Scenes、NRGBD：用于进一步验证模型的泛化能力。

5.2 任务

点云重建（Point Map Reconstruction）
相机位姿估计（Camera Pose Estimation）

5.3 模型配置

VGGT* 作为 baseline（显存优化版本的VGGT，在前向过程中手动清理VGGT encoder产生的中间变量，使得A800可以塞入1000张image）
GPU：NVIDIA A800 GPU (80GB VRAM)。
所有实验均采用FlashAttention-V2，未采用xFormers。

5.4 点云重建实验

(a) ScanNet-50

输入帧数：100、300、500、1000。
评价指标：Chamfer Distance (CD)、推理时间。
结果：FastVGGT 相比 VGGT*，在 1000 帧输入下加速 4倍（724.6s → 180.7s），并具有更好的重建质量（0.471 → 0.425）。

(b) 7 Scenes & NRGBD

输入设置：每隔 3 帧或 10 帧采样 keyframe 作为输入。
评价指标：Accuracy (Acc)、Completeness (Comp)、Normal Consistency (NC)、推理时间。
结果：FastVGGT 在 7Scenes 与 NRGBD 上延续了 ScanNet 实验的结论：在显著缩短推理时间的同时，仍保持了 VGGT 的强大重建性能。

5.5 点云重建实验

输入帧数：100、300、500、1000。
评价指标：
- ATE (Absolute Trajectory Error)
- ARE (Absolute Rotation Error)
- RPE-rot (Relative Pose Error, 旋转)
- RPE-trans (Relative Pose Error, 平移)
结果：在1000 帧输入的情况下，FastVGGT 将 ATE 从 0.196 (VGGT*) 降低至 0.164。同时，旋转与平移的相对误差也均显著降低。FastVGGT 不仅实现了更快的推理速度，还有效缓解了长序列推理过程中的误差累积问题。

六、结论

本文提出 FastVGGT，一种 training-free 的加速方法。基于对 VGGT 全局注意力冗余性的观察，FastVGGT 引入 token merging，在有效减少冗余计算的同时保持重建精度。在 ScanNet-50、7Scenes、NRGBD 等数据集上，FastVGGT 实现了最高 4 倍的推理加速，并在 3D 重建与相机位姿估计任务中保持了VGGT的精确度，同时有效缓解了 VGGT 的误差累积问题，证明了FastVGGT 在大规模 3D 视觉系统中的实用性。

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Harness Engineering：面向Agent-First世界的软件工程范式重构

2048 AI社区

被战争部点名的Anthropic，如何成长为硅谷大模型第三极？

Amodei明确拒绝，称即使在美国国防部施压的情况下，也不会移除其前沿 AI模型Claude的安全措施。今年2月Amodei还在接受播客采访时说，它们早在2022 年就有一个早期版本的 Claude 1，早于 ChatGPT的发布，但他们选择当时不公开发布，因为担心会"引发军备竞赛，没有足够时间安全地构建这些系统"。去年DeepSeek狂潮席卷全球，面对开源冲击，Dario Amodei在个人博客