【CVPR2023】Temporal Attention Unit: Towards Efficient Spatiotemporal Predictive Learning
在这个论文中,作者提出了一个通用的时空预测学习框架,其中空间编码器和解码器捕获帧内特征,中间的时域模块捕获帧间相关性。为了并行化时域模块,作者提出了时间注意力单元(Temporal Attention Unit, TAU),它将时间注意力分解为帧内静态注意力和帧间动态注意力。TAU 使用注意力机制来并行化的处理时间演变,该模块将时空注意力分解为:帧内静态注意力和帧间动态注意力。帧间动态注意力本质是

这个论文研究时空预测学习(spatiotemporal predictive learning),这是一种通过学习历史视频帧来生成未来视频帧的方法。 作者认为,当前方法基本上都使用相似的框架,即编码器、解码器,然后中间使用时域模块(temproal module)进行学习。而且,作者认为时域模块发挥了特别重要的作用。
在这个论文中,作者提出了一个通用的时空预测学习框架,其中空间编码器和解码器捕获帧内特征,中间的时域模块捕获帧间相关性。主流方法使用循环单元来捕获长期时间依赖性,但由于其无法并行化的架构,计算效率较低。为了并行化时域模块,作者提出了时间注意力单元(Temporal Attention Unit, TAU),它将时间注意力分解为帧内静态注意力和帧间动态注意力。该方法的框架如下图所示,包括编码器,TAU,解码器三部分。

TAU 使用注意力机制来并行化的处理时间演变,该模块将时空注意力分解为:帧内静态注意力和帧间动态注意力。帧内静态注意力本质上是大核卷积,捕获空间上的长距离依赖关系。帧间动态注意力本质是通道注意力,给各个通道动态分配权重,作者描述这样可以捕获帧间的变化趋势。

此外,作者引入了一种新颖的微分散度正则化,以考虑帧间变化,而不仅仅是关注帧内误差。具体可以参照作者论文,这里不过多介绍。
更多推荐


所有评论(0)