1. BaseInfo

Title Wavelet Convolutions for Large Receptive Fields
Adress https://arxiv.org/pdf/2407.05848
Journal/Time ECCV 2024
Author 以色列本古里安
Code https://github.com/BGU-CS-VIL/WTConv

2. Creative Q&A

  1. 卷积核 7x7 时性能饱和。 卷积层 CNN 响应高频较多,Attention head 响应低频较多。增加卷积的感受野,而不会受到过度参数化的影响 -> 利用小波变换(Wavelet Transform, WT)来放大卷积感受野,并通过级联引导CNN更好地响应低频。
    对于 k × k 感受野,我们的可训练参数数量仅随 k 呈对数增长。
    把 WTConv 替代 Depth-wise Conv

3. Concrete

3.1. Model

基于 MobileNetV2 的
小波变换和逆小波变换。

WTConv/wtconv/wtconv2d.py 定义了 WTConv2d

from wtconv import WTConv2d
conv_dw = WTConv(32, 32, kernel_size=5, wt_levels=3)

3.2. Training

在 分类、分割和检测三个下游任务上实验。

3.3. Eval

  1. ImageNet-1K Classification
    在这里插入图片描述
    在这里插入图片描述

  2. Semantic Segmentation (ADE20K)
    在这里插入图片描述

  3. Object Detection
    Cascade Mask R-CNN on the COCO dataset

3.4. Ablation

4. Reference

5. Additional

相关工作部分写的极其完善!
包括附录。
参数变多,运行时间长。可能因为是并行执行。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐