本人关于LSM-YOLO的一些理解
因为仅通过通道信息交换所得的语义信息是片面的,这些信息不仅在内容上有相关性,在空间上也是高度集中的,将通道信息交换和空间维度交互相融合,可以产生互补效应,利用来自更大感受野的全局信息帮助低层次特征图预测较小目标。举个例子,在医学影像中,如肿瘤检测,肿瘤的存在通常与侵犯现象关联,具有多次发生和高转移倾向,为了减轻采样过程中边缘信息的损失,在将特征图的高度和宽度信息保存到通道后,特征图的维度从四维(批
LSM-YOLO结构图如下

该网络主要在主干部分(Backbone)提取特征,在头部区域(Head)整合特征,并与四个输出头结合以输出。其中LSM-YOLO神经网络中涉及两个关键模块:LAE和MSFM。
LAE
用于提取多尺度特征图。在多尺度特征提取中,与传统的卷积方法相比,LAE显著减少了参数数量和计算成本,同时提取出具有更丰富的语义信息的功能。

在传统卷积过程中,边缘和角落的像素信息将被丢失,这些局部信息尤其对于医学影像来说非常重要,因为它代表了ROI目标与周围区域之间的隐性信息。考虑到卷积操作的局部性质,在涉及复杂计算的情况下很难捕捉全局信息。
为了解决这个问题,作者采用了以下几种方法构建网络:
1.使用聚焦技术而不是切片技术,可以更好的获取全局信息(边缘信息)。聚焦技术通过列和行的切片操作将采样过程中的数据分块,将特征图的高度和宽度信息集中在通道层面。举个例子,对于一个2*2的采样因子,n=4,这表示原本的特征通道被分割为 4 个子通道(每个子通道代表某一部分空间信息,如左上、右上、左下、右下像素)。因为聚焦技术是着眼于特征图的行列的,对于边缘的行列,无论如何计算,都是考虑的边缘的特征。但切片技术只是从几何上将特征图划分为了多个区域,每个区域卷积后还是考虑的每个区域的局部信息,且切片具有很高的计算成本,这与作者实现轻量级处理的目标相矛盾。
2. 聚焦过程中,作者设计了两路并行分支,采用共享参数和分组卷积的概念,高效地将输入映射到输出维度,同时降低参数数量。所谓分组卷积,就是将输入特征图按通道划分为 N*N 组,每组独立进行卷积运算,参数数量减少到1/N。这样每组卷积只处理一部分通道的数据,而不是整个输入特征图,也就是上面的例子中,将一个2*2的滤波器拆成了4个1*1的滤波器,减少了卷积核权重,也就是减少了参数数量。所谓共享参数,就是进行两路并行分支(按行列进行特征提取)时,对一行和一列的特征进行卷积时共享卷积核内的权重参数。
3. 每个 LAE 单元实现四倍下采样,即对高度和宽度同时乘以2。为了减轻采样过程中边缘信息的损失,在将特征图的高度和宽度信息保存到通道后,特征图的维度从四维(批处理大小、通道数量、高度、宽度)变为五维(批处理大小、通道数量、高度、宽度、n),其中'n'表示采样因子。这里之所以将高宽*2,是为了增强边缘信息,但高度和宽度扩展后,特征图的面积变为原来的四倍。如果直接保留这样的高分辨率特征图,会导致计算量激增,违背了轻量化的目的,所以通过2中的组卷积和共享参数正好可以减少计算量,尽管高度和宽度扩大,但通过特征聚焦和参数共享,实际计算量与传统的下采样方法相近。
MSFM
用于精炼和融合高级语义信息和低级空间特征,更好的提取数据特征,即进行多尺度特征融合,将语义信息(通道信息交换提取特征)和空间特征相融合。
在多尺度特征融合中,作者试图摆脱仅依赖于通道信息交换的传统方法,采用了通道信息交换和空间维度交互相融合的方法。为什么仅考虑通道信息交换还不够?因为仅通过通道信息交换所得的语义信息是片面的,这些信息不仅在内容上有相关性,在空间上也是高度集中的,将通道信息交换和空间维度交互相融合,可以产生互补效应,利用来自更大感受野的全局信息帮助低层次特征图预测较小目标。举个例子,在医学影像中,如肿瘤检测,肿瘤的存在通常与侵犯现象关联,具有多次发生和高转移倾向,肿瘤不仅具有其生物上的特征,还会在某些特定的位置出现。这种现象在特征图上表现为空间和通道维度的高度相关性。也就是肿瘤的特征不仅与通道通过信息交换得到的整合特征有关,还与其在空间中出现的位置有关。因此,作者提出的MSFM模块对低层次到高层次的特征从空间和通道进行全面分析。
补充说明几个名词:
多尺度特征融合是将不同分辨率和层次的特征信息结合,使模型同时关注以下两种信息:
高分辨率、低语义信息:适合捕捉小目标的细节。
低分辨率、高语义信息:适合捕捉大目标的全局特征
通道信息交换是一种在特征图的通道维度上进行信息交互的技术,不同通道关注的特征方向不一样【不同通道的ROI(感兴趣的方向)不同】,通道信息交换可以整合这些特征。
MSFM其结构图如下:

如图所示,其中橙色部分为特征提取,粉色部分为通道信息交换,黄色部分为空间维度交互。
首先是橙色部分。MSFM首先将数据的长宽通道维度进行平均池化Pavg的操作得到特征F,然后将这些空间信息Align对齐和res残差连接(防梯度消失)输出信息Fout。然后将该输出信息同时传到黄色和粉色区域。

对于黄色区域,用于空间维度交互。将空间信息进行简单的整合后存储,与原始源信息进行拼接并通过1x1卷积后,然后产生输出,输出信息进入粉色区域进行多尺度融合。

对于粉色区域,用于通道信息交换。除了进行数据本身特征的尺度融合,由于空间信息流被整合到通道中,所以空间信息也会作为辅助特征权重保存。也就是将空间信息经过split分割信息流,concat信息后处理,sigmoid逻辑回归归一化后,作为空间特征权重weighth和weightw存储起来了。

MSFM模块有两个版本:一个带有残差连接,一个不带。在主干中,我们使用带有残差连接的版本,因为在这个阶段的主要任务是提取对象的主要特征,为后续阶段提供有意义的特征表示。使用残差连接有助于缓解梯度消失的问题,从而加速模型的收敛。在头部,我们采用不带残差连接的版本。在这个阶段,模型已经提取了足够的特征信息,任务是分析这些特征以预测物体。因此,在这里残差连接变得多余。
LSM-YOLO的损失函数分为分类分支和回归分支。分类分支采用二元交叉熵损失(BCE分类损失,预测结果类别的是否正确产生的损失),而回归分支分为分布焦点损失(DFL目标定位损失,预测目标位置产生的位置偏差损失)和SCYLLA-IoU损失(SioU边框回归损失,预测框和真实框的重合度不同产生的损失)。本文中的总体损失是上述三个部分的加权组合,每个组成部分按比例加权。当γ=0.5,ζ=1.5,η=7.5时,其定义如下:

参考博客,如侵删
LSM-YOLO: A Compact and Effective ROI Detector for Medical Detection-CSDN博客
项目作者github
更多推荐


所有评论(0)