SE注意力机制

论文来源：https://arxiv.org/pdf/1709.01507计算流程：当数据传入后，兵分两路进行数据计算，最后对各通道中数据乘对应权重完成通道注意力。

DIEYoung000

1232人浏览 · 2024-12-12 20:15:25

DIEYoung000 · 2024-12-12 20:15:25 发布

一、注意力机制

论文来源：https://arxiv.org/pdf/1709.01507
计算流程：在这里插入图片描述
当数据传入后，兵分两路进行数据计算，最后对各通道中数据乘对应权重完成通道注意力。

注意事项：

注意力机制中采用AdaptiveAvgPool2d（1）进行通道中数据降维操作，同时采用Relu函数进行激活。当Relu函数通道维度较低时，容易造成不可逆数据丢失。
在这里插入图片描述
因此在采用通道注意力机制时，应该尽可能保持中间层通道数大于30，保证中间层采用Relu函数进行激活后，不会造成信息数据丢失。

class SENET(nn.Module):
    def __init__(self,inchannels,ratio = 16):    # 同时需要修改 ratio 缩放因子 ，保持 模型通道数最少为32通道
        super(SENET,self).__init__()
        # 定义初始变量
        self.inchannels = inchannels
        self.ratio = ratio   # 自定义缩放因子 == 减少参数量  == 同时防止过拟合 
        self.sq = nn.AdaptiveAvgPool2d(1)   # 自适应平均池化 1*1
        # TODO:注意事项
        # medio = max(inchannels//ratio,32)   # 缩放因子最小为32  # 可以采用 medio替代 inchannels//ratio 保证中间层数据维度满足relu激活函数要求
        self.ex = nn.Sequential(
            nn.Linear(self.inchannels,self.inchannels//self.ratio) ,  # 依据全连接层生成动态权重进行后续权重优化,
            nn.ReLU(inplace=True),
            nn.Linear(self.inchannels//self.ratio,self.inchannels) ,  # 保持输入 输出维度不变 == 中间层 为输入,
            nn.Softmax(),
        )

    def forward(self,x):
        identity = x
        x = self.sq(x)
        x = x.view(x.size(0),-1)
        x = self.ex(x)
        x = x.unsqueeze(2).unsqueeze(3)   # 对x进行升维操作，[1,512] ==> [1,512,1,1]
        return identity * x

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI赋能大学生全流程计划.skill

2048 AI社区

【智能体学习】MinerU 集成与应用指南：从 API 调用到 LangGraph 节点

MinerU 提供两种文档解析 API，满足不同场景需求。实践说明Token 管理通过环境变量管理，定期检查有效期超时设置轮询超时建议 300-600 秒，批量任务取 600 秒以上三级匹配优先<stem>.md→ 其次full.md→ 最后取第一个.md，适应不同文件命名错误分类仅对5xx和网络/超时异常实施指数退避重试，4xx直接报错批量上传先收集失败清单，最后统一报错，便于一次性修复资源清理