Edge Feature Enhancement for Fine-Grained Segmentation of Remote Sensing Images

现有的遥感分割数据集主要集中在土地利用、城市建筑等领域，专门针对矿区的细粒度标注数据集非常匮乏。：现有矿区数据集（如 RSMI）的边缘标注通常比较粗糙，无法满足细粒度（Fine-grained）像素级分类的任务需求。：矿区地形复杂且具有动态变化，准确标注需要大量的地质专业知识和实地考察验证。

善水丶吟风

473人浏览 · 2025-12-22 18:40:13

善水丶吟风 · 2025-12-22 18:40:13 发布

一、研究背景

1. 数据集层面的缺陷（Data Level）

高质数据稀缺与标注粗糙：现有的遥感分割数据集主要集中在土地利用、城市建筑等领域，专门针对矿区的细粒度标注数据集非常匮乏。
标注精度不足：现有矿区数据集（如 RSMI）的边缘标注通常比较粗糙，无法满足细粒度（Fine-grained）像素级分类的任务需求。
标注成本极高：矿区地形复杂且具有动态变化，准确标注需要大量的地质专业知识和实地考察验证。

2. 矿区图像本身的复杂特性（Object Level）

边缘特征模糊且不规则：矿区边界往往呈现“渐进式过渡”的状态，受到复杂自然环境的干扰（如噪声、动态变化等），导致目标边界线难以精确界定。
多尺度与几何复杂性：矿区在遥感图像中跨越的尺度范围极大（2% 到 100% 占比不等），且形状极其不规则，甚至存在内部空洞（Internal voids），这极大地增加了模型捕捉边界特征的难度。
背景干扰严重：露天矿区常位于山地或平原，极易与周围的植被、道路、建筑、废石堆等混淆

3. 分类任务的严峻挑战（Task Level）

“类间相似性”与“类内差异性”：
- 类内差异大：同一种矿石（如砂岩 Sandstone）受光照、颜色和形状影响，其子类表现迥异。
- 类间相似度高：不同类型的矿石在遥感光谱特征上可能非常接近。
边缘像素极易误判：由于上述的类间模糊性和类内不一致性，矿区边缘附近的像素非常容易发生错分类。

二、主要贡献

1. 构建了细粒度矿区遥感数据集 (Fine-RSMI)

填补领域空白：针对现有遥感数据集边缘标注粗糙、矿区专用数据稀缺的问题，建立了专门用于细粒度分割的 Fine-RSMI 基准数据集。
规模与质量：该数据集包含 10,225 张 精细标注的卫星图像。
挑战性特征：数据集涵盖了 3 大类、22 个子类 的矿物，具有显著的多尺度变化（目标占比从 2% 到 100%）、边缘极度不规则以及存在内部空洞等复杂特性。

2. 提出了边缘特征增强框架 (EDFEM & ESM)

为了解决不规则边缘的分割难题，论文提出了一个层次化融合的增强框架：

边缘细节特征增强模块 (EDFEM)：通过垂直级联多个特征融合单元，融合相邻层级的特征图，提取高阶互补信息，从而精准捕捉和细化边缘特征。
边缘监督模块 (ESM)：利用从 Ground Truth 生成的二值边缘图作为引导，通过强化学习的方式监督网络对边缘像素的学习，增强模型对边界的辨别能力。

3. 实现“即插即用”的高效集成 (Plug-and-Play)

灵活性：这两个模块均采用即插即用的设计模式，可以无缝集成到现有的各种语义分割框架中（无论是基于 CNN 还是 Transformer 的架构）。
低成本高性能：该方法在提升分割精度的同时，不增加推理阶段的计算成本（ESM 模块在推理阶段会被丢弃），且引入的额外参数量仅占原模型的约 3% 。

4. 取得 SOTA 性能表现

实验验证：在多个数据集上刷新了表现。在 Fine-RSMI 数据集上达到了 74.12% mIoU，在公共数据集 WHDLD 上达到了 78.64% mAcc 。
广泛适用性：实验证明，该方法在 ISPRS (Vaihingen 和 Potsdam) 等通用遥感数据集上同样能显著提升各基准模型的性能

三、方法模型

1. 模型的三大核心组成部分及作用

1. 主干网络：Twins-PCPVT 特征提取

在进入增强模块之前，模型首先需要生成基础的特征金字塔。

分级结构：模型采用 Twins-PCPVT 作为 Backbone 1。它包含四个下采样阶段，每个阶段输出不同分辨率的特征图（从 H/4 \times W/4 到 H/32 \times W/32），我们记为 X_1, X_2, X_3, X_4 。
位置编码生成器 (PEG)：在每一阶段的第一个 Transformer 块之后，PEG 会动态生成条件位置编码 3。它通过对重塑后的特征图进行 2D 深度卷积（带零填充）来实现，确保了模型能够处理变长的序列输入。
注意力机制：每个阶段由不同数量的 Transformer 块组成（配置为 3, 3, 6, 3）。它结合了局部组合自注意力 (LSA) 和全局下采样注意力 (GSA)，在提取全局语义的同时保留细粒度纹理

2. EDFEM：边缘细节特征增强模块

这是论文的核心创新点。它不是简单地叠加特征，而是通过垂直级联来逐层“提纯”边缘。

第一步：边缘信息提取

对于相邻的特征层 X_i 和 X_{i+1}，首先统一通道数为 C。通过对两层进行逐像素相加并经过卷积处理，提取出该层的边缘细节特征 Edge_i：

其中 f_1 代表 1 × 1 卷积、批归一化 (BN) 和 ReLU 激活的组合。

第二步：层次化级联增强

这是 EDFEM 最精妙的地方。它利用深层特征作为底座，让边缘特征像“放大器”一样作用于其上：

$\beta$ (特征权重)：调整补充的细节信息量。
$\alpha$ (边缘权重)：调整边缘特征图的强度。
物理意义：通过逐像素乘法，边缘特征图在目标边界区域具有更高的权重。这增加了矿区内部平滑区域与边缘区域的差异（对比度），从而使网络更关注不规则的边界。

3. ESM：边缘监督模块

如果说 EDFEM 是在提取特征，那么 ESM 就是在“校准”特征。

双路输入：
1. 预测路：取 EDFEM 生成的最底层边缘特征 Edge_1，经过平均池化处理。
2. 标签路 (GT)：利用真实标签 (Ground Truth)，通过 Laplacian 卷积（步长为 1 和 2）生成二值边缘图。
损失函数协同：针对边缘像素与非边缘像素的严重类别失衡，ESM 采用了联合损失函数：
- L_{bce} (二值交叉熵)：负责基础的像素分类。
- L_{dice}：由于其只计算重叠度，对前景像素数量不敏感，能有效缓解类别失衡问题

2. 整体运行流程与协同工作机制

该模型的整体运行逻辑遵循从“粗略语义”到“精细边缘”的加工过程：

特征提取阶段：原始图像输入 Backbone，经过四次下采样产生不同分辨率的特征图 X_1, X_2, X_3, X_4，其中浅层特征（如 X_1）包含丰富的纹理细节，深层特征（如 X_4）包含强语义信息。
特征增强阶段（协同核心）：
- 这些特征图被送入 EDFEM。在该模块内，深层语义信息被用作主要引导，而浅层细节信息被用作辅助。
- 通过垂直级联和逐像素加权计算，边缘信息被逐层加强。这些被增强后的特征（EF_i）就像被“放大”了边界对比度的信号，能更清晰地界定矿区与背景。
预测与监督阶段：
- Decoder/Seg Head：将增强后的各级特征进行融合，输出最终的像素级分割预测图。
- ESM 辅助（仅限训练）：同时，EDFEM 的输出会进入 ESM，利用二值交叉熵和 Dice 损失函数来优化边缘像素的学习。
推理阶段（效率优化）：在实际使用（测试/部署）时，ESM 模块会被丢弃 。这意味着模型能够在不增加任何推理计算负担的情况下，利用训练时学到的边缘辨别能力来提升精度

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

一份超全大模型学习清单已备好，速接！非常详细收藏我这一篇就够了

2048 AI社区

Airtest遇到模拟器无法输入中文的情况该如何处理？

最近有收到同学们的一些提问，使用Airtest的 text 接口，发现在部分模拟器上， text 无法输入中文，不知道该怎么处理。今天我们就输入这个小问题，来详细聊一下。对于Android设备来说，Airtest的输入功能，由 Yosemite.apk 提供。有了这个apk，就可以支持我们在Android设备上输入中文，而不是局限于只能输入英文字母的 adb input text。所以在调用Air