MICCAI 2025 IUGC 图像超声关键点检测及超声参数测量挑战赛
摘要: IUGC 2025比赛聚焦产时超声图像中胎儿生物测量自动化,提出多种创新方案解决传统阴道检查的局限性。Top1方案采用MAE辅助知识蒸馏和TransUNet架构,结合跨设备适应和半监督学习;Top2方案提出两阶段半监督集成框架,通过粗定位和局部精修实现高精度AoP测量;Top3方案基于无噪声学生范式,利用MixUp增强和DenseUNet提升关键点检测性能。这些方法通过热图回归、设备域适应
IUGC 2025比赛

传统的产程监测方法主要采用数字阴道检查,世界卫生组织建议在第一产程期间每4小时进行一次。然而,大量证据表明,通过阴道检查评估胎头位置和胎位的准确性有限,且主观性较强,尤其是在头颅血肿妨碍触诊颅缝和囟门时。此外,反复检查可能促使微生物从阴道向上迁移至宫颈和子宫,从而带来潜在的新生儿感染风险。
产时超声检查已成为评估分娩进展的一种更优的方法学替代方案。多项研究已证实,与数字检查相比,超声测量具有更高的准确性、客观性和可重复性。此外,超声评估既不会引起患者不适,也不需要额外花费大量临床时间。在各种超声参数中,AoP已被确定为评估胎头下降最具有可重复性的参数。
AOP被定义为耻骨联合轮廓上两个最远点(PS1和PS2)与切线(FH1)所形成的夹角,其中切线是从最右点(PS1)引出的,与胎头相切。这一测量值提供了关于胎头相对于坐骨棘当前位置以及产程进展轨迹的关键信息。研究表明,AoP超过120度与自然阴道分娩的成功概率显著相关,使其成为预测分娩方式的一项重要指标。
baseline
本研究采用基于热图的回归方法来检测产时超声图像中的标志点,从而实现对AoP的精确测量。我们的方法通过热图预测和坐标提取,解决了直接识别计算AoP所需的三个关键标志点(PS1、PS2和FH1)这一难题。
网络架构
采用全卷积U-Net架构来预测热图。该架构专为生成高分辨率特征图而设计,同时保留对精确地标定位至关重要的空间信息。
标签预处理
该网络经过训练,可预测表示地标位置空间概率分布的热图。对于三个地标(PS1、PS2 和 FH1),使用以标注的地标坐标为中心的高斯核生成真实热图。
每个真实热图的生成方式如下:
其中 (x0, y0) 表示缩放到热图尺寸的真值地标坐标,而 σ 控制高斯峰值的扩散程度。我们通过实验将 σ 设置为 2.0,以在定位精度和网络可训练性之间取得平衡。
生成真实热图的过程包括:
- 将输入图像归一化为 512×512 像素的尺寸
- 将标注的关键点坐标(PS1、PS2、FH1)缩放到与热图尺寸(64×64)相匹配
- 使用方程1为每个地标生成单独的高斯热图
- 确保热图值介于 0 和 1 之间,峰值为 1,位于地标位置
这种表示方法将离散的标志点检测问题转化为连续的热图回归任务,这在处理超声图像中固有的噪声和模糊性方面具有优势。高斯分布能够适应细微的标注差异,并在训练过程中提供更平滑的优化景观。
- 直接回归坐标(x, y)对噪声敏感,且不利于模型学习空间分布。
- 热图是一种概率分布图,每个像素的值表示该位置是地标的可能性(0~1)。
- 好处:
- 能处理图像噪声和模糊性
- 提供更平滑的优化过程(梯度更稳定)
- 允许网络输出多个可能位置(概率分布)
top1方案
我们在产时超声图像中进行胎儿生物测量自动化的方案包括三个主要组成部分:
- 利用 MAE 辅助的知识蒸馏进行预训练阶段,以从产时超声数据中学习特定领域的特征;
- 一种用于关键点检测的改进型 TransUNet 架构;
- 结合跨设备适应和半监督学习的训练策略。

这一方法旨在解决标注数据有限、跨设备泛化以及对准确解剖标志点检测至关重要的空间关系建模等核心挑战。
为满足产时超声中关键点精准实时检测的需求,我们采用了一种紧凑型的TinyViT骨干网络,并通过MAE辅助的知识蒸馏对其进行增强,如图1上半部分所示。具体而言,超声基础模型(USFM)作为教师网络,将特定领域的解剖学表征迁移至轻量级学生模型。
MAE预训练方法通过重建被掩码的图像块,特别适用于基于热图的关键点检测,因为它能够捕捉图像区域间的空间依赖关系,并有助于实现精确的地标定位。这种形式还能够有效利用未标注的产时超声图像,以丰富所学的表征。
我们的关键点检测模型基于一种经过修改的TransUNet架构,该架构集成了ResNet-50主干编码器、采用蒸馏TinyViT的ViT风格变压器瓶颈层,以及带有跳跃连接的类似UNet的解码器,旨在为产时超声图像中的解剖标志定位预测热图。如图1下半部分所示,该模型结构主要分为以下几个部分。
编码器
编码器采用预训练的ResNet-50主干网络,以提取多尺度的层次化特征图。这种多尺度表示从浅层获取丰富的局部细节,从深层获取抽象的语义信息,从而有助于实现精确的解剖定位。
设备域适应
该数据集存在显著的域偏移,因为训练图像来自两台超声设备,而测试集则由来自另外两台不同设备的图像组成。为了提高模型在不同域之间的鲁棒性,我们在训练过程中通过向真实地标坐标中注入高斯噪声来进行标签扰动:
伪标签
鉴于标注图像与未标注图像之间存在显著不平衡,我们采用迭代伪标签方法,以充分利用丰富的未标注数据。我们利用针对设备域适配的模型生成伪标签,并根据多项标准筛选高质量样本:
- 通过热图峰值锐度衡量的预测置信度;
- 强制地标之间解剖学约束的几何合理性。
top2方案
为实现对进展角度(AoP)的精确且完全自动化的测量,我们提出了一种新颖的两阶段半监督集成框架,如图1所示。我们的流程分为两个主要阶段:半监督集成粗定位和局部偏移精修。在第一阶段,一组模型处理完整的超声图像,生成融合热图,并从中提取初始粗略坐标(P)。随后,在第二阶段,专门的精修网络分析以这些粗略预测为中心的局部图像块(C),以回归出精确的坐标偏移量(δ)。然后,将这些偏移量加到粗略坐标上,得到最终精修后的坐标(R)。以下小节将详细介绍该流程的每个组成部分。
推理的集成策略
在推理过程中,我们利用两个已训练模型的多样性,生成一个高度稳健的单一预测。对于给定的输入图像 I,我们从EfficientNet-B4模型中获得预测热图 HB4,从EfficientNet-B7模型中获得 HB7。最终融合热图 Hfused 是通过对这两个热图进行每个关键点加权平均得到的。
虽然第一阶段提供了稳健的全局定位,但其输出分辨率可能不足以实现最高的精度,而高精度对于准确计算AoP至关重要。为此,我们引入了第二个精化阶段,该阶段在高分辨率局部块上运行,这一策略已在高精度定位任务中被证明是有效的。这种由粗到细的方法使专用模型能够专注于精细的局部细节,而不会被整个图像的复杂性所分散注意力。
Patch Extraction
对于三个地标点(PS1、PS2 和 FH1),我们以 Stage1 集成模型预测的粗略坐标 (xc, yc) 作为中心点。然后,从原始全分辨率超声图像中裁剪出一个高分辨率图像块,以 (xc, yc) 为中心。为处理粗略预测接近图像边界的特殊情况,我们采用零填充,以确保所有提取的图像块都具有固定且预定义的尺寸。根据我们的实验,128×128 像素的图像块尺寸在局部细节与足够上下文之间实现了稳健的平衡,适用于这三个地标点。
Refinement Network Architecture
我们的精炼网络设计得轻量级,但又足够强大,能够胜任局部回归任务。我们采用在ImageNet上预训练的ResNet-18架构作为特征提取器。我们去掉了标准ResNet-18中的最后一个平均池化层和全连接分类层。取而代之,我们添加了一个自定义的多层感知机(MLP)回归头。该回归头由一个全局平均池化层、一个带有256个神经元并使用ReLU激活函数的全连接层、一个丢弃率为0.5的Dropout层用于正则化,以及一个输出二维向量的最终全连接层组成,该二维向量表示预测的偏移量。
top3方案
半监督方法
图1展示了所提出方法的整体框架,该方法遵循无噪声学生范式,用于产时超声图像中的半监督关键点检测。该过程涉及教师模型和学生模型的迭代训练。
首先,对教师模型进行初始化,并在带标签的数据集上进行训练 Dl。采用DenseUNet架构,并通过最小化预测热图 Hpred 与真实热图 Hgt 之间的均方误差(MSE)损失来优化模型:
其次,在教师模型完全训练完成后,其权重被冻结,并用于为未标记数据集 Du 生成伪标签。对于每个未标记图像 xu ∈ Du,通过教师模型的前向传播获得相应的伪标签:
2.2 用于热图回归的线性衰减MixUp增强方法
MixUp的核心思想是通过在两个随机选择的样本(图像及其标签)之间进行线性插值,生成新的训练样本和相应的软标签。在关键点检测的背景下,这一过程具体实现如下:设两个随机选择的超声帧分别为 IA, IB ∈ RH×W×C,它们对应的关键点标注为 KA = {(xAi , yAi )}Ni=1, KB = {(xBi , yBi )}Ni=1,其中 N 表示解剖标志点的数量。混合系数从Beta分布中采样得到 λ ∼ Beta(α,α),其中超参数 α > 0 控制着插值的强度。随后,混合后的图像和关键点坐标可按以下方式计算:

因此,合成样本(Imix,Kmix)在外观和几何形状上都表现出平滑的过渡,有效地扩展了数据分布的局部邻域。
2.3 骨干网络
在初始阶段,我们首先采用了一个基线UNet模型来进行模块调整和超参数优化。在确定最佳超参数配置后,我们根据该配置选择了性能最优的主干网络。
更多推荐


所有评论(0)