【论文分享-扩散模型】MICCAI 2025 基于扩散引导扩散模型的成对图像生成

文章提出了一种无需外部条件、可同时生成图像及其标注的成对生成方法，从而提升DBT病灶生成质量并缓解标注数据不足，进而提高后续分割性能。

风吹我亦散

724人浏览 · 2026-01-05 16:08:38

风吹我亦散 · 2026-01-05 16:08:38 发布

这里写自定义目录标题

Abstract
一、方法
二、实验
三、总结

论文标题：Paired Image Generation with Diffusion-Guided Diffusion Models
发表期刊：The Medical Image Computing and Computer Assisted Intervention
论文链接：https://papers.miccai.org/miccai-2025/paper/4386_paper.pdf

关键词：配对图像生成、扩散引导型扩散模型、数字乳腺断层合成（DBT）肿块分割

Abstract

Background
乳腺断层合成摄影（DBT）图像中肿块病灶的分割对于乳腺癌的早期筛查具有重要意义。
然而，乳腺组织的高密度往往导致肿块病灶的高隐蔽性，这使得人工标注困难且耗时。因此，缺乏用于模型训练的标注数据。
扩散模型通常用于数据增强。但现有方法面临两个挑战：
一是由于病变的高度隐蔽性，模型难以学习病变区域的特征，导致病变区域的生成质量较低，从而限制了生成图像的质量;
二是现有方法只能生成图像，不能生成相应的标注，这限制了生成图像在监督训练中的可用性。

在这项工作中，我们提出了一种成对图像生成方法。该方法不需要外部条件，并且可以通过为条件扩散模型训练额外的扩散引导器来实现成对图像的生成。
在实验阶段，实验结果表明，该方法能够在不依赖外部条件的情况下提高生成质量，并有助于缓解标注数据不足的问题，从而提高后续任务的性能.

一、方法

理论基础

扩散模型基础：前向加噪（Forward）
对干净样本 $x_0$ ，定义逐步加噪的马尔可夫过程：
$q(x_{1:T}\mid x_0)=\prod_{t=1}^T q(x_t\mid x_{t-1}), \quad q(x_t\mid x_{t-1})=\mathcal N\!\left(x_t;\sqrt{1-\beta_t}\,x_{t-1},\beta_t I\right)$

并有闭式形式（可直接从 $x_0$ 得到任意步的 $x_t$ ）：
$x_t=\sqrt{\bar\alpha_t}\,x_0+\sqrt{1-\bar\alpha_t}\,\epsilon, \quad \epsilon\sim\mathcal N(0,I), \quad \bar\alpha_t=\prod_{i=1}^t(1-\beta_i)$

成对数据：双扩散前向过程（Paired Forward）
PIG 把训练样本看作一对 $x_0,y_0)$ （例如 mask 与 DBT slice），分别加噪：
$q(x_{1:T},y_{1:T}\mid x_0,y_0)=\prod_{t=1}^T q_x(x_t\mid x_{t-1})\,q_y(y_t\mid y_{t-1})$
$x_t=\sqrt{\bar\alpha_t}x_0+\sqrt{1-\bar\alpha_t}\epsilon_1,\quad y_t=\sqrt{\bar\alpha_t}y_0+\sqrt{1-\bar\alpha_t}\epsilon_2, \quad \epsilon_1,\epsilon_2\sim\mathcal N(0,I)$
联合反向去噪（Joint Reverse）
生成时从高斯噪声开始：
$P(x_T)=\mathcal N(0,I),\quad P(y_T)=\mathcal N(0,I)$
并学习联合一步去噪：
$p_\theta(x_{0:T},y_{0:T})=P(x_T)P(y_T)\prod_{t=1}^T p_\theta(x_{t-1},y_{t-1}\mid x_t,y_t)$
关键理论点：联合去噪可分解（Proposition 1）
论文证明联合一步转移可以用两个条件去噪串行实现：
$p_\theta(x_{t-1},y_{t-1}\mid x_t,y_t) = p_x(x_{t-1}\mid x_t,y_t)\cdot p_y(y_{t-1}\mid x_{t-1},y_t)$

直观流程：先用 $x_t,y_t)$ 更新 $x_{t-1}$ ，再用 $x_{t-1},y_t)$ 更新 $y_{t-1}$ 。

实现要点：噪声预测 + 互引导
训练时让网络预测噪声（MSE）：
$\epsilon_x=model_x(x_t,y_t,t),\quad \mathcal L_x=\|\epsilon_1-\epsilon_x\|_2^2$
采样时每步先得到更干净的 (\hat x_0)，再用它作为条件引导生成 (y)（论文强调用 (\hat x_0) 比用带噪 (x_t) 更“干净”）。

网络架构

在这里插入图片描述

1) 两条并行状态： $x_t$ 与 $y_t$

PIG 同时维护两条扩散链的“当前状态”：

$x_t$ ：第 $t$ 步的 $x$ （例如 lesion mask）的加噪版本
$y_t$ ：第 $t$ 步的 $y$ （例如 DBT slice）的加噪版本

初始化（采样开始）：
$x_T \sim \mathcal N(0,I),\qquad y_T \sim \mathcal N(0,I)$

每一步的目标是把 $x_t,y_t)$ 更新到更干净的 $x_{t-1},y_{t-1})$ 。

2) 一步反向更新的“串行数据流”

核心思想：先更新 $x$ ，再用更新后的 $x$ 去引导更新 $y$ 。

论文的联合转移核可以写成（联合去噪）：
$p_\theta(x_{t-1},y_{t-1}\mid x_t,y_t)$

并分解为两个串行的条件去噪过程：
$p_\theta(x_{t-1},y_{t-1}\mid x_t,y_t)= p_x(x_{t-1}\mid x_t,y_t)\cdot p_y(y_{t-1}\mid x_{t-1},y_t)$

这对应到数据流就是：
$(x_t,y_t)\ \rightarrow\ x_{t-1}\ \rightarrow\ y_{t-1}$ 。

3) 模块 A： $y_t$ 引导 $x_t$ 去噪（`model_x`）

输入流： $x_t,\ y_t,\ t)$
输出流：预测噪声 $\epsilon_x$ ，进而得到 $\hat x_0$ 、 $x_{t-1}$

3.1 噪声预测
$\epsilon_x = \text{model}_x(x_t,y_t,t)$

3.2 由噪声预测恢复“干净估计” $\hat x_0$
$\hat x_0=\frac{x_t-\sqrt{1-\bar\alpha_t}\,\epsilon_x}{\sqrt{\bar\alpha_t}}$

3.3 更新到下一步 $x_{t-1}$
（论文采样设置 $\sigma_t=0$ ，可写为）
$x_{t-1}=\sqrt{\bar\alpha_{t-1}}\hat x_0+\sqrt{1-\bar\alpha_{t-1}}\,\epsilon_x$

数据流总结（模块 A）：
$x_t,y_t,t \rightarrow \epsilon_x \rightarrow \hat x_0 \rightarrow x_{t-1}$

4) 模块 B：用更干净的 $\hat x_0$ 引导 $y_t$ 去噪（`model_y`）

关键点：条件不直接用带噪的 $x_t$ ，而用更“干净”的 $\hat x_0$ 。

输入流： $(\hat x_0,\ y_t,\ t)$
输出流：预测噪声 $\epsilon_y$ ，进而得到 $\hat y_0$ 、 $y_{t-1}$

4.1 噪声预测
$\epsilon_y = \text{model}_y(\hat x_0,y_t,t)$

4.2 恢复“干净估计” $\hat y_0$
$\hat y_0=\frac{y_t-\sqrt{1-\bar\alpha_t}\,\epsilon_y}{\sqrt{\bar\alpha_t}}$

4.3 更新到下一步 $y_{t-1}$
$y_{t-1}=\sqrt{\bar\alpha_{t-1}}\hat y_0+\sqrt{1-\bar\alpha_{t-1}}\,\epsilon_y$

数据流总结（模块 B）：
$\hat x_0,y_t,t \rightarrow \epsilon_y \rightarrow \hat y_0 \rightarrow y_{t-1}$

5) 把一步合起来：完整的 per-step 数据流

在每个时间步 $t$ ，网络按如下顺序执行：

先更新 $x$ （得到更干净的结构/标注）
$(x_t,y_t,t) \xrightarrow{\text{model}_x} \epsilon_x \rightarrow \hat x_0 \rightarrow x_{t-1}$
再更新 $y$ （用 $\hat x_0$ 作为条件引导细节生成）
$(\hat x_0,y_t,t) \xrightarrow{\text{model}_y} \epsilon_y \rightarrow \hat y_0 \rightarrow y_{t-1}$

循环 $t=T,T-1,\dots,1$ ，最终输出成对结果：
$(\hat x_0,\hat y_0)$

6) 符号说明（最小必要集）

$x_0,y_0$ ：干净的成对样本（如 mask 与 slice）
$x_t,y_t$ ：第 $t$ 步加噪状态
$T$ ：扩散总步数
$\beta_t$ ：噪声日程
$\bar\alpha_t=\prod_{i=1}^t(1-\beta_i)$ ：累计系数
$\epsilon_x,\epsilon_y$ ：网络预测的噪声
$\hat x_0,\hat y_0$ ：对干净样本的估计
$\text{model}_x,\text{model}_y$ ：两个去噪网络（ $y$ 引导 $x$ ； $\hat x_0$ 引导 $y$ ）

二、实验

1) 实验目标

进行成对生成实验：把肿块 mask 作为 $x_0$ 、DBT 切片作为 $y_0$ ，生成成对样本 $(\hat x_0,\hat y_0)$ 。:contentReference[oaicite:1]{index=1}
将生成的成对数据加入到下游 DBT 肿块分割监督训练中，验证其有效性。:contentReference[oaicite:2]{index=2}

2) 数据集与预处理

使用私有数据集 DBTMassSeg：367 名患者，包含 CC/MLO 视角及对应肿块 mask；共有 8,723 张含肿块切片；由两位有经验的放射科医生手工标注。
预处理：裁掉空白区域并 resize 到 $512\times512$ 。

3) 扩散模型实现设置（生成模型侧）

归一化：线性缩放到 $[- 1, 1]$ ；噪声日程 $\beta_t$ 线性从 $10^{-4}$ 增到 $0.02$ ；最大步数 $T = 1024$ 。
网络：两条扩散模型均用 U-Net；输入通道数为 2；“引导信号”通过 channel 维拼接引入。
采样：采用 DDIM 的 uniform-step 采样策略，采样步数设为 256。

4) 对比实验 A：与无条件扩散模型的生成质量对比（FID）

基线：DDPM、DDIM（无条件生成）。每种方法各生成 2048 张 DBT 切片；采样步数：DDPM=1024，DDIM=256；指标：FID。
结果（Table 1）：PIG 的 FID 明显更低（更好）：

5) 对比实验 B：与条件扩散方法对比（看“下游分割收益”）

思路：条件扩散可用“已有 mask 作为条件”生成图像，因此作者用“把生成数据加入分割训练后效果如何”来间接比较生成数据的价值。

6) 定性实验：逐步生成过程可视化

作者展示了 PIG 的逐步生成：早期先形成病灶形状（mask 更快“定形”），后期再细化切片整体纹理，用来说明“引导”让模型更关注病灶区域。

三、总结

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【必藏】谷歌云重磅发布：AI Agents技术全栈指南 - 从原型到生产的完整路线图

2048 AI社区

【源码】智慧工地：技术支撑与全维度管理体系解析

2048 AI社区

工业4.0下混合调度平台降本增效白皮书

制造业面临自动化孤岛、刚性系统与柔性需求矛盾等核心挑战。JC智能混合调度平台通过任务级异构协同理念，依托开放架构、软件定义和AI增强决策三大技术，实现四重成本重构：空间成本从静态规划到动态优化；人力成本从重复劳动转向高级运维；运营成本从经验驱动转为数据驱动；资本成本从刚性投资变为柔性资产。通过汽车零部件智能仓配中心和消费电子柔性组装岛两个成功案例，展示了显著效益：订单处理准确率达99.99%，设备