基于随机微分方程的生成建模：从SDE到DDPM的离散化框架

Score-Based Generative Modeling through Stochastic Differential Equations》提出了一种随机微分方程（SDE），它通过逐步注入噪声，将复杂的数据分布平滑地转化为一个已知的先验分布；同时，该工作还提出了一个对应的反向时间 SDE，通过逐步去除噪声，将先验分布转化回数据分布。关键在于，反向时间 SDE 仅依赖于扰动数据分布的时间依赖

yu_anan111

879人浏览 · 2025-03-08 10:44:00

yu_anan111 · 2025-03-08 10:44:00 发布

1. 引言

《Score-Based Generative Modeling through Stochastic Differential Equations》提出了一种随机微分方程（SDE），它通过逐步注入噪声，将复杂的数据分布平滑地转化为一个已知的先验分布；同时，该工作还提出了一个对应的反向时间 SDE，通过逐步去除噪声，将先验分布转化回数据分布。关键在于，反向时间 SDE 仅依赖于扰动数据分布的时间依赖梯度场（即分数，score）。利用神经网络可以准确估计这些分数，并使用数值 SDE 求解器生成样本。而DDPM（Denoising Diffusion Probabilistic Models）可以被视为该SDE框架的离散化版本。

2. 基于随机微分方程（SDE）的分数生成建模

在这里插入图片描述

2.1 随机微分方程（SDE）与数据扰动

$\mathrm{d} x = f ( x , t ) \mathrm{d} t + g ( t ) \mathrm{d} w$

其中， $f (x, t)$ 是漂移项， $g (t)$ 是扩散项， $dw\mathrm{d} w$ 是标准布朗运动。通过这个SDE，可以逐步将数据分布转化为一个简单的先验分布（如高斯分布）。

2.2 去噪分数匹配

为了估计分数（即梯度场），使用去噪分数匹配（Denoising Score Matching）方法：

$\theta^* = \arg \min_{\theta} \mathbb{E}_t \left\{ \lambda(t) \mathbb{E}_{\mathbf{x}(0)} \mathbb{E}_{\mathbf{x}(t) | \mathbf{x}(0)} \left[ ||\mathbf{s}_\theta(\mathbf{x}(t), t) - \nabla_{\mathbf{x}(t)} \log p_{0t}(\mathbf{x}(t) | \mathbf{x}(0))||_2^2 \right] \right\}$

在足够的数据和模型容量条件下，对于几乎所有的 $x$ 和 $t$ ，分数匹配的最优解为 $sθ(x,t)=∇xlog⁡pt(x)s_\theta(x, t) = \nabla_x \log p_t(x)$ 。

2.3 逆向SDE

$d\mathbf{x} = [\mathbf{f}(\mathbf{x}, t) - g(t)^2 \nabla_{\mathbf{x}} \log p_t(\mathbf{x})] dt + g(t) d\overline{\mathbf{w}}$

其中， $w‾\overline{\mathbf{w}}$ 是逆向时间的布朗运动。将分数匹配得到的 $sθ(x,t)s_\theta(x, t)$ 带入逆向SDE，利用数值求解器即可生成数据样本。

3. DDPM

3.1 前向过程

DDPM（Denoising Diffusion Probabilistic Models）可以被视为上述SDE框架的离散化版本。DDPM的前向过程可以表示为：

$\mathbf{x}_i = \sqrt{1 - \beta_i} \mathbf{x}_{i-1} + \sqrt{\beta_i} \mathbf{z}_{i-1}, \quad i = 1, \cdots, N$

定义 $βiˉ=Nβi\bar{\beta_i} = N\beta_i$ ，代入上式：

$\mathbf{x}_i = \sqrt{1 - \frac{\bar{\beta}_i}{N}} \mathbf{x}_{i-1} + \sqrt{\frac{\bar{\beta}_i}{N}} \mathbf{z}_{i-1}, \quad i = 1, \cdots, N$

当 $\to \infty$ 时， ${βˉi}i=1N\{\bar{\beta}_i\}_{i=1}^N$ 趋于一个定义域在 $[0, 1]$ 的函数 $β(t)\beta(t)$ 。令 $β(iN)=βiˉ\beta(\frac{i}{N}) = \bar{\beta_i}$ ， $x(iN)=xi\mathbf{x}(\frac{i}{N}) = \mathbf{x}_i$ ， $z(iN)=zi\mathbf{z}(\frac{i}{N}) = \mathbf{z}_i$ ，并令 $Δt=1N\Delta t = \frac{1}{N}$ ，将 $t$ 限制在 $[0, 1]$ ，重写上式：

$\begin{align*} \mathbf{x}(t+\Delta t) &= \sqrt{1-\beta(t+\Delta t)\Delta t}\,\mathbf{x}(t) + \sqrt{\beta(t+\Delta t)\Delta t}\,\mathbf{z}(t) \\ &\approx \mathbf{x}(t) - \frac{1}{2}\beta(t+\Delta t)\Delta t\,\mathbf{x}(t) + \sqrt{\beta(t+\Delta t)\Delta t}\,\mathbf{z}(t) \\ &\approx \mathbf{x}(t) - \frac{1}{2}\beta(t)\Delta t\,\mathbf{x}(t) + \sqrt{\beta(t)\Delta t}\,\mathbf{z}(t), \end{align*}$

第二行利用了泰勒展开，当 $Δt→0\Delta t \to 0$ 时，得到对应的前向SDE：

$\mathrm{d} \mathbf{x} = - \frac{1}{2} \beta(t) \mathbf{x} \, \mathrm{d}t + \sqrt{\beta(t)} \, \mathrm{d} \mathbf{w}$

3.2 去噪分数匹配

$\theta^* = \arg \min_{\theta} \mathbb{E}_t \left\{ \lambda(t) \mathbb{E}_{\mathbf{x}(0)} \mathbb{E}_{\mathbf{x}(t) | \mathbf{x}(0)} \left[ || \frac{1}{\sqrt{1 - \bar{\alpha}(t)}}\mathbf{s}_\theta(\mathbf{x}(t), t) + \nabla_{\mathbf{x}(t)} \log p_{0t}(\mathbf{x}(t) | \mathbf{x}(0))||_2^2 \right] \right\}$
得到近似于 $∇xlog⁡pt(x)\nabla_{\mathbf{x}} \log p_t(\mathbf{x})$ 的 $sθ(x,t)s_\theta(\mathbf{x},t)$ 。由于漂移系数 $(\mathbf{x} , t )=- \frac{1}{2} \beta(t) \mathbf{x}$ 关于 $x\mathbf{x}$ 是仿射的，所以 $p0t(x(t)∣x(0))p_{0t}(\mathbf{x}(t) | \mathbf{x}(0))$ 是高斯分布，且均值和方差均有解析形式：
$p_{0t}(\mathbf{x}(t) | \mathbf{x}(0))=N(x(t);x(0)e^{-\frac{1}{2}\int_{0}^{t}\beta(s)ds},I-Ie^{-\int_{0}^{t}\beta(s)ds})$

3.3 离散化逆向SDE

$d\mathbf{x} = [- \frac{1}{2} \beta(t) \mathbf{x} - \beta(t) \nabla_{\mathbf{x}} \log p_t(\mathbf{x})] dt + \sqrt{\beta(t)} d\overline{\mathbf{w}}$

离散化时将时间区间 $N$ 等分， $β(iN)=βiˉ=Nβi=βiΔt\beta(\frac{i}{N}) = \bar{\beta_i} = N\beta_i = \frac{\beta_i}{\Delta t}$ ， $d t$ 是无穷小的负时间步长。以下离散化时使用正步长 $Δt=1N\Delta t = \frac{1}{N}$ ：

$\begin{align*} x_{i-1} &= x_i + \left(-\frac{1}{2}\frac{\beta_i}{\Delta t} x_i - \frac{\beta_i}{\Delta t}s_{\theta}(x_i,\frac{i}{N})\right) (-\Delta t) + \sqrt{\frac{\beta_i}{\Delta t}} \, \sqrt{\Delta t} z \\ x_{i-1} &= x_i + \frac{1}{2}\beta_i x_i + \beta_i s_\theta(x_i, \frac{i}{N}) + \sqrt{\beta_i} \, z \\ &= \left(1+ \frac{1}{2} \beta_{i}\right) x_{i} + \beta_i s_{\theta}(x_{i}, \frac{i}{N}) + \sqrt{\beta_i} \, z \end{align*}$