扩散模型Diffusion model | DDIM

扩散模型Diffusion model | DDIM论文原文：Denoising Diffusion Implicit Models有关DDPM的解释可以参考我的上一篇博客：扩散模型Diffusion model | DDPMDDPM的贝叶斯解释直接根据贝叶斯定理我们有p(xt−1∣xt)=p(xt∣xt−1)p(xt−1)p(xt)p(\boldsymbol{x}_{t-1}|\boldsymb

rookiexiong

1538人浏览 · 2023-11-11 22:21:38

rookiexiong · 2023-11-11 22:21:38 发布

扩散模型Diffusion model | DDIM

论文原文：Denoising Diffusion Implicit Models

有关DDPM的解释可以参考我的上一篇博客：扩散模型Diffusion model | DDPM

DDPM的贝叶斯解释

直接根据贝叶斯定理我们有
$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)=\frac{p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})p(\boldsymbol{x}_{t-1})}{p(\boldsymbol{x}_t)}$
但是 $p(x_{t−1}),p(x_{t})$ 难以直接计算，因而转向计算
$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t,\boldsymbol{x}_0)=\frac{p(\boldsymbol{x}_t|\boldsymbol{x}_{t-1})p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0)}{p(\boldsymbol{x}_t|\boldsymbol{x}_0)}$
代入各自的表达式得到：（本文中与原文定义不同的是： $\beta_t=\sqrt{1-\alpha_t^2}$ ，原文是 $\alpha_t=1-\beta_t$ ）
$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t,\boldsymbol{x}_0)=\mathcal{N}\left(\boldsymbol{x}_{t-1};\frac{\alpha_t\bar{\beta}_{t-1}^2}{\bar{\beta}_t^2}\boldsymbol{x}_t+\frac{\bar{\alpha}_{t-1}\beta_t^2}{\bar{\beta}_t^2}\boldsymbol{x}_0,\frac{\bar{\beta}_{t-1}^2\beta_t^2}{\bar{\beta}_t^2}\boldsymbol{I}\right)$

用 $\bar{\boldsymbol{\mu}}(\boldsymbol{x}_t)$ 来预估 $\boldsymbol{x}_0$ 损失 $\|\boldsymbol{x}_0-\bar{\boldsymbol{\mu}}(\boldsymbol{x}_t)\|^2$ ，就可以消去 $p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t,\boldsymbol{x}_0)$ 中的 $\boldsymbol{x}_0$ ，使得它只依赖于 $\boldsymbol{x}_t$ 了。

实际上这也就是个去噪的过程，对应DDPM的Denoising过程。

而由 $p(\boldsymbol{x}_t|\boldsymbol{x}_0)=\mathcal{N}(\boldsymbol{x}_t;\bar{\alpha}_t\boldsymbol{x}_0,\bar{\beta}_t^2\boldsymbol{I})$ 可以推出 $\boldsymbol{x}_0=\frac1{\bar{\alpha}_t}\left(\boldsymbol{x}_t-\bar{\beta}_t\boldsymbol{\varepsilon}\right)$ ，于是我们可以构造
$\bar{\boldsymbol{\mu}}(x_t) =\frac1{\bar{\alpha}_t}(\boldsymbol{x}_t-\bar{\beta}_t\boldsymbol{\epsilon}_\theta(\boldsymbol{x}_t,t))$

代回即可得到DDPM的损失函数。

用 $\bar{\boldsymbol{\mu}}(x_t)$ 来预估 $x_{0}$ 不会太准，它仅仅起到了一个前瞻性的预估作用，然后只用 $p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)$ 来推进一小步（类似于梯度下降中，找到最速下降方向，但是仅仅下降一小步的预估-修正思想）。

DDIM

DDPM的推导思路为：
$x_t\xrightarrow{model}\epsilon_\theta(x_t,t)\xrightarrow{P(x_t|x_0)\to P(x_0|x_t,\epsilon_\theta)}\hat{x}_0(x_t,\epsilon_\theta)\xrightarrow{\text{推导}} \mu ( x _ t , \hat { x }_0),\beta_t\xrightarrow{P(x_{t-1}|x_t,x_0)}\hat{x}_{t-1}$
在上述推导中，可以看到

损失函数只依赖于 $p(\boldsymbol{x}_t|\boldsymbol{x}_0)$ ；
采样过程只依赖于 $p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)$ 。

因此由于对马尔可夫假设的依赖，导致DDPM的重建过程需要较多的步长。

但是实际上推理与 $p(\boldsymbol{x}_{t}|\boldsymbol{x}_{t-1})$ 好像并没有关系（仅仅是马尔可夫的约束），如果想要加速这个重建过程，可以考虑解除对前向过程 $p(\boldsymbol{x}_{t}|\boldsymbol{x}_{t-1})$ 马尔可夫特性的依赖，直接定义分布 $p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t,\boldsymbol{x}_0)$ ，原来的前向过程即可变化为：
$q_{\sigma}(\mathbf{x}_{1:T}|\mathbf{x}_{0})=q_{\sigma}(\mathbf{x}_{T}|\mathbf{x}_{0})\prod_{t=2}^{T}q_{\sigma}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0})$

但为了保持前向过程与DDPM等价，需要满足边缘分布条件
$\int p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t,\boldsymbol{x}_0)p(\boldsymbol{x}_t|\boldsymbol{x}_0)d\boldsymbol{x}_t=p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_0)$

使用待定系数法，即可得到（具体参见苏老师的博客：DDIM = 高观点DDPM）
$p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t,\boldsymbol{x}_0)=\mathcal{N}\left(\boldsymbol{x}_{t-1};\frac{\sqrt{\bar{\beta}_{t-1}^2-\sigma_t^2}}{\bar{\beta}_t}\boldsymbol{x}_t+\left(\bar{\alpha}_{t-1}-\frac{\bar{\alpha}_t\sqrt{\beta_{t-1}^2-\sigma_t^2}}{\bar{\beta}_t}\right)\boldsymbol{x}_0,\sigma_t^2\boldsymbol{I}\right)$

那么接下来的过程就与DDPM相同了…

$\begin{aligned} p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)& \approx p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t,\boldsymbol{x}_0=\bar{\boldsymbol{\mu}}(\boldsymbol{x}_t)) \\ &=\mathcal{N}\left(\boldsymbol{x}_{t-1};\frac1{\alpha_t}\left(\boldsymbol{x}_t-\left(\bar{\beta}_t-\alpha_t\sqrt{\bar{\beta}_{t-1}^2-\sigma_t^2}\right)\boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t,t)\right),\sigma_t^2\boldsymbol{I}\right) \end{aligned}$

此式带有一个自由参数 $\sigma_t$ ，和DDPM相比训练过程没有变化，但生成过程却有一个可变动的参数 $\sigma_t$ ，不同 $\sigma_t$ 的采样过程会呈现出不同的特点。

而当 $\sigma_{t}=\frac{\bar{\beta}_{t-1}\beta_{t}}{\bar{\beta}_{t}}$ 时，DDIM与DDPM等价；当 $\sigma_{t}=0$ 时，此时从 $x_t$ 到 $x_{t−1}$ 是一个确定性变换，也就是论文特指的部分。

DDPM的训练结果实质上包含了它的任意子序列参数的训练结果。

原文推导

如果将条件改回 $\alpha_t=1-\beta_t$

则 $p(\boldsymbol{x}_t|\boldsymbol{x}_0)$ 可以形式化为：
$x_0=\frac{\boldsymbol{x}_t-\sqrt{1-\bar{\alpha}_t}\epsilon_\theta^{(t)}\left(\boldsymbol{x}_t\right)}{\sqrt{\bar{\alpha}_t}}$

而反向条件概率 $q_\sigma\left(\mathbf{x}_{t-1}\mid\mathbf{x}_t,\mathbf{x}_0\right)$ 为：
$q_\sigma\left(\mathbf{x}_{t-1}\mid\mathbf{x}_t,\mathbf{x}_0\right)=\mathcal{N}\left(\mathbf{x}_{t-1};\sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0+\sqrt{1-\bar{\alpha}_{t-1}-\sigma_t^2}\frac{\mathbf{x}_t-\sqrt{\bar{\alpha}_t}\mathbf{x}_0}{\sqrt{1-\bar{\alpha}_t}},\sigma_t^2\mathbf{I}\right)$

采样过程即为：
$x_{t-1}=\sqrt{\bar{\alpha}_{t-1}}\underbrace{\left(\frac{x_{t}-\sqrt{1-\bar{\alpha}_{t}}}{\sqrt{\bar{\alpha}_{t}}}\frac{\epsilon_{\theta}^{(t)}(x_{t})}{\sqrt{\bar{\alpha}_{t}}}\right)}_{\text{predicied }x_{0}}+\underbrace{\sqrt{1-\bar{\alpha}_{t-1}-\sigma_{t}^{2}}\cdot\epsilon_{\theta}^{(t)}(x_{t})}_{\text{direction pointing to }x_{t}}+\underbrace{\sigma_{t}\cdot\epsilon_{t}}_{\text{random noise}}$

而可以将 $\sigma_t$ 进一步定义为：
$\sigma_t=\eta\sqrt{(1-\bar{\alpha}_{t-1})/(1-\bar{\alpha}_t)}\sqrt{1-\bar{\alpha}_t/\bar{\alpha}_{t-1}}$

如果 $\eta=0$ ，生成过程就没有随机噪音了，是一个确定性的过程，论文将这种情况下的模型称为DDIM（denoising diffusion implicit model）；而如果 $\eta=1$ ，该前向过程变成了马尔科夫链，模型为DDPM。

重建与插值

对于 $\eta=0$ 时的DDIM，实质上就是将任意正态噪声向量变换为图片的一个确定性变换，此时 ${x}_{t}$ 生成 ${x}_{t-1}$ 的更新公式就变为：
$\mathbf{x}_{t-1}=\sqrt{\alpha_{t-1}}\Big(\frac{\mathbf{x}_t-\sqrt{1-\alpha_t}\epsilon_\theta(\mathbf{x}_t,t)}{\sqrt{\alpha_t}}\Big)+\sqrt{1-\alpha_{t-1}}\cdot\epsilon_\theta(\mathbf{x}_t,t)$
对上式作等价变换可以得到：
$\frac{\mathbf{x}_{t-1}}{\sqrt{\alpha_{t-1}}}=\frac{\mathbf{x}_{t}}{\sqrt{\alpha_{t}}}+\Big(\sqrt{\frac{1-\alpha_{t-1}}{\alpha_{t-1}}}-\sqrt{\frac{1-\alpha_{t}}{\alpha_{t}}}\Big)\epsilon_{\theta}(\mathbf{x}_{t},t)$

当 $T$ 足够大，或者说 $\alpha_{t}$ 与 $\alpha_{t-1}$ 足够小时，我们可以将上式视为某个常微分方程ODE的差分形式。
$\frac{\mathbf{x}_{t-\Delta t}}{\sqrt{\alpha_{t-\Delta t}}}=\frac{\mathbf{x}_t}{\sqrt{\alpha_t}}+\Big(\sqrt{\frac{1-\alpha_{t-\Delta t}}{\alpha_{t-\Delta t}}}-\sqrt{\frac{1-\alpha_t}{\alpha_t}}\Big)\epsilon_\theta(\mathbf{x}_t,t)$
这里令 $\sigma={\sqrt{1-\alpha}}/{\sqrt{\alpha}},{\bar{\mathbf{x}}}=\mathbf{x}/{\sqrt{\alpha}}$ ，它们都是关于 $t$ 的函数，这样对应的ODE就是：
$\mathrm{d}\bar{\mathbf{x}}(t)=\epsilon_{\theta}(\frac{\bar{\mathbf{x}}(t)}{\sqrt{\sigma^{2}+1}},t)\mathrm{d}\sigma(t)$
那么可以由一个原始图像 $x_0$ 得到对应的随机噪音 $x_T$ ，然后我们再用 $x_T$ 进行生成就可以重建原始图像 $x_0$ ，可以得到较低的重建误差
$\frac{\mathbf{x}_{t+1}}{\sqrt{\alpha_{t+1}}}=\frac{\mathbf{x}_{t}}{\sqrt{\alpha_{t}}}+\Big(\sqrt{\frac{1-\alpha_{t+1}}{\alpha_{t+1}}}-\sqrt{\frac{1-\alpha_{t}}{\alpha_{t}}}\Big)\epsilon_{\theta}(\mathbf{x}_{t},t)$

也就是说，将生成过程等同于求解常微分方程后，可以借助常微分方程的数值解法，为生成过程的加速提供更丰富多样的手段。

$\eta=0$ 时，DDIM，所以跟GAN类似，我们可以对这两个随机噪音进行插值生成新的 $x_T$ ，那么将生成融合的图像。这里采用的插值方法是球面线性插值（ spherical linear interpolation）,参数 $\alpha$ 控制插值系数：
$\mathbf{x}_T^{(\alpha)}=\frac{\sin((1-\alpha)\theta)}{\sin(\theta)}\mathbf{x}_T^{(0)}+\frac{\sin(\alpha\theta)}{\sin(\theta)}\mathbf{x}_T^{(1)}\quad\theta=\arccos\Big(\frac{(\mathbf{x}_T^{(0)})^\mathrm{T}\mathbf{x}_T^{(1)}}{\|\mathbf{x}_T^{(0)}\|\|\mathbf{x}_T^{(1)}\|}\Big)$

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

写作压力小了！8个AI论文网站深度测评，专科生毕业论文+开题报告全攻略

2048 AI社区

SWE-smith: Scaling Data for Software Engineering Agents

摘要：本文提出SWE-smith工具包，用于自动化生成大规模软件工程训练数据。针对现有数据集规模小、构建成本高的问题，SWE-smith通过四种自动缺陷生成策略（语言模型重写、AST修改、PR撤销、缺陷组合），在128个Python代码库中生成5万条任务实例，规模比现有工作大一个数量级。该工具仅需20小时人工投入，显著降低了数据收集成本。基于SWE-smith数据训练的32B参数模型SWE-age