Denoising Diffusion Probabilistic Models (Diffusion)

本文介绍了去噪扩散概率模型(DDPM)的基本原理。DDPM通过前向扩散和反向去噪两个过程实现图像生成：前向过程逐步添加高斯噪声破坏图像，反向过程则通过神经网络学习逐步去噪。模型利用马尔可夫链性质简化计算，通过变分推断优化目标函数，最小化真实数据分布与生成分布的差异。核心在于使用贝叶斯公式推导理想后验分布，并通过KL散度约束模型学习的反向过程。实验结果表明，DDPM能够有效生成高质量图像，为AI绘画

永远有多远.

10人浏览 · 2026-03-05 22:21:25

永远有多远. · 2026-03-05 22:21:25 发布

文章目录

- Denoising Diffusion Probabilistic Models(DDPM)
参考

Denoising Diffusion Probabilistic Models(DDPM)

challenge & Background

当下很多图片需要去码去噪，还原本身的图像性质。或者当下AI绘画很火热，许多算法通过输入文字描述，最终便可以得到一张生成图像。

theory

分为前向扩散过程和反向去噪过程两部分
在这里插入图片描述

前向扩散过程

在这里插入图片描述

核心公式-加噪： $x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon$ 任一时刻的分布都可以通过 $x_0$ 得到， ${\alpha}_t$ 是噪声，仍服从高斯分布，Diffusion的核心便是利用马尔可夫正向过程一步到位。

马尔可夫链：描述的是一种状态序列，它最显著的特征是：下一时刻的状态只取决于当前状态，而与更早之前的状态无关，在扩散模型中把加噪和去噪的过程看作一条马尔科夫链 $x_0 \to x_1 \to x_2 \to ... \to x_T$ ，当我们想生成 $x_2$ 时，我们只需要看 $x_1$ 长什么样。我们不需要知道原始图片 $x_0$ 是什么。这大大简化了计算。模型只需要学习如何从“现在的状态”推到“前一步的状态”，而不需要背负沉重的历史包袱。

至此正向过程已经得到了，即通过前一时刻得到后一时刻的信息，写作 $q(x_t|x_{t-1})$ 。真正的目的是为了实现反向过程（去噪），即计算 $q(x_0|x_{T})$ 。反向的过程是复杂的，需要逐步反向向前计算，即计算 $q(x_{t-1}|x_{t})$

优化目标

在这里插入图片描述

我们的终极目标是最小化负对数似然 $-\log p_\theta(x_0)$ ，即让模型生成的分布尽可能接近真实数据分布 $p_{data}(x)$ 。

由于直接计算 $p_\theta(x_0)$ 涉及高维积分不可行因此引入变分推断中的

ELBO（Evidence Lower Bound，证据下界）： $\min -\log p_\theta(x_0) \le \mathbb{E}_{q(x_{1:T}|x_0)} \left[ \log \frac{q(x_{1:T}|x_0)}{p_\theta(x_{0:T})} \right]$

通过 KL 散度的展开，ELBO 被拆解为三项：

$D_{KL}(q(x_T|x_0)||p_\theta(x_T))$ ：先验匹配项。确保前向最后一步得到的噪声服从标准高斯分布。
$\sum_{t=2}^T D_{KL}(q(x_{t-1}|x_t, x_0)||p_\theta(x_{t-1}|x_t))$ ：这是扩散模型的核心（图中绿色框）。它要求模型学习的反向过程 $p_\theta(x_{t-1}|x_t)$ 尽可能接近由贝叶斯推导出的理想后验分布 $q(x_{t-1}|x_t, x_0)$ 。
$-\log p_\theta(x_0|x_1)$ ：重建项。最后一步从 $x_1$ 恢复到 $x_0$ 的质量。

反向去噪过程

在这里插入图片描述

KL 散度是衡量两个概率分布之间差异的标尺，我们需要让模型学习的反向路径 $p_\theta(x_{t-1}|x_t)$ 尽可能地去模仿那个“理想的、利用贝叶斯公式推导出的”反向路径 $q(x_{t-1}|x_t, x_0)$ 。可以约束中间每一步去噪的准确性

在这里插入图片描述

我们要算的是 $q(x_{t-1} | x_t)$ 。但这个直接算不出来，所以我们引入一个已知条件 $x_0$ （也就是我们最终想要的清晰图），这个过程我们要用到贝叶斯公式。

贝叶斯公式的核心在于执果索因。它通过“似然”和“先验”来计算“后验”： $\frac{P(B|A) \cdot P(A)}{P(B)}$

在机器学习的语境下，我们通常将其写作：

$P (z ∣ x)$ (后验概率)：在观测到数据 $x$ 的情况下，隐变量 $z$ 的概率。
$P (x ∣ z)$ (似然)：给定隐变量 $z$ ，生成观测数据 $x$ 的概率。
$P (z)$ (先验概率)：在观测到数据之前，对隐变量的预判。

根据贝叶斯公式： $q(x_{t-1} | x_t, x_0) = q(x_t | x_{t-1}, x_0) \frac{q(x_{t-1} | x_0)}{q(x_t | x_0)}$

$q(x_t | x_{t-1}, x_0)$ ：这是前向过程的似然估计。
$q(x_{t-1} | x_0)$ 和 $q(x_t | x_0)$ ：分别为先验概率和证据。

在扩散模型中，我们已知以下高斯分布（假设 $\alpha_t = 1 - \beta_t$ 且 $\bar{\alpha}_t = \prod_{i=1}^t \alpha_i$ ）：

前向单步加噪： $q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{\alpha_t}x_{t-1}, (1-\alpha_t)I)$
从 $x_0$ 步跳到 $x_t$ ： $q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t}x_0, (1-\bar{\alpha}_t)I)$
从 $x_0$ 步跳到 $x_{t-1}$ ： $q(x_{t-1} | x_0) = \mathcal{N}(x_{t-1}; \sqrt{\bar{\alpha}_{t-1}}x_0, (1-\bar{\alpha}_{t-1})I)$

将这些高斯概率密度函数（ $\propto \exp(-\frac{(x-\mu)^2}{2\sigma^2})$ ）代入贝叶斯公式，指数部分相加减，会得到一个新的二次型。

具体推导过程如下：

$q(x_{t-1}|x_t, x_0) = \frac{q(x_t|x_{t-1}, x_0)q(x_{t-1}|x_0)}{q(x_t|x_0)}$

$\frac{\mathcal{N}(x_t; \sqrt{\alpha_t}x_{t-1}, (1 - \alpha_t)\mathbf{I})\mathcal{N}(x_{t-1}; \sqrt{\bar{\alpha}_{t-1}}x_0, (1 - \bar{\alpha}_{t-1})\mathbf{I})}{\mathcal{N}(x_t; \sqrt{\bar{\alpha}_t}x_0, (1 - \bar{\alpha}_t)\mathbf{I})}$

$\propto \exp \left\{ -\frac{1}{2} \left[ \frac{(x_t - \sqrt{\alpha_t}x_{t-1})^2}{1 - \alpha_t} + \frac{(x_{t-1} - \sqrt{\bar{\alpha}_{t-1}}x_0)^2}{1 - \bar{\alpha}_{t-1}} - \frac{(x_t - \sqrt{\bar{\alpha}_t}x_0)^2}{1 - \bar{\alpha}_t} \right] \right\}$ （带入高斯分布密度函数）

$\exp \left\{ -\frac{1}{2} \left[ \frac{(x_t - \sqrt{\alpha_t}x_{t-1})^2}{1 - \alpha_t} + \frac{(x_{t-1} - \sqrt{\bar{\alpha}_{t-1}}x_0)^2}{1 - \bar{\alpha}_{t-1}} + C(x_t, x_0) \right] \right\}$ （提取指数部分，忽略归一化常数）

$\propto \exp \left\{ -\frac{1}{2} \left[ \frac{-2\sqrt{\alpha_t}x_tx_{t-1} + \alpha_tx_{t-1}^2}{1 - \alpha_t} + \frac{x_{t-1}^2 - 2\sqrt{\bar{\alpha}_{t-1}}x_{t-1}x_0}{1 - \bar{\alpha}_{t-1}} + C'(x_t, x_0) \right] \right\}$

$\exp \left\{ -\frac{1}{2} \left[ \left( \frac{\alpha_t}{1 - \alpha_t} + \frac{1}{1 - \bar{\alpha}_{t-1}} \right)x_{t-1}^2 - 2\left( \frac{\sqrt{\alpha_t}x_t}{1 - \alpha_t} + \frac{\sqrt{\bar{\alpha}_{t-1}}x_0}{1 - \bar{\alpha}_{t-1}} \right)x_{t-1} \right] \right\}$ （合并）

$\exp \left\{ -\frac{1}{2} \left[ \frac{\alpha_t(1 - \bar{\alpha}_{t-1}) + 1 - \alpha_t}{(1 - \alpha_t)(1 - \bar{\alpha}_{t-1})}x_{t-1}^2 - 2\left( \frac{\sqrt{\alpha_t}x_t}{1 - \alpha_t} + \frac{\sqrt{\bar{\alpha}_{t-1}}x_0}{1 - \bar{\alpha}_{t-1}} \right)x_{t-1} \right] \right\}$

$\exp \left\{ -\frac{1}{2} \left[ \frac{\alpha_t - \bar{\alpha}_t + 1 - \alpha_t}{(1 - \alpha_t)(1 - \bar{\alpha}_{t-1})}x_{t-1}^2 - 2\left( \frac{\sqrt{\alpha_t}x_t}{1 - \alpha_t} + \frac{\sqrt{\bar{\alpha}_{t-1}}x_0}{1 - \bar{\alpha}_{t-1}} \right)x_{t-1} \right] \right\}$

$\exp \left\{ -\frac{1}{2} \left[ \frac{1 - \bar{\alpha}_t}{(1 - \alpha_t)(1 - \bar{\alpha}_{t-1})}x_{t-1}^2 - 2\left( \frac{\sqrt{\alpha_t}x_t}{1 - \alpha_t} + \frac{\sqrt{\bar{\alpha}_{t-1}}x_0}{1 - \bar{\alpha}_{t-1}} \right)x_{t-1} \right] \right\}$

$\exp \left\{ -\frac{1}{2} \left( \frac{1 - \bar{\alpha}_t}{(1 - \alpha_t)(1 - \bar{\alpha}_{t-1})} \right) \left[ x_{t-1}^2 - 2 \frac{\left( \frac{\sqrt{\alpha_t}x_t}{1 - \alpha_t} + \frac{\sqrt{\bar{\alpha}_{t-1}}x_0}{1 - \bar{\alpha}_{t-1}} \right)}{\frac{1 - \bar{\alpha}_t}{(1 - \alpha_t)(1 - \bar{\alpha}_{t-1})}}x_{t-1} \right] \right\}$

$\exp \left\{ -\frac{1}{2} \left( \frac{1}{\frac{(1 - \alpha_t)(1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t}} \right) \left[ x_{t-1}^2 - 2 \frac{\sqrt{\alpha_t}(1 - \bar{\alpha}_{t-1})x_t + \sqrt{\bar{\alpha}_{t-1}}(1 - \alpha_t)x_0}{1 - \bar{\alpha}_t}x_{t-1} \right] \right\}$

$\propto \mathcal{N}\left(x_{t-1}; \underbrace{\frac{\sqrt{\alpha_t}(1 - \bar{\alpha}_{t-1})x_t + \sqrt{\bar{\alpha}_{t-1}}(1 - \alpha_t)x_0}{1 - \bar{\alpha}_t}}_{\mu_q(x_t, x_0)}, \underbrace{\frac{(1 - \alpha_t)(1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t}}_{\Sigma_q(t)}\mathbf{I}\right)$

在数学上，两个正态分布相乘，其指数部分（均值和方差）会发生融合。经过一通化简计算，我们会得到 $x_{t-1}$ 的后验均值 $\tilde{\mu}_t$ ： $\tilde{\mu}_t(x_t, x_0) = \frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t} x_t + \frac{\sqrt{\bar{\alpha}_{t-1}}(1-\alpha_t)}{1-\bar{\alpha}_t} x_0$ ，后验方差 $\tilde{\beta}_t = \frac{(1-{\alpha}_t)(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t} \cdot \beta_t$

下面我们继续化简均值，由于 $x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1 - \bar{\alpha}_t}\epsilon$ ，反解出 $x_0 = \frac{1}{\sqrt{\bar{\alpha}_t}}(x_t - \sqrt{1 - \bar{\alpha}_t}\epsilon)$ ，

带入原式得 $\tilde{\mu}_t = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}} \epsilon \right)$ 至此，均值和方差就都有了

Algorithm (traing and sampling)

在这里插入图片描述

在training的过程中，我们只需要去预测噪声，就能在数学上使得模型学到的分布和真实的图片分布不断逼近。而当我们使用模型做sampling，即去测试模型能生成什么质量的图片时,由上面得推导结论我们从 $x_t$ 推导 $x_{t-1}$ 直到还原出 $x_0$ 。

在这里插入图片描述

训练过程我们先随机选一个时间步进行编码，再给原始图像加噪，最后用UNet训练（输入时间步和噪声图，来预测一个噪声）我们希望这个噪声与我们最初加噪的噪声相近，对这两个噪声做L2的loss

在这里插入图片描述

这是一个逐步的去噪过程，把噪声和时间步输入到UNet后输出预测的噪声图，使用这个噪声与原图进行相减，中间有999次这个过程，到T=1时，输入 $x_1$ 的图和时间步给UNet预测噪声，最后将这个噪声与原始图片的相减处理即可

关于扰动项 $\sigma_t z$ ：如果没有这个随机扰动，生成过程将变成确定性的 ODE（常微分方程），虽然能出图，但样本的多样性和分布覆盖能力（Recall）会下降。扰动项确保了模型能探索数据生成空间的不同分支

参考

Diffusion扩散模型大白话讲解，看完还不懂？不可能！ - 知乎
【大白话01】一文理清 Diffusion Model 扩散模型 | 原理图解+公式推导_哔哩哔哩_bilibili
深入浅出扩散模型(Diffusion Model)系列：基石DDPM（人人都能看懂的数学原理篇） - 知乎
深入浅出扩散模型(Diffusion Model)系列：基石DDPM（人人都能看懂的数学原理篇） - 知乎
Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models. NeuraIPS, 2020.
Luo C. Understanding diffusion models: A unified perspective. arXiv, 2022
SY_007, 【较真系列】讲人话-Diffusion Model全解(原理+代码+公式) ()

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

黑马Java跟学.SpringAI+DeepSeek大模型应用开发实战.大模型应用开发篇

2048 AI社区

我打算重构大模型：假设由100个触角组成的最大100个上下文的句子输入层，每个触角都可以通过逻辑管道和其他触角组合或和后面的子逻辑管道再组合，逻辑管道可以形成ai内存机制.....来自智谱清言

摘要：本文提出了一种新型神经网络架构，通过100个并行触角(输入单元)和可组合逻辑管道来实现结构化推理。该架构采用神经符号主义方法，将神经网络的感知能力与符号逻辑的推理能力相结合。核心设计包括：1)触角负责接收和编码输入信息；2)逻辑管道实现实体聚合、属性绑定和算术运算；3)内存机制存储中间变量。训练过程采用门控软路由机制，通过梯度下降从随机初始连接中逐步强化有效管道组合。该方法特别适合数学应用题

2048 AI社区

原来如此！提示工程架构师解析AI上下文工程长期记忆机制

长期记忆机制不是“黑科技”，而是提示工程架构师用外部系统弥补大模型原生缺陷的关键手段——它的核心逻辑是“存储-检索-整合”，关键是“结构化”和“可检索”。回到文章开头的问题：为什么你的AI总像“鱼的记忆”？因为你没给它准备“永久笔记本”——而提示工程架构师的工作，就是帮AI打造这本“笔记本”。AI的“智能”，不在于它能回答多难的问题，而在于它能记住多小的细节。下次再做AI应用时，不妨先问自己：“我