引言:扩散模型 —— 生成式 AI 的 “造梦引擎”

打开 AI 绘画工具,输入一句 “赛博朋克风格的猫咪宇航员”,几秒后一幅细节丰富的图像就会呈现在眼前;上传一张模糊的老照片,AI 能快速将其修复为高清版本…… 这些惊艳的效果,背后大多离不开扩散模型的支撑。

作为近年来生成式 AI 领域的 “明星模型”,扩散模型凭借远超传统生成模型的稳定性和生成质量,迅速成为文生图、图生图、图像修复等任务的主流方案。在此之前,GAN(生成对抗网络)曾是生成模型的代表,但它存在训练不稳定、生成图像易出现 “模式崩塌” 等问题;VAE(变分自编码器)虽然稳定,却难以生成高精度的复杂图像。

扩散模型的出现打破了这一僵局。它的核心逻辑既不复杂也不神秘 —— 本质上就是让模型学习 “给图像加噪声” 和 “从噪声中还原图像” 的双向过程。本文将抛开复杂的代码和公式推导,用通俗的语言拆解扩散模型的底层原理,带你看懂 “噪声如何一步步变成精美图像”。

前置认知:扩散模型的核心思想

扩散模型的灵感来源于物理学中的 “扩散现象”—— 比如墨水滴入清水中,会逐渐扩散到整个水体,最终变成均匀的混合液。这一过程是不可逆的,但如果我们能精准掌握每一步的扩散规律,理论上就能 “逆向操作”,把混合液还原成最初的墨水和清水。

扩散模型正是借鉴了这一思路,它的工作过程分为两个核心阶段:

  1. 正向扩散:主动给清晰的真实图像逐步添加高斯噪声,让图像从清晰状态慢慢 “退化” 为纯随机噪声。这个过程是人工可控的,且每一步的状态仅依赖前一步(满足马尔可夫链的无后效性)。
  2. 反向扩散:训练一个神经网络,让它学习正向扩散的 “逆过程”—— 也就是从随机噪声出发,逐步消除噪声,最终还原出清晰的真实图像。

简单来说,扩散模型的核心就是 **“先破坏,再学习修复”**。这种 “先加噪再去噪” 的范式,正是它区别于 GAN、VAE 的关键所在。

核心原理拆解:正向扩散与反向扩散

3.1 正向扩散:给图像 “加噪声” 的过程

正向扩散是一个确定性的过程—— 我们可以手动控制每一步的噪声添加强度,让图像逐步从清晰变为模糊,最终变成完全随机的噪声。

假设我们有一张真实图像 x0​,正向扩散的过程就是通过 T 步操作,得到一系列加噪后的图像 x1​,x2​,...,xT​,其中 xT​ 是完全的随机噪声。

每一步加噪的逻辑很简单:给当前图像叠加一个高斯噪声,同时控制噪声的强度。用通俗的话解释就是:

  • 第 1 步:给清晰图像 x0​ 加一点点噪声,得到稍微模糊的图像 x1​;
  • 第 2 步:给 x1​ 加比第一步更多的噪声,得到更模糊的图像 x2​;
  • ……
  • 第 T 步:经过足够多的加噪步骤,图像已经没有任何清晰细节,变成了纯随机噪声 xT​。

在这个过程中,噪声的强度是逐步递增的,且每一步的加噪操作只和上一步的图像有关,和更早的步骤无关 —— 这就是马尔可夫链的无后效性。这种特性让正向扩散的过程变得简单且可控。

3.2 反向扩散:让模型 “学去噪” 的核心

反向扩散是扩散模型的核心与难点,它的目标是让模型学会 “逆向操作”—— 从纯随机噪声 xT​ 出发,一步步还原出清晰的真实图像 x0​。

反向扩散的关键是训练一个噪声预测网络(最常用的是 U-Net 架构),这个网络的任务不是直接生成图像,而是预测当前加噪图像中的噪声

我们可以这样理解模型的学习过程:

  1. 我们先用正向扩散生成大量的 “加噪图像 - 对应噪声” 样本对,比如 “图像 xt​ - 生成 xt​ 所用的噪声”;
  2. 把这些样本对输入到噪声预测网络中,让模型学习 “看到 xt​,就能精准预测出它里面包含的噪声”;
  3. 当模型训练完成后,它就具备了 “去噪” 能力 —— 只要输入一张加噪图像,它就能算出里面的噪声,把噪声减去,就能得到更清晰的图像。

这里的核心逻辑是:反向扩散不是直接生成图像,而是通过 “预测噪声 - 消除噪声” 的方式,逐步还原图像。这种方式让模型的训练过程变得非常稳定,不会像 GAN 那样出现训练崩溃的问题。

完整生成流程:从噪声到图像的 “蜕变”

当模型训练完成后,从噪声生成图像的过程就变得非常直观,整个流程可以分为四步:

  1. 初始化:生成纯随机噪声我们先随机生成一张和目标图像尺寸相同的纯噪声图 xT​,这张图没有任何实际内容,就是杂乱无章的像素点。

  2. 迭代去噪:逐步消除噪声从 xT​ 开始,我们重复执行以下操作 T 次:

    • 把当前的噪声图输入到训练好的噪声预测网络中;
    • 模型预测出这张图中的噪声;
    • 从当前图像中减去预测出的噪声,得到一张更清晰的图像 xt−1​;每一次迭代后,图像都会变得更清晰一点,噪声也会减少一点。
  3. 采样控制:平衡速度与质量这里的 T(采样步数)是一个关键参数 —— 步数越多,生成的图像质量越高,但生成速度越慢;步数越少,速度越快,但质量可能会下降。现在很多优化算法(比如 DDIM)可以大幅减少采样步数,在保证质量的同时提升生成速度。

  4. 输出:得到最终图像经过 T 次迭代去噪后,最初的纯噪声图就会蜕变成一张清晰、细节丰富的图像,这就是扩散模型的最终生成结果。

扩散模型的优势与局限性

优势:生成质量与稳定性双高
  • 生成质量高:扩散模型能够生成细节丰富、纹理真实的图像,尤其在复杂场景(如人物、风景)下表现优异;
  • 训练稳定:不同于 GAN 的 “对抗训练”,扩散模型的训练过程是简单的噪声预测任务,几乎不会出现训练崩溃或模式崩塌的问题;
  • 多样性好:由于初始噪声是随机生成的,即使输入相同的文本提示词,模型也能生成不同风格的图像。
局限性:速度慢、成本高
  • 生成速度慢:传统扩散模型需要数百步的采样迭代才能生成图像,远慢于 GAN 等模型;
  • 计算成本高:采样过程的多次迭代需要消耗大量的计算资源,对硬件要求较高;
  • 对提示词敏感:在文生图任务中,生成结果对文本提示词的表述非常敏感,提示词不够精准时,容易出现 “文不对图” 的情况。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐