第9章 深度学习的生成模型

前面章节学习的CNN、RNN、Transformer等模型都属于判别模型——核心是学习输入到输出的映射关系(如输入图像判断类别、输入文本做翻译),解决的是分类、回归、序列转换等任务。而生成模型是深度学习的另一大核心分支,其核心目标是学习真实数据的概率分布,并能从这个分布中采样生成全新的、与真实数据高度相似的样本

简单来说,判别模型是“判断数据是什么”,生成模型是“创造和真实数据一样的新数据”。生成模型的出现让人工智能从“分析数据”走向“创造数据”,目前已广泛应用于AI绘画、文本生成、语音合成、分子设计、视频生成等领域,是当下深度学习的研究和应用热点。

本章将从生成模型的基础认知入手,先区分判别模型与生成模型的核心差异,再依次讲解目前最经典的三大生成模型:变分自编码器(VAE)生成对抗网络(GAN)扩散模型(Diffusion Model),包括它们的核心思想、模型结构、训练过程、优缺点及经典变体,最后对比三大模型的适用场景并介绍生成模型的扩展应用,让本硕阶段的读者掌握生成模型的核心原理和应用逻辑。

9.1 生成模型的基础认知:从“判别”到“生成”

要理解生成模型,首先要明确其与判别模型的本质区别,掌握生成模型的核心任务和评价指标——这是学习所有生成模型的基础,能帮我们建立对生成模型的整体认知。

9.1.1 判别模型 vs 生成模型:核心差异在“学习目标”

判别模型和生成模型是机器学习的两大分类,二者的核心差异在于学习的目标函数不同,用概率公式能清晰区分,同时结合直观例子更易理解:

(1)判别模型:学习条件概率 P(y∣x)P(y|x)P(yx)
  • 核心目标:学习给定输入xxx,输出标签yyy的条件概率,即找到输入到输出的映射规律,不关心输入数据本身的分布;
  • 通俗理解:教模型“认东西”,比如给模型看一张猫的图片,让它判断这是“猫”还是“狗”,模型只需要学会区分不同类别的特征,不用知道猫的图片整体长什么样;
  • 典型代表:CNN(图像分类)、逻辑回归、SVM、RNN/Transformer(文本分类、翻译)。
(2)生成模型:学习边缘概率P(x)P(x)P(x) 或联合概率P(x,y)P(x,y)P(x,y)
  • 核心目标:学习输入数据xxx本身的概率分布P(x)P(x)P(x)(无监督),或输入和标签的联合概率P(x,y)P(x,y)P(x,y)(有监督);掌握数据的分布后,就能从分布中随机采样,生成全新的、符合真实规律的xxx
  • 通俗理解:教模型“画东西”,比如让模型学习所有猫的图片的分布,学会后模型能凭空画出一张从未见过的、但和真实猫的图片高度相似的新图片;
  • 典型代表:VAE、GAN、扩散模型、自回归语言模型(GPT)。
核心对比总结
维度 判别模型 生成模型
学习目标 条件概率P(y∣x)P(y|x)P(yx) 边缘概率P(x)P(x)P(x)/联合概率P(x,y)P(x,y)P(x,y)
核心能力 判断、分类、转换 生成全新的真实样例
数据利用 主要依赖标注数据 可利用无标注数据(核心优势)
典型任务 图像分类、文本翻译、问答 AI绘画、语音合成、分子生成

9.1.2 生成模型的两大核心任务

所有生成模型的设计和训练,都是为了完成两个核心任务,二者是递进关系:

  1. 拟合数据分布:这是生成模型的基础任务。模型需要从海量的真实数据中,学习到数据的底层概率分布规律——比如人脸图片的分布包含“眼睛在上方、鼻子在中间、嘴巴在下方”“不同肤色、发型、五官的组合规律”等;
  2. 采样生成样本:这是生成模型的最终任务。当模型成功拟合真实数据的分布后,只需从这个分布中随机“抽取”一个样本,就能生成全新的、与真实数据相似的样本。采样的过程越简单、生成的样本质量越高,模型的效果越好。

9.1.3 生成模型的核心评价指标

生成模型的评价比判别模型更复杂,因为“生成的样本好不好”不仅有客观指标,还有主观的视觉/语义感受,目前工业界和学术界常用客观量化指标结合主观人工评估的方式,以下是最主流的三大客观评价指标,主要适用于图像生成任务:

  1. 初始得分(IS, Inception Score)
    • 核心思路:基于预训练的图像分类模型(Inception v3),衡量生成样本的多样性真实性——真实性越高(模型能准确分类)、多样性越高(分类结果分布越均匀),IS值越高;
    • 缺点:对样本多样性的衡量不够全面,容易被模型“欺骗”(比如生成模糊但能被分类的样本)。
  2. 弗雷歇距离(FID, Fréchet Inception Distance)
    • 核心思路:计算真实样本生成样本在预训练模型特征空间中的高斯分布距离,距离越小,说明二者的分布越接近,生成样本的质量越高;
    • 优点:比IS更贴合人类的主观感受,是目前图像生成任务的主流评价指标
    • 缺点:计算成本稍高,对小批量样本的评估结果不稳定。
  3. 感知路径长度(PPL, Perceptual Path Length)
    • 核心思路:衡量生成样本在连续插值过程中的平滑度,PPL值越小,说明样本的连续变化越自然,模型对数据分布的拟合越平滑;
    • 适用场景:主要用于评估人脸、动漫等需要连续生成的任务(比如从一张人脸平滑过渡到另一张)。

补充:对于文本、语音等生成任务,有专属的评价指标(如文本的BLEU/ROUGE、语音的MOS分),核心逻辑均为“衡量生成样本与真实样本的相似度+多样性”。

9.2 变分自编码器(VAE):基于概率与自编码的生成模型

变分自编码器(Variational Autoencoder,VAE)是2013年提出的生成模型,是自编码器与概率统计、变分推断结合的产物,也是第一个能稳定生成连续型数据的深度学习生成模型。VAE解决了传统自编码器“无法采样生成”的问题,为生成模型的发展奠定了基础,其核心优势是训练稳定、理论基础扎实,适合生成图像、语音等连续型数据。

9.2.1 先搞懂:传统自编码器的结构与缺陷

VAE是在传统自编码器(AE) 的基础上改进而来,先理解自编码器的核心结构,才能明白VAE的改进思路:

(1)传统自编码器的核心结构

自编码器是一种无监督的神经网络,由编码器(Encoder)解码器(Decoder) 两部分组成,核心是数据的压缩与重构

  • 编码器:将高维的输入数据(如28×28的手写数字图片,784维)压缩为低维的隐向量(Latent Vector)(如10维),实现数据的特征提取和降维;
  • 解码器:将低维的隐向量还原为和输入维度相同的重构数据,尽可能让重构数据与原始输入一致。
  • 训练目标:最小化输入数据和重构数据的均方误差(MSE),让模型学会提取数据的核心特征。
(2)传统自编码器的核心缺陷

自编码器能完成数据的降维和重构,但无法作为生成模型使用,核心缺陷有两个:

  1. 隐空间无规律:编码器输出的隐向量是固定的确定值,且不同样本的隐向量在隐空间中分布混乱、无连续的规律,无法通过随机采样隐向量生成新样本;
  2. 仅能重构,无法生成:解码器只能还原编码器压缩的隐向量,无法对随机的隐向量进行有效解码,即使人为生成一个隐向量,解码后得到的也是无意义的噪声。

简单来说,传统自编码器是“一对一的压缩重构”,而生成模型需要“从分布中采样的一对多生成”,这是二者的本质矛盾。

9.2.2 VAE的核心改进:让隐空间变成“有规律的概率分布”

VAE对传统自编码器的唯一核心改进,就是将编码器的输出从固定的隐向量,改为一个概率分布(通常是高斯分布)的均值和方差——让每个输入样本对应隐空间中的一个高斯分布,而非一个单点,从而让隐空间变得连续、平滑、有规律,实现随机采样生成。

这个改进看似简单,却结合了变分推断的数学理论,让模型能通过反向传播稳定训练,也是VAE名称中“变分”的由来。

9.2.3 VAE的模型结构与训练过程

VAE的结构仍由编码器解码器组成,但二者的功能和输出与传统自编码器完全不同,训练目标也增加了隐空间正则项,整体结构清晰且训练稳定。

(1)核心结构拆解
  1. 编码器(变分编码器)

    • 输入:高维真实数据xxx(如手写数字图片);
    • 输出:隐空间中高斯分布的均值μ(x)\mu(x)μ(x)方差σ2(x)\sigma^2(x)σ2(x)(而非固定隐向量),即每个输入xxx对应隐空间中的一个高斯分布N(μ(x),σ2(x)I)N(\mu(x), \sigma^2(x)I)N(μ(x),σ2(x)I)
    • 核心作用:学习从真实数据到隐空间概率分布的映射。
  2. 重参数化技巧(Reparameterization Trick)

    • 核心问题:如果直接从N(μ(x),σ2(x)I)N(\mu(x), \sigma^2(x)I)N(μ(x),σ2(x)I)中采样得到隐向量zzz,采样过程是随机的、不可微的,无法通过反向传播训练模型;
    • 解决方法:重参数化——将采样过程拆分为确定的线性变换+随机的标准高斯采样,让采样过程可微;
    • 公式:z=μ(x)+σ(x)⊙ϵz = \mu(x) + \sigma(x) \odot \epsilonz=μ(x)+σ(x)ϵ,其中ϵ∼N(0,I)\epsilon \sim N(0, I)ϵN(0,I)是从标准高斯分布中采样的随机噪声,⊙\odot是元素级乘法。
    • 核心作用:让VAE的整个训练过程可微,实现反向传播优化。
  3. 解码器(生成器)

    • 输入:通过重参数化得到的隐向量zzz
    • 输出:与输入数据维度相同的生成样本x^\hat{x}x^,并让生成样本服从真实数据的分布;
    • 核心作用:学习从隐空间的概率分布到真实数据分布的映射。
(2)VAE的训练目标:重构损失 + 隐空间正则项

VAE的损失函数由两部分组成,缺一不可,分别实现“重构数据”和“让隐空间规律化”的目标:
LVAE=Lrecon(x,x^)+LKL(N(μ,σ2)∣∣N(0,I))\mathcal{L}_{VAE} = \mathcal{L}_{recon}(x, \hat{x}) + \mathcal{L}_{KL}(N(\mu, \sigma^2) || N(0, I))LVAE=Lrecon(x,x^)+LKL(N(μ,σ2)∣∣N(0,I))

  1. 重构损失Lrecon\mathcal{L}_{recon}Lrecon

    • 作用:让解码器生成的样本x^\hat{x}x^尽可能接近真实样本xxx,保证生成样本的真实性
    • 常用形式:连续数据(图像、语音)用均方误差(MSE),离散数据(文本)用交叉熵损失
  2. KL散度正则项LKL\mathcal{L}_{KL}LKL

    • 作用:约束编码器输出的高斯分布N(μ,σ2)N(\mu, \sigma^2)N(μ,σ2)尽可能接近标准高斯分布N(0,I)N(0, I)N(0,I),让隐空间的所有分布都连续、平滑地分布在原点周围,保证隐空间的规律性,从而实现随机采样;
    • KL散度:衡量两个概率分布的相似程度,值越小,两个分布越接近;VAE中KL散度有解析解,无需数值计算,降低了训练成本。
(3)VAE的生成过程(采样推理)

VAE的训练完成后,生成新样本的过程非常简单,只需两步,完全脱离真实数据:

  1. 随机采样隐向量:从标准高斯分布N(0,I)N(0, I)N(0,I)中随机采样一个低维的隐向量zzz
  2. 解码器生成样本:将采样的zzz输入到训练好的解码器中,解码器直接输出全新的生成样本x^\hat{x}x^

9.2.4 VAE的优缺点与经典变体

VAE是第一个稳定的深度学习生成模型,有扎实的理论基础,但也存在生成样本质量不高的问题,研究者在此基础上提出了多个经典变体,弥补了原始VAE的缺陷。

(1)原始VAE的核心优缺点
优点 缺点
训练极其稳定,无模式崩溃等问题 生成样本模糊、细节不足,因为重构损失追求“平均相似”,而非“精准还原”
理论基础扎实,结合变分推断和概率统计 生成多样性有限,对复杂数据分布的拟合能力较弱
隐空间连续平滑,支持插值生成(如人脸渐变) 仅适合生成低分辨率、简单的连续型数据(如手写数字、低清人脸)
(2)VAE的经典变体(解决核心缺陷,提升生成效果)
  1. 条件变分自编码器(CVAE)
    • 核心改进:在编码器和解码器的输入中加入标签/条件信息yyy,实现条件生成
    • 应用场景:生成指定类别的样本(如生成数字“5”的手写图片、生成黄色的玫瑰花),是VAE最常用的变体。
  2. 向量量化变分自编码器(VQ-VAE)
    • 核心改进:将连续的隐空间改为离散的隐空间,通过向量量化让隐向量更具表达能力,提升生成样本的细节和清晰度;
    • 优点:解决了原始VAE生成样本模糊的问题,能生成高分辨率图像;
    • 应用:结合自回归模型后,可用于图像、语音、文本的生成。
  3. 变分自编码器-生成对抗网络(VAEGAN)
    • 核心改进:将VAE的重构损失替换为GAN的判别器损失,结合VAE的训练稳定性和GAN的生成质量;
    • 优点:既保证隐空间的规律性,又能生成清晰、细节丰富的样本。

9.3 生成对抗网络(GAN):基于博弈论的生成模型

生成对抗网络(Generative Adversarial Network,GAN)是2014年由Goodfellow提出的生成模型,其核心思想并非基于概率统计,而是借鉴了博弈论中的“零和博弈”——让两个网络(生成器和判别器)相互对抗、共同训练,最终达到“纳什均衡”,此时生成器能生成以假乱真的样本,判别器无法区分真实样本和生成样本。

GAN的出现打破了VAE生成样本模糊的瓶颈,能生成清晰、细节丰富、真实感强的样本,成为生成模型的另一大主流方向,但其核心问题是训练不稳定,后续研究者提出了上百种变体,让GAN的训练变得稳定且生成效果不断提升。

9.3.1 GAN的核心思想:生成器与判别器的“零和博弈”

GAN的核心思想可以用一个通俗的例子理解:假币制造者(生成器)警察(判别器) 的相互博弈过程:

  1. 初始阶段:假币制造者造的假币很粗糙,警察能轻松分辨真假;
  2. 对抗阶段:假币制造者不断改进技术,造出更逼真的假币;警察也不断提升识别能力,努力区分真假币;
  3. 均衡阶段:假币制造者的技术达到极致,造出的假币和真币毫无区别,警察无法再区分真假,此时博弈达到平衡。

对应到GAN中,生成器(G) 就是“假币制造者”,负责生成样本;判别器(D) 就是“警察”,负责判断输入的样本是“真实样本(来自真实数据)”还是“生成样本(来自生成器)”;二者通过反向传播不断更新参数,相互对抗、共同进化,最终生成器能生成以假乱真的样本。

这种“零和博弈”的训练方式,让GAN无需拟合显式的概率分布,直接通过对抗学习隐式地拟合真实数据的分布,这也是GAN与VAE的核心区别。

9.3.2 GAN的基本结构与数学模型

原始GAN的结构极其简洁,仅由生成器G判别器D两个简单的神经网络组成,二者的目标相互对立,构成了GAN的损失函数。

(1)两个核心网络的功能
  1. 生成器(Generator, G)

    • 输入:低维的随机噪声zzz(通常来自标准高斯分布N(0,I)N(0, I)N(0,I));
    • 输出:与真实数据维度相同的生成样本G(z)G(z)G(z)
    • 核心目标:尽可能生成逼真的样本,让判别器无法区分,即让D(G(z))D(G(z))D(G(z))尽可能接近1(判别器将生成样本判断为真实样本的概率)。
  2. 判别器(Discriminator, D)

    • 输入:真实样本xxx(来自真实数据分布PdataP_{data}Pdata)或生成样本G(z)G(z)G(z)(来自生成器);
    • 输出:一个0~1之间的概率值D(x)D(x)D(x)/ D(G(z))D(G(z))D(G(z)),表示输入样本是真实样本的概率(1=确定是真实样本,0=确定是生成样本);
    • 核心目标:尽可能准确地区分真实样本和生成样本,即让D(x)D(x)D(x)尽可能接近1,D(G(z))D(G(z))D(G(z))尽可能接近0。
(2)GAN的损失函数:零和博弈的数学表达

GAN的损失函数是生成器损失判别器损失的结合,二者相互对立,构成零和博弈:
min⁡Gmax⁡DLGAN(G,D)=Ex∼Pdata[log⁡D(x)]+Ez∼Pz[log⁡(1−D(G(z)))]\min_G \max_D \mathcal{L}_{GAN}(G,D) = \mathbb{E}_{x\sim P_{data}}[\log D(x)] + \mathbb{E}_{z\sim P_z}[\log(1-D(G(z)))]GminDmaxLGAN(G,D)=ExPdata[logD(x)]+EzPz[log(1D(G(z)))]

  • 对判别器D:需要最大化损失函数,即让真实样本的log⁡D(x)\log D(x)logD(x)尽可能大,生成样本的log⁡(1−D(G(z)))\log(1-D(G(z)))log(1D(G(z)))尽可能大,实现精准区分;
  • 对生成器G:需要最小化损失函数,即让生成样本的log⁡(1−D(G(z)))\log(1-D(G(z)))log(1D(G(z)))尽可能小,也就是让D(G(z))D(G(z))D(G(z))尽可能接近1,实现以假乱真。

简化训练:实际训练中,为了让生成器的梯度更新更稳定,通常将生成器的损失改为Ez∼Pz[−log⁡D(G(z))]\mathbb{E}_{z\sim P_z}[-\log D(G(z))]EzPz[logD(G(z))],即让生成器直接最大化D(G(z))D(G(z))D(G(z)),效果与原始损失一致。

9.3.3 GAN的训练过程:交替训练,相互对抗

GAN的训练采用交替训练的方式,即先训练判别器D,再训练生成器G,反复迭代,直到二者达到纳什均衡,具体步骤如下(以小批量训练为例):

  1. 初始化:随机初始化生成器G和判别器D的参数;
  2. 训练判别器D
    • 从真实数据分布中采样一批真实样本xxx,从噪声分布中采样一批随机噪声zzz,生成一批生成样本G(z)G(z)G(z)
    • xxxG(z)G(z)G(z)输入判别器D,计算判别器损失,通过反向传播更新D的参数(最大化判别器损失);
    • 为了防止判别器过拟合,每次训练D时仅更新少量步数(通常1步)。
  3. 训练生成器G
    • 从噪声分布中采样一批新的随机噪声zzz,生成一批生成样本G(z)G(z)G(z)
    • G(z)G(z)G(z)输入判别器D,计算生成器损失,通过反向传播更新G的参数(最小化生成器损失);
    • 训练G时,固定D的参数,不做任何更新。
  4. 迭代:重复步骤2和步骤3,直到判别器无法区分真实样本和生成样本(D(x)≈D(G(z))≈0.5D(x) \approx D(G(z)) \approx 0.5D(x)D(G(z))0.5),停止训练。

9.3.4 原始GAN的核心问题:训练不稳定与模式崩溃

原始GAN的思想简洁且生成效果好,但训练极其困难,这也是其最核心的问题,主要体现在两个方面,也是后续GAN变体的主要改进方向:

  1. 训练不稳定,难以达到纳什均衡

    • 核心原因:生成器和判别器的能力匹配难度极高——如果判别器太弱,无法给生成器有效的梯度反馈,生成器无法进步;如果判别器太强,会让生成器的梯度消失,生成器停止更新;
    • 现象:训练过程中损失函数剧烈震荡,生成样本的质量忽高忽低,始终无法生成稳定的逼真样本。
  2. 模式崩溃(Mode Collapse)

    • 核心原因:生成器为了让判别器无法区分,会“偷懒”地只生成少数几种类型的、容易骗过判别器的样本,而忽略真实数据的多样性;
    • 现象:生成器只能生成有限的几种样本(比如生成人脸时,所有生成的人脸都长得几乎一样,只有发型不同),样本的多样性极差,无法覆盖真实数据的分布。

9.3.5 GAN的经典变体:解决训练问题,提升生成效果

为了解决原始GAN的训练不稳定和模式崩溃问题,研究者提出了上百种GAN变体,以下是工业界最主流、最实用的4种变体,分别解决了不同的问题,且覆盖了绝大多数生成任务:

  1. 深度卷积生成对抗网络(DCGAN)

    • 核心改进:将生成器和判别器都改为卷积神经网络(CNN),并制定了一系列网络设计准则(如用转置卷积上采样、用Leaky ReLU激活、去除全连接层等);
    • 核心贡献:让GAN首次能稳定地生成高分辨率的图像样本,是GAN从理论走向实际应用的关键,后续几乎所有GAN变体都基于DCGAN的网络结构;
    • 缺点:仍存在轻微的训练不稳定和模式崩溃问题。
  2. Wasserstein GAN(WGAN)

    • 核心改进:将GAN的损失函数从交叉熵损失改为Wasserstein距离(推土机距离),衡量真实数据分布和生成数据分布之间的距离;
    • 核心贡献:彻底解决了GAN的训练不稳定问题,损失函数的数值能直接反映生成样本的质量(损失越小,质量越高),而非原始GAN的损失震荡无意义;
    • 小改进:WGAN-GP(加入梯度惩罚),解决了WGAN中权重裁剪导致的模型表达能力下降问题,是目前最稳定的GAN损失函数。
  3. 条件生成对抗网络(CGAN)

    • 核心改进:在生成器和判别器的输入中加入标签/条件信息yyy,让GAN实现条件生成
    • 应用场景:生成指定类别的样本(如生成指定风格的油画、指定表情的人脸),是GAN最常用的变体之一,可与DCGAN、WGAN-GP结合使用。
  4. 风格生成对抗网络(StyleGAN)

    • 核心改进:基于WGAN-GP,提出风格调制随机噪声注入机制,让生成器能独立控制生成样本的全局风格(如脸型、肤色)和局部细节(如雀斑、皱纹)
    • 核心贡献:生成的样本真实感、细节、多样性均达到极致,是目前人脸、动漫等图像生成任务的SOTA模型
    • 应用:AI换脸、虚拟偶像生成、美妆设计等工业界核心场景。

9.4 扩散模型(Diffusion Model):基于逐步加噪与去噪的生成模型

扩散模型(Diffusion Model)是2015年提出、2020年后快速崛起的生成模型,其核心思想是模拟一个“逐步加噪”和“逐步去噪”的过程:先通过固定的步骤将真实样本逐步加噪变成随机噪声,再训练一个模型学习反向的去噪过程,最终通过从噪声开始逐步去噪,生成全新的真实样本。

扩散模型结合了VAE的训练稳定性和GAN的生成质量,既训练稳定、无模式崩溃,又能生成高分辨率、细节丰富、多样性强的样本,目前已成为生成模型的绝对主流,比如我们熟知的AI绘画工具Stable Diffusion、Midjourney、DALL·E 3,均基于扩散模型打造。

9.4.1 扩散模型的核心思想:正向加噪,反向去噪

扩散模型的核心逻辑非常直观,整个过程分为两个对称的阶段正向加噪过程(固定的、非训练的)和反向去噪过程(需要训练的、核心的),二者都是在**多个时间步ttt**中逐步完成的,这也是“扩散”的由来。

用一个通俗的例子理解:将一张清晰的照片(真实样本)逐步撒上越来越多的墨点,最终变成一张全黑的纸(随机噪声),这是正向加噪;训练一个模型学会从全黑的纸开始,逐步擦掉墨点,最终还原出一张清晰的新照片,这是反向去噪——扩散模型的生成过程,就是这个“擦墨点”的反向过程。

9.4.2 正向加噪过程:从真实样本到随机噪声(固定过程)

正向加噪过程是人为设计的、固定的、无需训练的过程,核心是TTT个时间步中,对真实样本逐步加入高斯噪声,让样本从清晰的真实数据,逐步变成完全的随机噪声,最终样本的分布趋近于标准高斯分布N(0,I)N(0, I)N(0,I)

核心数学表达

对于真实样本x0x_0x0(来自真实数据分布PdataP_{data}Pdata),在第ttt个时间步得到加噪样本xtx_txt,加噪过程满足马尔可夫链(当前加噪仅依赖上一个时间步的样本):
xt=αtxt−1+1−αtϵt,ϵt∼N(0,I)x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1-\alpha_t} \epsilon_t, \quad \epsilon_t \sim N(0, I)xt=αt xt1+1αt ϵt,ϵtN(0,I)
其中:

  • αt∈(0,1)\alpha_t \in (0,1)αt(0,1)噪声系数,预先设定且单调递减(时间步越大,αt\alpha_tαt越小,加入的噪声越多);
  • ϵt\epsilon_tϵt是第ttt步的高斯噪声,与样本无关;
  • 为了计算方便,通常定义αˉt=∏i=1tαi\bar{\alpha}_t = \prod_{i=1}^t \alpha_iαˉt=i=1tαi,则任意时间步ttt的加噪样本可直接由x0x_0x0计算:xt=αˉtx0+1−αˉtϵx_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilonxt=αˉt x0+1αˉt ϵ,无需逐步计算。
核心特点
  1. 加噪过程是可逆的:理论上,只要知道每一步的噪声,就能从xtx_txt还原出xt−1x_{t-1}xt1,这是反向去噪过程的基础;
  2. 加噪过程是固定的:所有参数(αt\alpha_tαtTTT)都预先设定,训练过程中不做任何修改;
  3. 最终状态:当时间步TTT足够大时(如T=1000T=1000T=1000),xTx_TxT几乎是纯随机噪声,分布趋近于N(0,I)N(0, I)N(0,I)

9.4.3 反向去噪过程:从随机噪声到真实样本(训练核心)

反向去噪过程是扩散模型的训练核心,是需要学习的、反向的马尔可夫链:模型需要学习从第TTT步的随机噪声xTx_TxT开始,逐步去除噪声,在TTT个时间步后,最终得到接近真实样本的生成样本x0x_0x0

由于正向加噪过程是高斯分布的线性变换,因此反向去噪过程的样本分布也服从高斯分布,即xt−1∼N(μθ(xt,t),σt2I)x_{t-1} \sim N(\mu_\theta(x_t, t), \sigma_t^2 I)xt1N(μθ(xt,t),σt2I),其中σt2\sigma_t^2σt2可预先设定,模型的核心训练目标就是学习高斯分布的均值μθ(xt,t)\mu_\theta(x_t, t)μθ(xt,t)(由神经网络θ\thetaθ拟合)。

为了简化训练,研究者将均值的学习转化为噪声预测——让模型直接预测正向加噪过程中加入的噪声ϵ\epsilonϵ,这是扩散模型最关键的简化技巧,也是目前所有扩散模型的训练方式。

9.4.4 扩散模型的训练过程:简单的噪声预测任务

扩散模型的训练过程极其简单,没有对抗、没有复杂的博弈,本质上是一个有监督的噪声预测回归任务,训练稳定且易于实现,这也是其能快速普及的核心原因,具体步骤如下:

  1. 超参数设定:设定总时间步TTT(通常取1000),预先生成所有时间步的噪声系数αt\alpha_tαtαˉt\bar{\alpha}_tαˉt
  2. 初始化:构建一个深度神经网络(如UNet,扩散模型的标配)作为去噪模型ϵθ\epsilon_\thetaϵθ,用于预测加噪样本中的噪声;
  3. 单步训练
    • 随机采样一个真实样本x0x_0x0,随机采样一个时间步t∈[1,T]t \in [1,T]t[1,T]
    • 随机采样一个高斯噪声ϵ∼N(0,I)\epsilon \sim N(0, I)ϵN(0,I),根据正向加噪公式计算ttt步的加噪样本xtx_txt
    • xtx_txt和时间步ttt输入去噪模型ϵθ\epsilon_\thetaϵθ,得到模型预测的噪声ϵθ(xt,t)\epsilon_\theta(x_t, t)ϵθ(xt,t)
    • 计算均方误差(MSE)损失L=∥ϵ−ϵθ(xt,t)∥22\mathcal{L} = \|\epsilon - \epsilon_\theta(x_t, t)\|_2^2L=ϵϵθ(xt,t)22,即让模型预测的噪声尽可能接近真实的加噪噪声;
    • 通过反向传播更新去噪模型ϵθ\epsilon_\thetaϵθ的参数。
  4. 迭代:重复步骤3,直到模型的损失收敛,完成训练。

核心总结:扩散模型的训练,本质上是让模型学会“看一张加噪的图片,找出里面加入的噪声并预测出来”,这个任务简单、稳定,无需复杂的调参,这是扩散模型相比GAN的最大优势。

9.4.5 扩散模型的生成过程:逐步去噪,从噪声到样本

扩散模型的训练完成后,生成新样本的过程就是反向去噪的逐步推理过程,从纯随机噪声开始,通过TTT步的去噪,最终生成真实样本,具体步骤如下:

  1. 初始化:从标准高斯分布N(0,I)N(0, I)N(0,I)中随机采样一个噪声样本xTx_TxT,作为反向去噪的起点;
  2. 逐步去噪:从时间步TTTt=1t=1t=1,依次对每个时间步的样本xtx_txt进行去噪,得到xt−1x_{t-1}xt1
    • xtx_txt和时间步ttt输入训练好的去噪模型ϵθ\epsilon_\thetaϵθ,预测出噪声ϵθ(xt,t)\epsilon_\theta(x_t, t)ϵθ(xt,t)
    • 根据反向去噪公式,由xtx_txt和预测的噪声计算出xt−1x_{t-1}xt1(加入少量随机噪声保证样本多样性);
  3. 生成结果:当完成所有TTT步的去噪后,得到x0x_0x0,这就是扩散模型生成的全新样本。

9.4.6 扩散模型的经典变体:提升采样速度,实现条件生成

原始扩散模型的生成效果极佳,但采样速度极慢(需要T=1000T=1000T=1000步的逐步去噪),且仅能实现无监督生成,研究者提出了多个经典变体,解决了这些问题,让扩散模型走向工业界应用,其中Stable Diffusion是最具代表性的变体。

(1)核心改进变体
  1. 快速采样变体(DDIM/DDPM)

    • 核心改进:DDPM是原始扩散模型的标准化实现,DDIM将反向去噪过程从随机过程改为确定性过程,能将采样步数从1000步大幅减少到50~100步,且几乎不损失生成质量;
    • 核心贡献:让扩散模型的采样速度提升10~20倍,为实际应用奠定基础。
  2. 条件扩散模型

    • 核心改进:在去噪模型的输入中加入条件信息(如图像标签、文本描述、参考图像),让扩散模型实现条件生成
    • 应用场景:AI绘画(根据文本描述生成图像)、图像修复(根据破损图像生成完整图像)、超分重建(根据低清图像生成高清图像),是扩散模型最核心的应用形式。
(2)工业界主流:Stable Diffusion(稳定扩散)

Stable Diffusion是2022年提出的扩散模型变体,是目前工业界应用最广泛的生成模型,核心改进是引入了潜空间扩散,解决了原始扩散模型“训练和采样成本高”的问题:

  • 核心改进:不在原始的像素空间进行加噪和去噪,而是先通过编码器将图像压缩到低维的潜空间,在潜空间中完成扩散过程,最后通过解码器将潜空间的样本还原为像素空间的图像;
  • 核心优势:潜空间的维度远低于像素空间,训练和采样的计算成本降低百倍以上,能在普通显卡上运行,实现平民化的AI绘画;
  • 应用:目前所有的AI绘画工具(如Stable Diffusion WebUI、Midjourney)均基于此改进。

9.4.7 扩散模型的优缺点

扩散模型是目前生成模型的主流,结合了VAE和GAN的所有优点,且几乎解决了二者的核心缺陷,仅存在采样速度的问题,后续的改进也主要围绕采样速度展开:

优点 缺点
训练极其稳定,无模式崩溃、梯度消失等问题 原始采样速度慢,需要数百至数千步的逐步去噪(可通过快速采样变体弥补)
生成样本质量极高,细节丰富、真实感强、多样性好 训练成本稍高,需要大量的计算资源训练去噪模型(如UNet)
支持任意形式的条件生成(文本、图像、标签),灵活性极强 生成过程的可解释性较弱,无法像VAE一样直观控制隐空间
网络结构通用(UNet),易于扩展到图像、文本、语音、视频等多领域 -

9.5 三大经典生成模型的对比与场景选择

VAE、GAN、扩散模型是深度学习中最经典的三大生成模型,分别代表了概率统计博弈论逐步去噪三种不同的生成思路,各有优缺点和适用场景。在实际应用中,选择生成模型的核心依据是生成任务的类型、对样本质量的要求、计算资源的限制,以下是三大模型的全面对比和实用选择准则。

9.5.1 三大生成模型的核心对比

对比维度 变分自编码器(VAE) 生成对抗网络(GAN) 扩散模型(Diffusion Model)
核心思想 概率统计+变分推断,拟合显式分布 博弈论+零和博弈,拟合隐式分布 逐步加噪/去噪,马尔可夫链拟合分布
训练稳定性 极高,无任何训练问题 低,易训练不稳定、模式崩溃 极高,无任何训练问题
生成样本质量 较低,样本模糊、细节不足 高,样本清晰、细节丰富 极高,样本超真实、细节拉满、多样性好
生成样本多样性 一般,对复杂分布拟合能力弱 较好(WGAN/StyleGAN后) 极好,能覆盖真实数据的全部分布
采样速度 极快,一步解码生成 极快,一步生成 中等(原始慢,快速采样后大幅提升)
条件生成能力 支持,实现简单(CVAE) 支持,实现简单(CGAN) 支持,灵活性极强(文本/图像/标签)
计算资源要求 低,可在普通设备上训练 中等,需要显卡训练 中高,训练需要大显存,采样可在普通设备上运行
理论基础 扎实,概率统计体系完整 较薄弱,缺乏严格的理论证明 扎实,马尔可夫链+概率统计
工业界应用成熟度 低,仅用于简单场景 中,用于人脸/动漫生成 极高,目前工业界的绝对主流

9.5.2 三大生成模型的实用选择准则

结合模型特点和工业界的应用实践,不同生成任务的模型选择准则如下,能覆盖99%的实际应用场景:

  1. 简单低维数据生成(如手写数字、低清语音、简单分子):选择VAE,训练成本低、速度快,能满足基本生成需求;
  2. 高分辨率图像生成(无复杂条件)(如人脸、动漫、风景):选择StyleGAN(GAN变体),生成速度极快,且能独立控制样本的风格和细节;
  3. 文本条件生成(AI绘画)图像修复/超分多模态生成:选择扩散模型(Stable Diffusion),这是目前的最优选择,生成质量和灵活性均为极致;
  4. 语音合成、文本生成:扩散模型(新方案)+ 自回归模型(传统方案),二者结合能实现高质量的序列生成;
  5. 计算资源有限,需要快速落地:选择VAE轻量版GAN,若对质量要求高,选择Stable Diffusion的轻量版
  6. 追求极致的生成质量,不计较计算成本:选择扩散模型

核心趋势:目前扩散模型正在逐步替代VAE和GAN,成为所有生成任务的主流模型,后续的研究和应用也将围绕扩散模型展开。

9.6 生成模型的扩展应用:从“单模态”到“多模态”

生成模型的发展,从最初的简单图像生成,逐步扩展到文本、语音、分子、视频等单模态生成,再到图文、音视频等多模态生成,目前已渗透到人工智能的各个领域,成为工业界和学术界的核心研究方向,以下是生成模型最主流的扩展应用,覆盖了目前的热点场景:

9.6.1 图像生成:生成模型的核心应用领域

图像生成是生成模型最成熟、应用最广泛的领域,也是生成模型发展的核心驱动力,主流应用包括:

  • 无条件图像生成:生成无指定条件的自然图像(如风景、动物、人脸),代表模型有StyleGAN、DDPM;
  • 文本到图像(AI绘画):根据文本描述生成对应的图像,代表模型有Stable Diffusion、DALL·E 3、Midjourney,是目前最火的AI应用;
  • 图像编辑/修复:对现有图像进行编辑(如换背景、改风格)、修复破损图像、去除水印,代表模型有Stable Diffusion Inpaint;
  • 图像超分:将低分辨率的图像生成为高分辨率的图像,代表模型有Real-ESRGAN(结合GAN)、DiffSR(结合扩散模型)。

9.6.2 文本生成:从自回归到扩散,更流畅的生成

文本生成是生成模型的另一大核心领域,传统的文本生成模型是自回归模型(如GPT),目前扩散模型也被广泛应用于文本生成,主流应用包括:

  • 开放式文本生成:生成流畅的自然语言文本(如小说、诗歌、文案),代表模型有GPT-4、LLaMA、文心一言;
  • 条件文本生成:根据指定条件生成文本(如机器翻译、文本摘要、问答),代表模型有Transformer、T5;
  • 代码生成:根据自然语言描述生成代码(如Python、Java),代表模型有GitHub Copilot、CodeLlama。

9.6.3 语音合成与语音生成

语音合成(TTS,文字转语音)是生成模型在语音领域的核心应用,目前已实现高自然度、高相似度的语音生成,主流应用包括:

  • 通用语音合成:将文字转换为自然的语音,支持多语种、多音色,代表模型有Tacotron 2(结合GAN)、DiffTTS(结合扩散模型);
  • 个性化语音合成:模仿指定人的音色、语气生成语音,即“语音克隆”,代表模型有VITS、DiffSVC;
  • 语音增强/修复:去除语音中的噪声、修复破损的语音,提升语音的清晰度。

9.6.4 多模态生成:生成模型的未来发展方向

多模态生成是指结合文本、图像、语音、视频等多种模态的信息,生成其中一种或多种模态的样本,是生成模型的未来发展方向,也是目前的研究热点,主流应用包括:

  • 图文互转:文本生成图像(AI绘画)、图像生成文本(图像字幕),代表模型有Stable Diffusion、BLIP;
  • 音视频生成:文本/图像生成语音、文本/图像生成视频,代表模型有Sora(OpenAI,文本生成视频)、AudioLM(谷歌,文本生成语音);
  • 多模态对话:结合文本、图像、语音的智能对话,如ChatGPT+Stable Diffusion的组合,能根据文本描述生成图像并进行对话。

9.6.5 专业领域生成:解决工业界实际问题

生成模型不仅在民用领域大放异彩,还在生物、化学、医药、工业设计等专业领域解决了实际问题,实现了从“实验室”到“工业界”的落地:

  • 分子/药物生成:生成具有指定属性的分子结构,用于新药研发,代表模型有VAE-GAN、DiffMol;
  • 工业设计生成:生成产品设计图、建筑设计图,辅助设计师进行创作,代表模型有Stable Diffusion Design;
  • 遥感图像生成:生成模拟的遥感卫星图像,用于地理勘探、气象预测,代表模型有GAN+CNN的组合。

9.7 总结

生成模型是深度学习从“分析数据”走向“创造数据”的核心分支,其核心目标是学习真实数据的概率分布并生成全新的相似样本,本章讲解的VAE、GAN、扩散模型是生成模型的三大经典代表,分别代表了不同的设计思路,推动了生成模型的发展。

核心要点

  1. 生成模型与判别模型的核心区别是学习目标:判别模型学习P(y∣x)P(y|x)P(yx)(输入到输出的映射),生成模型学习P(x)P(x)P(x)(数据的分布),生成模型可利用无标注数据,核心能力是创造新样本;
  2. VAE是基于概率统计和自编码的生成模型,核心改进是让隐空间成为有规律的概率分布,训练稳定但生成样本模糊,适合简单低维数据生成;
  3. GAN是基于博弈论的生成模型,通过生成器和判别器的零和博弈实现生成,生成样本清晰但训练不稳定,StyleGAN是其极致变体,适合人脸/动漫等图像生成;
  4. 扩散模型是基于逐步加噪和去噪的生成模型,核心是训练噪声预测任务,结合了VAE的训练稳定性和GAN的生成质量,是目前的绝对主流,Stable Diffusion是其工业界核心变体,适合AI绘画、多模态生成等所有场景;
  5. 生成模型的评价结合客观指标(FID/IS/PPL)和主观人工评估,核心衡量维度是真实性多样性
  6. 生成模型的应用从单模态(图像、文本、语音)扩展到多模态(图文、音视频),并逐步落地到生物、医药、工业设计等专业领域,是深度学习的未来发展方向。

深入阅读推荐

  • 想掌握VAE理论:VAE原始论文《Auto-Encoding Variational Bayes》;
  • 想掌握GAN理论:GAN原始论文《Generative Adversarial Networks》、WGAN-GP论文《Improved Training of Wasserstein GANs》;
  • 想掌握扩散模型理论:DDPM原始论文《Denoising Diffusion Probabilistic Models》、Stable Diffusion论文《High-Resolution Image Synthesis with Latent Diffusion Models》;
  • 想学习实践应用:Stable Diffusion WebUI官方文档、Hugging Face Diffusers库(一站式调用所有扩散模型);
  • 想了解生成模型前沿:OpenAI Sora论文、DALL·E 3论文、StyleGAN3论文。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐