第9章深度学习的生成模型

维度判别模型生成模型学习目标条件概率Py∣xP(y|x)Py∣x边缘概率PxP(x)Px/联合概率PxyP(x,y)Pxy核心能力判断、分类、转换生成全新的真实样例数据利用主要依赖标注数据可利用无标注数据（核心优势）典型任务图像分类、文本翻译、问答AI绘画、语音合成、分子生成。

在外追梦的打工人

631人浏览 · 2026-02-14 10:29:31

在外追梦的打工人 · 2026-02-14 10:29:31 发布

第9章深度学习的生成模型

前面章节学习的CNN、RNN、Transformer等模型都属于判别模型——核心是学习输入到输出的映射关系（如输入图像判断类别、输入文本做翻译），解决的是分类、回归、序列转换等任务。而生成模型是深度学习的另一大核心分支，其核心目标是学习真实数据的概率分布，并能从这个分布中采样生成全新的、与真实数据高度相似的样本。

简单来说，判别模型是“判断数据是什么”，生成模型是“创造和真实数据一样的新数据”。生成模型的出现让人工智能从“分析数据”走向“创造数据”，目前已广泛应用于AI绘画、文本生成、语音合成、分子设计、视频生成等领域，是当下深度学习的研究和应用热点。

本章将从生成模型的基础认知入手，先区分判别模型与生成模型的核心差异，再依次讲解目前最经典的三大生成模型：变分自编码器（VAE）、生成对抗网络（GAN）、扩散模型（Diffusion Model），包括它们的核心思想、模型结构、训练过程、优缺点及经典变体，最后对比三大模型的适用场景并介绍生成模型的扩展应用，让本硕阶段的读者掌握生成模型的核心原理和应用逻辑。

9.1 生成模型的基础认知：从“判别”到“生成”

要理解生成模型，首先要明确其与判别模型的本质区别，掌握生成模型的核心任务和评价指标——这是学习所有生成模型的基础，能帮我们建立对生成模型的整体认知。

9.1.1 判别模型 vs 生成模型：核心差异在“学习目标”

判别模型和生成模型是机器学习的两大分类，二者的核心差异在于学习的目标函数不同，用概率公式能清晰区分，同时结合直观例子更易理解：

（1）判别模型：学习条件概率 $P (y ∣ x)$

核心目标：学习给定输入 $x$ ，输出标签 $y$ 的条件概率，即找到输入到输出的映射规律，不关心输入数据本身的分布；
通俗理解：教模型“认东西”，比如给模型看一张猫的图片，让它判断这是“猫”还是“狗”，模型只需要学会区分不同类别的特征，不用知道猫的图片整体长什么样；
典型代表：CNN（图像分类）、逻辑回归、SVM、RNN/Transformer（文本分类、翻译）。

（2）生成模型：学习边缘概率 $P (x)$ 或联合概率 $P (x, y)$

核心目标：学习输入数据 $x$ 本身的概率分布 $P (x)$ （无监督），或输入和标签的联合概率 $P (x, y)$ （有监督）；掌握数据的分布后，就能从分布中随机采样，生成全新的、符合真实规律的 $x$ ；
通俗理解：教模型“画东西”，比如让模型学习所有猫的图片的分布，学会后模型能凭空画出一张从未见过的、但和真实猫的图片高度相似的新图片；
典型代表：VAE、GAN、扩散模型、自回归语言模型（GPT）。

核心对比总结

维度	判别模型	生成模型
学习目标	条件概率 $P (y ∣ x)$	边缘概率 $P (x)$ /联合概率 $P (x, y)$
核心能力	判断、分类、转换	生成全新的真实样例
数据利用	主要依赖标注数据	可利用无标注数据（核心优势）
典型任务	图像分类、文本翻译、问答	AI绘画、语音合成、分子生成

9.1.2 生成模型的两大核心任务

所有生成模型的设计和训练，都是为了完成两个核心任务，二者是递进关系：

拟合数据分布：这是生成模型的基础任务。模型需要从海量的真实数据中，学习到数据的底层概率分布规律——比如人脸图片的分布包含“眼睛在上方、鼻子在中间、嘴巴在下方”“不同肤色、发型、五官的组合规律”等；
采样生成样本：这是生成模型的最终任务。当模型成功拟合真实数据的分布后，只需从这个分布中随机“抽取”一个样本，就能生成全新的、与真实数据相似的样本。采样的过程越简单、生成的样本质量越高，模型的效果越好。

9.1.3 生成模型的核心评价指标

生成模型的评价比判别模型更复杂，因为“生成的样本好不好”不仅有客观指标，还有主观的视觉/语义感受，目前工业界和学术界常用客观量化指标结合主观人工评估的方式，以下是最主流的三大客观评价指标，主要适用于图像生成任务：

初始得分（IS, Inception Score）
- 核心思路：基于预训练的图像分类模型（Inception v3），衡量生成样本的多样性和真实性——真实性越高（模型能准确分类）、多样性越高（分类结果分布越均匀），IS值越高；
- 缺点：对样本多样性的衡量不够全面，容易被模型“欺骗”（比如生成模糊但能被分类的样本）。
弗雷歇距离（FID, Fréchet Inception Distance）
- 核心思路：计算真实样本和生成样本在预训练模型特征空间中的高斯分布距离，距离越小，说明二者的分布越接近，生成样本的质量越高；
- 优点：比IS更贴合人类的主观感受，是目前图像生成任务的主流评价指标；
- 缺点：计算成本稍高，对小批量样本的评估结果不稳定。
感知路径长度（PPL, Perceptual Path Length）
- 核心思路：衡量生成样本在连续插值过程中的平滑度，PPL值越小，说明样本的连续变化越自然，模型对数据分布的拟合越平滑；
- 适用场景：主要用于评估人脸、动漫等需要连续生成的任务（比如从一张人脸平滑过渡到另一张）。

补充：对于文本、语音等生成任务，有专属的评价指标（如文本的BLEU/ROUGE、语音的MOS分），核心逻辑均为“衡量生成样本与真实样本的相似度+多样性”。

9.2 变分自编码器（VAE）：基于概率与自编码的生成模型

变分自编码器（Variational Autoencoder，VAE）是2013年提出的生成模型，是自编码器与概率统计、变分推断结合的产物，也是第一个能稳定生成连续型数据的深度学习生成模型。VAE解决了传统自编码器“无法采样生成”的问题，为生成模型的发展奠定了基础，其核心优势是训练稳定、理论基础扎实，适合生成图像、语音等连续型数据。

9.2.1 先搞懂：传统自编码器的结构与缺陷

VAE是在传统自编码器（AE） 的基础上改进而来，先理解自编码器的核心结构，才能明白VAE的改进思路：

（1）传统自编码器的核心结构

自编码器是一种无监督的神经网络，由编码器（Encoder） 和解码器（Decoder） 两部分组成，核心是数据的压缩与重构：

编码器：将高维的输入数据（如28×28的手写数字图片，784维）压缩为低维的隐向量（Latent Vector）（如10维），实现数据的特征提取和降维；
解码器：将低维的隐向量还原为和输入维度相同的重构数据，尽可能让重构数据与原始输入一致。
训练目标：最小化输入数据和重构数据的均方误差（MSE），让模型学会提取数据的核心特征。

（2）传统自编码器的核心缺陷

自编码器能完成数据的降维和重构，但无法作为生成模型使用，核心缺陷有两个：

隐空间无规律：编码器输出的隐向量是固定的确定值，且不同样本的隐向量在隐空间中分布混乱、无连续的规律，无法通过随机采样隐向量生成新样本；
仅能重构，无法生成：解码器只能还原编码器压缩的隐向量，无法对随机的隐向量进行有效解码，即使人为生成一个隐向量，解码后得到的也是无意义的噪声。

简单来说，传统自编码器是“一对一的压缩重构”，而生成模型需要“从分布中采样的一对多生成”，这是二者的本质矛盾。

9.2.2 VAE的核心改进：让隐空间变成“有规律的概率分布”

VAE对传统自编码器的唯一核心改进，就是将编码器的输出从固定的隐向量，改为一个概率分布（通常是高斯分布）的均值和方差——让每个输入样本对应隐空间中的一个高斯分布，而非一个单点，从而让隐空间变得连续、平滑、有规律，实现随机采样生成。

这个改进看似简单，却结合了变分推断的数学理论，让模型能通过反向传播稳定训练，也是VAE名称中“变分”的由来。

9.2.3 VAE的模型结构与训练过程

VAE的结构仍由编码器和解码器组成，但二者的功能和输出与传统自编码器完全不同，训练目标也增加了隐空间正则项，整体结构清晰且训练稳定。

（1）核心结构拆解

编码器（变分编码器）
- 输入：高维真实数据 $x$ （如手写数字图片）；
- 输出：隐空间中高斯分布的均值 $μ(x)\mu(x)$ 和方差 $σ2(x)\sigma^2(x)$ （而非固定隐向量），即每个输入 $x$ 对应隐空间中的一个高斯分布 $N(μ(x),σ2(x)I)N(\mu(x), \sigma^2(x)I)$ ；
- 核心作用：学习从真实数据到隐空间概率分布的映射。
重参数化技巧（Reparameterization Trick）
- 核心问题：如果直接从 $N(μ(x),σ2(x)I)N(\mu(x), \sigma^2(x)I)$ 中采样得到隐向量 $z$ ，采样过程是随机的、不可微的，无法通过反向传播训练模型；
- 解决方法：重参数化——将采样过程拆分为确定的线性变换+随机的标准高斯采样，让采样过程可微；
- 公式： $\mu(x) + \sigma(x) \odot \epsilon$ ，其中 $ϵ∼N(0,I)\epsilon \sim N(0, I)$ 是从标准高斯分布中采样的随机噪声， $⊙\odot$ 是元素级乘法。
- 核心作用：让VAE的整个训练过程可微，实现反向传播优化。
解码器（生成器）
- 输入：通过重参数化得到的隐向量 $z$ ；
- 输出：与输入数据维度相同的生成样本 $x^\hat{x}$ ，并让生成样本服从真实数据的分布；
- 核心作用：学习从隐空间的概率分布到真实数据分布的映射。

（2）VAE的训练目标：重构损失 + 隐空间正则项

VAE的损失函数由两部分组成，缺一不可，分别实现“重构数据”和“让隐空间规律化”的目标：
$LVAE=Lrecon(x,x^)+LKL(N(μ,σ2)∣∣N(0,I))\mathcal{L}_{VAE} = \mathcal{L}_{recon}(x, \hat{x}) + \mathcal{L}_{KL}(N(\mu, \sigma^2) || N(0, I))$

重构损失 $Lrecon\mathcal{L}_{recon}$
- 作用：让解码器生成的样本 $x^\hat{x}$ 尽可能接近真实样本 $x$ ，保证生成样本的真实性；
- 常用形式：连续数据（图像、语音）用均方误差（MSE），离散数据（文本）用交叉熵损失。
KL散度正则项 $LKL\mathcal{L}_{KL}$
- 作用：约束编码器输出的高斯分布 $N(μ,σ2)N(\mu, \sigma^2)$ 尽可能接近标准高斯分布 $N (0, I)$ ，让隐空间的所有分布都连续、平滑地分布在原点周围，保证隐空间的规律性，从而实现随机采样；
- KL散度：衡量两个概率分布的相似程度，值越小，两个分布越接近；VAE中KL散度有解析解，无需数值计算，降低了训练成本。

（3）VAE的生成过程（采样推理）

VAE的训练完成后，生成新样本的过程非常简单，只需两步，完全脱离真实数据：

随机采样隐向量：从标准高斯分布 $N (0, I)$ 中随机采样一个低维的隐向量 $z$ ；
解码器生成样本：将采样的 $z$ 输入到训练好的解码器中，解码器直接输出全新的生成样本 $x^\hat{x}$ 。

9.2.4 VAE的优缺点与经典变体

VAE是第一个稳定的深度学习生成模型，有扎实的理论基础，但也存在生成样本质量不高的问题，研究者在此基础上提出了多个经典变体，弥补了原始VAE的缺陷。

（1）原始VAE的核心优缺点

优点	缺点
训练极其稳定，无模式崩溃等问题	生成样本模糊、细节不足，因为重构损失追求“平均相似”，而非“精准还原”
理论基础扎实，结合变分推断和概率统计	生成多样性有限，对复杂数据分布的拟合能力较弱
隐空间连续平滑，支持插值生成（如人脸渐变）	仅适合生成低分辨率、简单的连续型数据（如手写数字、低清人脸）

（2）VAE的经典变体（解决核心缺陷，提升生成效果）

条件变分自编码器（CVAE）
- 核心改进：在编码器和解码器的输入中加入标签/条件信息 $y$ ，实现条件生成；
- 应用场景：生成指定类别的样本（如生成数字“5”的手写图片、生成黄色的玫瑰花），是VAE最常用的变体。
向量量化变分自编码器（VQ-VAE）
- 核心改进：将连续的隐空间改为离散的隐空间，通过向量量化让隐向量更具表达能力，提升生成样本的细节和清晰度；
- 优点：解决了原始VAE生成样本模糊的问题，能生成高分辨率图像；
- 应用：结合自回归模型后，可用于图像、语音、文本的生成。
变分自编码器-生成对抗网络（VAEGAN）
- 核心改进：将VAE的重构损失替换为GAN的判别器损失，结合VAE的训练稳定性和GAN的生成质量；
- 优点：既保证隐空间的规律性，又能生成清晰、细节丰富的样本。

9.3 生成对抗网络（GAN）：基于博弈论的生成模型

生成对抗网络（Generative Adversarial Network，GAN）是2014年由Goodfellow提出的生成模型，其核心思想并非基于概率统计，而是借鉴了博弈论中的“零和博弈”——让两个网络（生成器和判别器）相互对抗、共同训练，最终达到“纳什均衡”，此时生成器能生成以假乱真的样本，判别器无法区分真实样本和生成样本。

GAN的出现打破了VAE生成样本模糊的瓶颈，能生成清晰、细节丰富、真实感强的样本，成为生成模型的另一大主流方向，但其核心问题是训练不稳定，后续研究者提出了上百种变体，让GAN的训练变得稳定且生成效果不断提升。

9.3.1 GAN的核心思想：生成器与判别器的“零和博弈”

GAN的核心思想可以用一个通俗的例子理解：假币制造者（生成器） 和警察（判别器） 的相互博弈过程：

初始阶段：假币制造者造的假币很粗糙，警察能轻松分辨真假；
对抗阶段：假币制造者不断改进技术，造出更逼真的假币；警察也不断提升识别能力，努力区分真假币；
均衡阶段：假币制造者的技术达到极致，造出的假币和真币毫无区别，警察无法再区分真假，此时博弈达到平衡。

对应到GAN中，生成器（G） 就是“假币制造者”，负责生成样本；判别器（D） 就是“警察”，负责判断输入的样本是“真实样本（来自真实数据）”还是“生成样本（来自生成器）”；二者通过反向传播不断更新参数，相互对抗、共同进化，最终生成器能生成以假乱真的样本。

这种“零和博弈”的训练方式，让GAN无需拟合显式的概率分布，直接通过对抗学习隐式地拟合真实数据的分布，这也是GAN与VAE的核心区别。

9.3.2 GAN的基本结构与数学模型

原始GAN的结构极其简洁，仅由生成器G和判别器D两个简单的神经网络组成，二者的目标相互对立，构成了GAN的损失函数。

（1）两个核心网络的功能

生成器（Generator, G）
- 输入：低维的随机噪声 $z$ （通常来自标准高斯分布 $N (0, I)$ ）；
- 输出：与真实数据维度相同的生成样本 $G (z)$ ；
- 核心目标：尽可能生成逼真的样本，让判别器无法区分，即让 $D (G (z))$ 尽可能接近1（判别器将生成样本判断为真实样本的概率）。
判别器（Discriminator, D）
- 输入：真实样本 $x$ （来自真实数据分布 $P_{data}$ ）或生成样本 $G (z)$ （来自生成器）；
- 输出：一个0~1之间的概率值 $D (x)$ / $D (G (z))$ ，表示输入样本是真实样本的概率（1=确定是真实样本，0=确定是生成样本）；
- 核心目标：尽可能准确地区分真实样本和生成样本，即让 $D (x)$ 尽可能接近1， $D (G (z))$ 尽可能接近0。

（2）GAN的损失函数：零和博弈的数学表达

GAN的损失函数是生成器损失和判别器损失的结合，二者相互对立，构成零和博弈：
$min⁡Gmax⁡DLGAN(G,D)=Ex∼Pdata[log⁡D(x)]+Ez∼Pz[log⁡(1−D(G(z)))]\min_G \max_D \mathcal{L}_{GAN}(G,D) = \mathbb{E}_{x\sim P_{data}}[\log D(x)] + \mathbb{E}_{z\sim P_z}[\log(1-D(G(z)))]$

对判别器D：需要最大化损失函数，即让真实样本的 $log⁡D(x)\log D(x)$ 尽可能大，生成样本的 $log⁡(1−D(G(z)))\log(1-D(G(z)))$ 尽可能大，实现精准区分；
对生成器G：需要最小化损失函数，即让生成样本的 $log⁡(1−D(G(z)))\log(1-D(G(z)))$ 尽可能小，也就是让 $D (G (z))$ 尽可能接近1，实现以假乱真。

简化训练：实际训练中，为了让生成器的梯度更新更稳定，通常将生成器的损失改为 $Ez∼Pz[−log⁡D(G(z))]\mathbb{E}_{z\sim P_z}[-\log D(G(z))]$ ，即让生成器直接最大化 $D (G (z))$ ，效果与原始损失一致。

9.3.3 GAN的训练过程：交替训练，相互对抗

GAN的训练采用交替训练的方式，即先训练判别器D，再训练生成器G，反复迭代，直到二者达到纳什均衡，具体步骤如下（以小批量训练为例）：

初始化：随机初始化生成器G和判别器D的参数；
训练判别器D：
- 从真实数据分布中采样一批真实样本 $x$ ，从噪声分布中采样一批随机噪声 $z$ ，生成一批生成样本 $G (z)$ ；
- 将 $x$ 和 $G (z)$ 输入判别器D，计算判别器损失，通过反向传播更新D的参数（最大化判别器损失）；
- 为了防止判别器过拟合，每次训练D时仅更新少量步数（通常1步）。
训练生成器G：
- 从噪声分布中采样一批新的随机噪声 $z$ ，生成一批生成样本 $G (z)$ ；
- 将 $G (z)$ 输入判别器D，计算生成器损失，通过反向传播更新G的参数（最小化生成器损失）；
- 训练G时，固定D的参数，不做任何更新。
迭代：重复步骤2和步骤3，直到判别器无法区分真实样本和生成样本（ $\approx D(G(z)) \approx 0.5$ ），停止训练。

9.3.4 原始GAN的核心问题：训练不稳定与模式崩溃

原始GAN的思想简洁且生成效果好，但训练极其困难，这也是其最核心的问题，主要体现在两个方面，也是后续GAN变体的主要改进方向：

训练不稳定，难以达到纳什均衡
- 核心原因：生成器和判别器的能力匹配难度极高——如果判别器太弱，无法给生成器有效的梯度反馈，生成器无法进步；如果判别器太强，会让生成器的梯度消失，生成器停止更新；
- 现象：训练过程中损失函数剧烈震荡，生成样本的质量忽高忽低，始终无法生成稳定的逼真样本。
模式崩溃（Mode Collapse）
- 核心原因：生成器为了让判别器无法区分，会“偷懒”地只生成少数几种类型的、容易骗过判别器的样本，而忽略真实数据的多样性；
- 现象：生成器只能生成有限的几种样本（比如生成人脸时，所有生成的人脸都长得几乎一样，只有发型不同），样本的多样性极差，无法覆盖真实数据的分布。

9.3.5 GAN的经典变体：解决训练问题，提升生成效果

为了解决原始GAN的训练不稳定和模式崩溃问题，研究者提出了上百种GAN变体，以下是工业界最主流、最实用的4种变体，分别解决了不同的问题，且覆盖了绝大多数生成任务：

深度卷积生成对抗网络（DCGAN）
- 核心改进：将生成器和判别器都改为卷积神经网络（CNN），并制定了一系列网络设计准则（如用转置卷积上采样、用Leaky ReLU激活、去除全连接层等）；
- 核心贡献：让GAN首次能稳定地生成高分辨率的图像样本，是GAN从理论走向实际应用的关键，后续几乎所有GAN变体都基于DCGAN的网络结构；
- 缺点：仍存在轻微的训练不稳定和模式崩溃问题。
Wasserstein GAN（WGAN）
- 核心改进：将GAN的损失函数从交叉熵损失改为Wasserstein距离（推土机距离），衡量真实数据分布和生成数据分布之间的距离；
- 核心贡献：彻底解决了GAN的训练不稳定问题，损失函数的数值能直接反映生成样本的质量（损失越小，质量越高），而非原始GAN的损失震荡无意义；
- 小改进：WGAN-GP（加入梯度惩罚），解决了WGAN中权重裁剪导致的模型表达能力下降问题，是目前最稳定的GAN损失函数。
条件生成对抗网络（CGAN）
- 核心改进：在生成器和判别器的输入中加入标签/条件信息 $y$ ，让GAN实现条件生成；
- 应用场景：生成指定类别的样本（如生成指定风格的油画、指定表情的人脸），是GAN最常用的变体之一，可与DCGAN、WGAN-GP结合使用。
风格生成对抗网络（StyleGAN）
- 核心改进：基于WGAN-GP，提出风格调制和随机噪声注入机制，让生成器能独立控制生成样本的全局风格（如脸型、肤色）和局部细节（如雀斑、皱纹）；
- 核心贡献：生成的样本真实感、细节、多样性均达到极致，是目前人脸、动漫等图像生成任务的SOTA模型；
- 应用：AI换脸、虚拟偶像生成、美妆设计等工业界核心场景。

9.4 扩散模型（Diffusion Model）：基于逐步加噪与去噪的生成模型

扩散模型（Diffusion Model）是2015年提出、2020年后快速崛起的生成模型，其核心思想是模拟一个“逐步加噪”和“逐步去噪”的过程：先通过固定的步骤将真实样本逐步加噪变成随机噪声，再训练一个模型学习反向的去噪过程，最终通过从噪声开始逐步去噪，生成全新的真实样本。

扩散模型结合了VAE的训练稳定性和GAN的生成质量，既训练稳定、无模式崩溃，又能生成高分辨率、细节丰富、多样性强的样本，目前已成为生成模型的绝对主流，比如我们熟知的AI绘画工具Stable Diffusion、Midjourney、DALL·E 3，均基于扩散模型打造。

9.4.1 扩散模型的核心思想：正向加噪，反向去噪

扩散模型的核心逻辑非常直观，整个过程分为两个对称的阶段：正向加噪过程（固定的、非训练的）和反向去噪过程（需要训练的、核心的），二者都是在**多个时间步 $t$ **中逐步完成的，这也是“扩散”的由来。

用一个通俗的例子理解：将一张清晰的照片（真实样本）逐步撒上越来越多的墨点，最终变成一张全黑的纸（随机噪声），这是正向加噪；训练一个模型学会从全黑的纸开始，逐步擦掉墨点，最终还原出一张清晰的新照片，这是反向去噪——扩散模型的生成过程，就是这个“擦墨点”的反向过程。

9.4.2 正向加噪过程：从真实样本到随机噪声（固定过程）

正向加噪过程是人为设计的、固定的、无需训练的过程，核心是在 $T$ 个时间步中，对真实样本逐步加入高斯噪声，让样本从清晰的真实数据，逐步变成完全的随机噪声，最终样本的分布趋近于标准高斯分布 $N (0, I)$ 。

核心数学表达

对于真实样本 $x_0$ （来自真实数据分布 $P_{data}$ ），在第 $t$ 个时间步得到加噪样本 $x_t$ ，加噪过程满足马尔可夫链（当前加噪仅依赖上一个时间步的样本）：
$xt=αtxt−1+1−αtϵt,ϵt∼N(0,I)x_t = \sqrt{\alpha_t} x_{t-1} + \sqrt{1-\alpha_t} \epsilon_t, \quad \epsilon_t \sim N(0, I)$
其中：

$αt∈(0,1)\alpha_t \in (0,1)$ 是噪声系数，预先设定且单调递减（时间步越大， $αt\alpha_t$ 越小，加入的噪声越多）；
$ϵt\epsilon_t$ 是第 $t$ 步的高斯噪声，与样本无关；
为了计算方便，通常定义 $αˉt=∏i=1tαi\bar{\alpha}_t = \prod_{i=1}^t \alpha_i$ ，则任意时间步 $t$ 的加噪样本可直接由 $x_0$ 计算： $xt=αˉtx0+1−αˉtϵx_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$ ，无需逐步计算。

核心特点

加噪过程是可逆的：理论上，只要知道每一步的噪声，就能从 $x_t$ 还原出 $x_{t-1}$ ，这是反向去噪过程的基础；
加噪过程是固定的：所有参数（ $αt\alpha_t$ 、 $T$ ）都预先设定，训练过程中不做任何修改；
最终状态：当时间步 $T$ 足够大时（如 $T = 1000$ ）， $x_T$ 几乎是纯随机噪声，分布趋近于 $N (0, I)$ 。

9.4.3 反向去噪过程：从随机噪声到真实样本（训练核心）

反向去噪过程是扩散模型的训练核心，是需要学习的、反向的马尔可夫链：模型需要学习从第 $T$ 步的随机噪声 $x_T$ 开始，逐步去除噪声，在 $T$ 个时间步后，最终得到接近真实样本的生成样本 $x_0$ 。

由于正向加噪过程是高斯分布的线性变换，因此反向去噪过程的样本分布也服从高斯分布，即 $xt−1∼N(μθ(xt,t),σt2I)x_{t-1} \sim N(\mu_\theta(x_t, t), \sigma_t^2 I)$ ，其中 $σt2\sigma_t^2$ 可预先设定，模型的核心训练目标就是学习高斯分布的均值 $μθ(xt,t)\mu_\theta(x_t, t)$ （由神经网络 $θ\theta$ 拟合）。

为了简化训练，研究者将均值的学习转化为噪声预测——让模型直接预测正向加噪过程中加入的噪声 $ϵ\epsilon$ ，这是扩散模型最关键的简化技巧，也是目前所有扩散模型的训练方式。

9.4.4 扩散模型的训练过程：简单的噪声预测任务

扩散模型的训练过程极其简单，没有对抗、没有复杂的博弈，本质上是一个有监督的噪声预测回归任务，训练稳定且易于实现，这也是其能快速普及的核心原因，具体步骤如下：

超参数设定：设定总时间步 $T$ （通常取1000），预先生成所有时间步的噪声系数 $αt\alpha_t$ 、 $αˉt\bar{\alpha}_t$ ；
初始化：构建一个深度神经网络（如UNet，扩散模型的标配）作为去噪模型 $ϵθ\epsilon_\theta$ ，用于预测加噪样本中的噪声；
单步训练：
- 随机采样一个真实样本 $x_0$ ，随机采样一个时间步 $\in [1,T]$ ；
- 随机采样一个高斯噪声 $ϵ∼N(0,I)\epsilon \sim N(0, I)$ ，根据正向加噪公式计算 $t$ 步的加噪样本 $x_t$ ；
- 将 $x_t$ 和时间步 $t$ 输入去噪模型 $ϵθ\epsilon_\theta$ ，得到模型预测的噪声 $ϵθ(xt,t)\epsilon_\theta(x_t, t)$ ；
- 计算均方误差（MSE）损失： $L=∥ϵ−ϵθ(xt,t)∥22\mathcal{L} = \|\epsilon - \epsilon_\theta(x_t, t)\|_2^2$ ，即让模型预测的噪声尽可能接近真实的加噪噪声；
- 通过反向传播更新去噪模型 $ϵθ\epsilon_\theta$ 的参数。
迭代：重复步骤3，直到模型的损失收敛，完成训练。

核心总结：扩散模型的训练，本质上是让模型学会“看一张加噪的图片，找出里面加入的噪声并预测出来”，这个任务简单、稳定，无需复杂的调参，这是扩散模型相比GAN的最大优势。

9.4.5 扩散模型的生成过程：逐步去噪，从噪声到样本

扩散模型的训练完成后，生成新样本的过程就是反向去噪的逐步推理过程，从纯随机噪声开始，通过 $T$ 步的去噪，最终生成真实样本，具体步骤如下：

初始化：从标准高斯分布 $N (0, I)$ 中随机采样一个噪声样本 $x_T$ ，作为反向去噪的起点；
逐步去噪：从时间步 $T$ 到 $t = 1$ ，依次对每个时间步的样本 $x_t$ 进行去噪，得到 $x_{t-1}$ ：
- 将 $x_t$ 和时间步 $t$ 输入训练好的去噪模型 $ϵθ\epsilon_\theta$ ，预测出噪声 $ϵθ(xt,t)\epsilon_\theta(x_t, t)$ ；
- 根据反向去噪公式，由 $x_t$ 和预测的噪声计算出 $x_{t-1}$ （加入少量随机噪声保证样本多样性）；
生成结果：当完成所有 $T$ 步的去噪后，得到 $x_0$ ，这就是扩散模型生成的全新样本。

9.4.6 扩散模型的经典变体：提升采样速度，实现条件生成

原始扩散模型的生成效果极佳，但采样速度极慢（需要 $T = 1000$ 步的逐步去噪），且仅能实现无监督生成，研究者提出了多个经典变体，解决了这些问题，让扩散模型走向工业界应用，其中Stable Diffusion是最具代表性的变体。

（1）核心改进变体

快速采样变体（DDIM/DDPM）
- 核心改进：DDPM是原始扩散模型的标准化实现，DDIM将反向去噪过程从随机过程改为确定性过程，能将采样步数从1000步大幅减少到50~100步，且几乎不损失生成质量；
- 核心贡献：让扩散模型的采样速度提升10~20倍，为实际应用奠定基础。
条件扩散模型
- 核心改进：在去噪模型的输入中加入条件信息（如图像标签、文本描述、参考图像），让扩散模型实现条件生成；
- 应用场景：AI绘画（根据文本描述生成图像）、图像修复（根据破损图像生成完整图像）、超分重建（根据低清图像生成高清图像），是扩散模型最核心的应用形式。

（2）工业界主流：Stable Diffusion（稳定扩散）

Stable Diffusion是2022年提出的扩散模型变体，是目前工业界应用最广泛的生成模型，核心改进是引入了潜空间扩散，解决了原始扩散模型“训练和采样成本高”的问题：

核心改进：不在原始的像素空间进行加噪和去噪，而是先通过编码器将图像压缩到低维的潜空间，在潜空间中完成扩散过程，最后通过解码器将潜空间的样本还原为像素空间的图像；
核心优势：潜空间的维度远低于像素空间，训练和采样的计算成本降低百倍以上，能在普通显卡上运行，实现平民化的AI绘画；
应用：目前所有的AI绘画工具（如Stable Diffusion WebUI、Midjourney）均基于此改进。

9.4.7 扩散模型的优缺点

扩散模型是目前生成模型的主流，结合了VAE和GAN的所有优点，且几乎解决了二者的核心缺陷，仅存在采样速度的问题，后续的改进也主要围绕采样速度展开：

优点	缺点
训练极其稳定，无模式崩溃、梯度消失等问题	原始采样速度慢，需要数百至数千步的逐步去噪（可通过快速采样变体弥补）
生成样本质量极高，细节丰富、真实感强、多样性好	训练成本稍高，需要大量的计算资源训练去噪模型（如UNet）
支持任意形式的条件生成（文本、图像、标签），灵活性极强	生成过程的可解释性较弱，无法像VAE一样直观控制隐空间
网络结构通用（UNet），易于扩展到图像、文本、语音、视频等多领域	-

9.5 三大经典生成模型的对比与场景选择

VAE、GAN、扩散模型是深度学习中最经典的三大生成模型，分别代表了概率统计、博弈论、逐步去噪三种不同的生成思路，各有优缺点和适用场景。在实际应用中，选择生成模型的核心依据是生成任务的类型、对样本质量的要求、计算资源的限制，以下是三大模型的全面对比和实用选择准则。

9.5.1 三大生成模型的核心对比

对比维度	变分自编码器（VAE）	生成对抗网络（GAN）	扩散模型（Diffusion Model）
核心思想	概率统计+变分推断，拟合显式分布	博弈论+零和博弈，拟合隐式分布	逐步加噪/去噪，马尔可夫链拟合分布
训练稳定性	极高，无任何训练问题	低，易训练不稳定、模式崩溃	极高，无任何训练问题
生成样本质量	较低，样本模糊、细节不足	高，样本清晰、细节丰富	极高，样本超真实、细节拉满、多样性好
生成样本多样性	一般，对复杂分布拟合能力弱	较好（WGAN/StyleGAN后）	极好，能覆盖真实数据的全部分布
采样速度	极快，一步解码生成	极快，一步生成	中等（原始慢，快速采样后大幅提升）
条件生成能力	支持，实现简单（CVAE）	支持，实现简单（CGAN）	支持，灵活性极强（文本/图像/标签）
计算资源要求	低，可在普通设备上训练	中等，需要显卡训练	中高，训练需要大显存，采样可在普通设备上运行
理论基础	扎实，概率统计体系完整	较薄弱，缺乏严格的理论证明	扎实，马尔可夫链+概率统计
工业界应用成熟度	低，仅用于简单场景	中，用于人脸/动漫生成	极高，目前工业界的绝对主流

9.5.2 三大生成模型的实用选择准则

结合模型特点和工业界的应用实践，不同生成任务的模型选择准则如下，能覆盖99%的实际应用场景：

简单低维数据生成（如手写数字、低清语音、简单分子）：选择VAE，训练成本低、速度快，能满足基本生成需求；
高分辨率图像生成（无复杂条件）（如人脸、动漫、风景）：选择StyleGAN（GAN变体），生成速度极快，且能独立控制样本的风格和细节；
文本条件生成（AI绘画）、图像修复/超分、多模态生成：选择扩散模型（Stable Diffusion），这是目前的最优选择，生成质量和灵活性均为极致；
语音合成、文本生成：扩散模型（新方案）+ 自回归模型（传统方案），二者结合能实现高质量的序列生成；
计算资源有限，需要快速落地：选择VAE或轻量版GAN，若对质量要求高，选择Stable Diffusion的轻量版；
追求极致的生成质量，不计较计算成本：选择扩散模型。

核心趋势：目前扩散模型正在逐步替代VAE和GAN，成为所有生成任务的主流模型，后续的研究和应用也将围绕扩散模型展开。

9.6 生成模型的扩展应用：从“单模态”到“多模态”

生成模型的发展，从最初的简单图像生成，逐步扩展到文本、语音、分子、视频等单模态生成，再到图文、音视频等多模态生成，目前已渗透到人工智能的各个领域，成为工业界和学术界的核心研究方向，以下是生成模型最主流的扩展应用，覆盖了目前的热点场景：

9.6.1 图像生成：生成模型的核心应用领域

图像生成是生成模型最成熟、应用最广泛的领域，也是生成模型发展的核心驱动力，主流应用包括：

无条件图像生成：生成无指定条件的自然图像（如风景、动物、人脸），代表模型有StyleGAN、DDPM；
文本到图像（AI绘画）：根据文本描述生成对应的图像，代表模型有Stable Diffusion、DALL·E 3、Midjourney，是目前最火的AI应用；
图像编辑/修复：对现有图像进行编辑（如换背景、改风格）、修复破损图像、去除水印，代表模型有Stable Diffusion Inpaint；
图像超分：将低分辨率的图像生成为高分辨率的图像，代表模型有Real-ESRGAN（结合GAN）、DiffSR（结合扩散模型）。

9.6.2 文本生成：从自回归到扩散，更流畅的生成

文本生成是生成模型的另一大核心领域，传统的文本生成模型是自回归模型（如GPT），目前扩散模型也被广泛应用于文本生成，主流应用包括：

开放式文本生成：生成流畅的自然语言文本（如小说、诗歌、文案），代表模型有GPT-4、LLaMA、文心一言；
条件文本生成：根据指定条件生成文本（如机器翻译、文本摘要、问答），代表模型有Transformer、T5；
代码生成：根据自然语言描述生成代码（如Python、Java），代表模型有GitHub Copilot、CodeLlama。

9.6.3 语音合成与语音生成

语音合成（TTS，文字转语音）是生成模型在语音领域的核心应用，目前已实现高自然度、高相似度的语音生成，主流应用包括：

通用语音合成：将文字转换为自然的语音，支持多语种、多音色，代表模型有Tacotron 2（结合GAN）、DiffTTS（结合扩散模型）；
个性化语音合成：模仿指定人的音色、语气生成语音，即“语音克隆”，代表模型有VITS、DiffSVC；
语音增强/修复：去除语音中的噪声、修复破损的语音，提升语音的清晰度。

9.6.4 多模态生成：生成模型的未来发展方向

多模态生成是指结合文本、图像、语音、视频等多种模态的信息，生成其中一种或多种模态的样本，是生成模型的未来发展方向，也是目前的研究热点，主流应用包括：

图文互转：文本生成图像（AI绘画）、图像生成文本（图像字幕），代表模型有Stable Diffusion、BLIP；
音视频生成：文本/图像生成语音、文本/图像生成视频，代表模型有Sora（OpenAI，文本生成视频）、AudioLM（谷歌，文本生成语音）；
多模态对话：结合文本、图像、语音的智能对话，如ChatGPT+Stable Diffusion的组合，能根据文本描述生成图像并进行对话。

9.6.5 专业领域生成：解决工业界实际问题

生成模型不仅在民用领域大放异彩，还在生物、化学、医药、工业设计等专业领域解决了实际问题，实现了从“实验室”到“工业界”的落地：

分子/药物生成：生成具有指定属性的分子结构，用于新药研发，代表模型有VAE-GAN、DiffMol；
工业设计生成：生成产品设计图、建筑设计图，辅助设计师进行创作，代表模型有Stable Diffusion Design；
遥感图像生成：生成模拟的遥感卫星图像，用于地理勘探、气象预测，代表模型有GAN+CNN的组合。

9.7 总结

生成模型是深度学习从“分析数据”走向“创造数据”的核心分支，其核心目标是学习真实数据的概率分布并生成全新的相似样本，本章讲解的VAE、GAN、扩散模型是生成模型的三大经典代表，分别代表了不同的设计思路，推动了生成模型的发展。

核心要点

生成模型与判别模型的核心区别是学习目标：判别模型学习 $P (y ∣ x)$ （输入到输出的映射），生成模型学习 $P (x)$ （数据的分布），生成模型可利用无标注数据，核心能力是创造新样本；
VAE是基于概率统计和自编码的生成模型，核心改进是让隐空间成为有规律的概率分布，训练稳定但生成样本模糊，适合简单低维数据生成；
GAN是基于博弈论的生成模型，通过生成器和判别器的零和博弈实现生成，生成样本清晰但训练不稳定，StyleGAN是其极致变体，适合人脸/动漫等图像生成；
扩散模型是基于逐步加噪和去噪的生成模型，核心是训练噪声预测任务，结合了VAE的训练稳定性和GAN的生成质量，是目前的绝对主流，Stable Diffusion是其工业界核心变体，适合AI绘画、多模态生成等所有场景；
生成模型的评价结合客观指标（FID/IS/PPL）和主观人工评估，核心衡量维度是真实性和多样性；
生成模型的应用从单模态（图像、文本、语音）扩展到多模态（图文、音视频），并逐步落地到生物、医药、工业设计等专业领域，是深度学习的未来发展方向。

深入阅读推荐

想掌握VAE理论：VAE原始论文《Auto-Encoding Variational Bayes》；
想掌握GAN理论：GAN原始论文《Generative Adversarial Networks》、WGAN-GP论文《Improved Training of Wasserstein GANs》；
想掌握扩散模型理论：DDPM原始论文《Denoising Diffusion Probabilistic Models》、Stable Diffusion论文《High-Resolution Image Synthesis with Latent Diffusion Models》；
想学习实践应用：Stable Diffusion WebUI官方文档、Hugging Face Diffusers库（一站式调用所有扩散模型）；
想了解生成模型前沿：OpenAI Sora论文、DALL·E 3论文、StyleGAN3论文。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

卡萨帝AI之眼跑出加速度：22大升级让无人家务更进一步

2048 AI社区

光通信与视频编码前沿技术综述：从超大容量传输到实时神经网络编码

多芯光纤与实时神经网络编码分别代表了通信传输与视频压缩两大领域的前沿方向。2.5Pb/s的光传输记录展示了物理层容量的巨大潜力，而MobileNVC则证明了AI驱动的视频编码在移动设备上的可行性。这两大技术方向的持续突破，将为AI大模型时代的海量数据交互和超高清视频应用提供坚实的底层支撑。需要指出的是，从实验室纪录到大规模商用仍需克服工程化、标准化和成本控制等多重挑战。对于技术应用者而言，理性看待

2048 AI社区

AI时代当程序员？2026年转行IT的“新活法”

2048 AI社区

所有评论(0)

查看更多评论

在外追梦的打工人

@qq_45525007

已为社区贡献1条内容

第9章 深度学习的生成模型

在外追梦的打工人

第9章 深度学习的生成模型

9.1 生成模型的基础认知：从“判别”到“生成”

9.1.1 判别模型 vs 生成模型：核心差异在“学习目标”

（1）判别模型：学习条件概率 P(y∣x)P(y|x)P(y∣x)

（2）生成模型：学习边缘概率P(x)P(x)P(x) 或联合概率P(x,y)P(x,y)P(x,y)

核心对比总结

9.1.2 生成模型的两大核心任务

9.1.3 生成模型的核心评价指标

9.2 变分自编码器（VAE）：基于概率与自编码的生成模型

9.2.1 先搞懂：传统自编码器的结构与缺陷

（1）传统自编码器的核心结构

（2）传统自编码器的核心缺陷

9.2.2 VAE的核心改进：让隐空间变成“有规律的概率分布”

9.2.3 VAE的模型结构与训练过程

（1）核心结构拆解

（2）VAE的训练目标：重构损失 + 隐空间正则项

（3）VAE的生成过程（采样推理）

9.2.4 VAE的优缺点与经典变体

（1）原始VAE的核心优缺点

（2）VAE的经典变体（解决核心缺陷，提升生成效果）

9.3 生成对抗网络（GAN）：基于博弈论的生成模型

9.3.1 GAN的核心思想：生成器与判别器的“零和博弈”

9.3.2 GAN的基本结构与数学模型

（1）两个核心网络的功能

（2）GAN的损失函数：零和博弈的数学表达

9.3.3 GAN的训练过程：交替训练，相互对抗

9.3.4 原始GAN的核心问题：训练不稳定与模式崩溃

9.3.5 GAN的经典变体：解决训练问题，提升生成效果

9.4 扩散模型（Diffusion Model）：基于逐步加噪与去噪的生成模型

9.4.1 扩散模型的核心思想：正向加噪，反向去噪

9.4.2 正向加噪过程：从真实样本到随机噪声（固定过程）

核心数学表达

核心特点

9.4.3 反向去噪过程：从随机噪声到真实样本（训练核心）

9.4.4 扩散模型的训练过程：简单的噪声预测任务

9.4.5 扩散模型的生成过程：逐步去噪，从噪声到样本

9.4.6 扩散模型的经典变体：提升采样速度，实现条件生成

（1）核心改进变体

（2）工业界主流：Stable Diffusion（稳定扩散）

9.4.7 扩散模型的优缺点

9.5 三大经典生成模型的对比与场景选择

9.5.1 三大生成模型的核心对比

9.5.2 三大生成模型的实用选择准则

9.6 生成模型的扩展应用：从“单模态”到“多模态”

9.6.1 图像生成：生成模型的核心应用领域

9.6.2 文本生成：从自回归到扩散，更流畅的生成

9.6.3 语音合成与语音生成

9.6.4 多模态生成：生成模型的未来发展方向

9.6.5 专业领域生成：解决工业界实际问题

9.7 总结

核心要点

深入阅读推荐

所有评论(0)

在外追梦的打工人

第9章深度学习的生成模型

第9章深度学习的生成模型

（1）判别模型：学习条件概率 $P (y ∣ x)$

（2）生成模型：学习边缘概率 $P (x)$ 或联合概率 $P (x, y)$