人工智能领域正在经历一场深刻的变革,生成式模型的发展尤为引人注目。从2020年DDPM(Denoising Diffusion Probabilistic Models)论文的发表,到2022年Flow Matching范式的提出,再到如今Stable Diffusion 3和FLUX等新一代模型的出现,生成式AI的技术路线正在经历一场从扩散模型到流模型的范式转变。这一转变不仅仅是技术细节的优化,更是对生成模型本质理解的深化,代表着从离散迭代到连续流动、从随机过程到确定性传输的思维跃迁。本文将从理论基础、数学原理、技术演进等多个维度,深入剖析这一范式转变的内在逻辑与技术内涵。

1 生成式模型的理论基础与发展脉络

生成式模型是机器学习中最具挑战性的研究方向之一,其核心目标是学习数据分布并生成新的样本。在深入理解扩散模型与流模型之前,我们需要首先建立生成式模型的理论框架,理解不同方法之间的内在联系与本质区别。

1.1 生成式模型的基本范式

生成式模型的本质是学习一个从简单分布到复杂分布的映射。假设我们有一组观测数据 {x1,x2,...,xn}\{x_1, x_2, ..., x_n\}{x1,x2,...,xn} 来自未知的数据分布 pdata(x)p_{data}(x)pdata(x),生成式模型的目标是找到一个参数化的分布 pθ(x)p_\theta(x)pθ(x) 来逼近真实分布。这一看似简单的问题实际上蕴含着深刻的数学挑战:高维数据分布的复杂性使得直接建模几乎不可能,因此研究者们发展出了多种间接的方法来解决这个问题。

从概率论的角度来看,生成式模型可以分为两大类:基于似然的方法和基于隐变量的方法。基于似然的方法直接最大化观测数据的对数似然 log⁡pθ(x)\log p_\theta(x)logpθ(x),典型的代表包括自回归模型和归一化流。基于隐变量的方法则引入潜在变量 zzz,通过边缘化来建模数据分布:pθ(x)=∫pθ(x∣z)p(z)dzp_\theta(x) = \int p_\theta(x|z)p(z)dzpθ(x)=pθ(xz)p(z)dz,变分自编码器(VAE)和扩散模型都属于这一类别。这两种范式各有优劣:基于似然的方法通常具有精确的似然计算,但模型表达能力受限;基于隐变量的方法具有更强的表达能力,但训练和推断往往更加困难。

生成式模型的发展历程可以追溯到上世纪的概率图模型和马尔可夫链蒙特卡洛方法。然而,真正推动生成式模型走向实用化的突破来自于深度学习的引入。2014年,Goodfellow等人提出的生成对抗网络(GAN)开创了生成式深度学习的新纪元,通过对抗训练的方式绕过了显式密度估计的困难。同年,Kingma和Welling提出的变分自编码器(VAE)则为隐变量模型提供了高效的训练框架。这两项工作奠定了现代生成式模型的基础,但它们各自存在难以克服的缺陷:GAN的训练不稳定且存在模式崩塌问题,VAE的生成质量受限于变分推断的近似误差。

1.2 从GAN到扩散模型的技术演进

生成对抗网络的核心思想是通过对抗博弈来训练生成器。生成器 GGG 从噪声分布中采样并生成假样本,判别器 DDD 则试图区分真实样本和生成样本。这一框架在理论上具有优雅的形式:当判别器达到最优时,生成器的目标函数等价于最小化生成分布与真实分布之间的Jensen-Shannon散度。然而,GAN的训练过程充满了挑战:判别器和生成器的能力不平衡会导致梯度消失或梯度爆炸,训练过程对超参数极其敏感,模式崩塌问题使得生成样本缺乏多样性。

为了解决这些问题,研究者们提出了大量的改进方案。WGAN通过使用Wasserstein距离替代Jensen-Shannon散度,改善了训练稳定性;Progressive GAN通过渐进式训练策略提高了生成质量;StyleGAN则引入了风格迁移的思想,实现了对生成图像细粒度特征的控制。尽管这些改进显著提升了GAN的性能,但对抗训练的本质困难始终未能完全解决。

扩散模型的提出为生成式模型开辟了一条全新的道路。与GAN的对抗训练不同,扩散模型采用了一种"破坏-重建"的策略:首先通过逐步添加噪声将数据转化为纯噪声,然后学习逆向过程从噪声中恢复数据。这一思想最早可以追溯到Sohl-Dickstein等人在2015年的工作,但直到2020年Ho等人的DDPM论文才真正展示了扩散模型的强大潜力。DDPM的核心贡献在于发现了一个关键事实:当噪声添加过程设计得当时,逆向过程可以用简单的高斯分布来近似,这使得训练变得异常简单——只需要训练一个去噪网络即可。

扩散模型的成功引发了生成式AI的革命。2021年,OpenAI发布的DALL-E和GLIDE展示了扩散模型在文本到图像生成任务上的惊人能力;2022年,Stability AI发布的Stable Diffusion将扩散模型推向了大众市场,引发了AIGC的热潮。然而,扩散模型并非完美无缺:其生成过程需要大量的迭代步骤(通常需要数百甚至上千步),计算成本高昂;采样轨迹的弯曲性导致了效率损失;理论框架的复杂性也限制了进一步优化的空间。

1.3 流模型的复兴与Flow Matching的崛起

在扩散模型蓬勃发展的同时,流模型(Flow-based Models)也在悄然复兴。流模型的思想可以追溯到2015年Rezende和Mohamed提出的归一化流(Normalizing Flow),其核心是通过一系列可逆变换将简单分布映射到复杂分布。与扩散模型不同,流模型天然支持精确的似然计算和高效的单步生成,这些特性使其在理论上具有独特的优势。

然而,传统的离散归一化流面临着严重的表达能力限制。为了确保变换的可逆性和雅可比矩阵的可计算性,研究者们不得不设计特殊的网络结构(如耦合层、自回归流等),这些结构限制了模型的表达能力。2018年,Chen等人提出的神经ODE(Neural ODE)为流模型带来了新的可能:通过将离散的变换序列扩展为连续的时间动力学,连续归一化流(Continuous Normalizing Flow, CNF)突破了传统流模型的架构限制,可以使用任意神经网络来参数化向量场。

尽管CNF在理论上具有优雅的形式,但其训练一直是一个难题。传统的CNF训练需要通过ODE求解器进行反向传播,计算成本极高且数值不稳定。这一问题直到2022年才得到突破性的解决:Lipman等人提出的Flow Matching(流匹配)方法实现了CNF的无模拟训练,极大地降低了训练成本。Flow Matching的核心思想是直接回归向量场,而不是通过ODE求解来计算损失,这一看似简单的改变彻底改变了CNF的训练范式。

Flow Matching的提出引发了流模型的复兴浪潮。2023年,Liu等人提出的Rectified Flow进一步简化了流模型的理论框架,证明了通过"拉直"采样轨迹可以实现一步生成。这些理论进展很快转化为实际应用:Stable Diffusion 3采用了Rectified Flow作为其核心生成框架,Black Forest Labs的FLUX模型则基于Flow Matching实现了高质量的图像生成。从扩散模型到流模型的范式转变正在成为生成式AI的新趋势。

2 扩散模型的数学原理与理论基础

扩散模型的成功建立在其坚实的数学基础之上。理解扩散模型需要掌握概率论、随机过程、变分推断等多个领域的知识。本节将从数学角度深入剖析扩散模型的理论框架,揭示其背后的原理与机制。

2.1 前向扩散过程的数学描述

扩散模型的前向过程是一个逐步添加噪声的马尔可夫链。给定原始数据 x0x_0x0,前向过程定义了一系列潜在变量 x1,x2,...,xTx_1, x_2, ..., x_Tx1,x2,...,xT,其中每一步都通过添加高斯噪声来增加数据的不确定性。具体而言,前向转移核定义为:

q(xt∣xt−1)=N(xt;1−βtxt−1,βtI)q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I)q(xtxt1)=N(xt;1βt xt1,βtI)

其中 βt\beta_tβt 是噪声调度参数,控制每一步添加噪声的强度。这一设计的关键在于其可组合性:通过应用重参数化技巧,我们可以直接从 x0x_0x0 采样任意时刻 ttt 的状态:

q(xt∣x0)=N(xt;αˉtx0,(1−αˉt)I)q(x_t|x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t}x_0, (1-\bar{\alpha}_t)I)q(xtx0)=N(xt;αˉt x0,(1αˉt)I)

其中 αˉt=∏s=1t(1−βs)\bar{\alpha}_t = \prod_{s=1}^{t}(1-\beta_s)αˉt=s=1t(1βs)。这一性质极大地简化了训练过程,因为我们不需要真正执行前向扩散,而是可以直接采样任意时刻的噪声状态。

从随机过程的角度来看,前向扩散过程可以看作是一个离散化的Ornstein-Uhlenbeck过程。当时间步数趋于无穷大时,离散的马尔可夫链收敛到连续的随机微分方程(SDE):

dx=f(x,t)dt+g(t)dwdx = f(x,t)dt + g(t)dwdx=f(x,t)dt+g(t)dw

其中 f(x,t)f(x,t)f(x,t) 是漂移系数,g(t)g(t)g(t) 是扩散系数,www 是标准维纳过程。这一连续视角不仅提供了理论上的优雅性,也为扩散模型的设计提供了更大的灵活性。Song等人系统性地研究了不同SDE形式与扩散模型之间的关系,建立了统一的Score-based生成模型框架。

前向过程的设计涉及噪声调度的选择,这是一个影响模型性能的关键因素。DDPM原论文采用了线性噪声调度,即 βt\beta_tβtβ1\beta_1β1 线性增长到 βT\beta_TβT。然而,后续研究发现线性调度并非最优选择:对于图像数据,线性调度在早期时间步添加了过多的噪声,导致信息损失过快。Improved DDPM提出了余弦调度,通过更平滑的噪声添加策略改善了生成质量。Stable Diffusion则采用了更复杂的噪声调度设计,结合了线性和余弦调度的优点。

2.2 逆向去噪过程与训练目标

扩散模型的生成能力来自于逆向去噪过程。逆向过程的目标是从纯噪声 xTx_TxT 开始,逐步恢复原始数据 x0x_0x0。理论上,逆向过程的转移核可以通过贝叶斯公式计算:

pθ(xt−1∣xt)=q(xt∣xt−1)p(xt−1)q(xt)p_\theta(x_{t-1}|x_t) = \frac{q(x_t|x_{t-1})p(x_{t-1})}{q(x_t)}pθ(xt1xt)=q(xt)q(xtxt1)p(xt1)

然而,由于真实数据分布 p(xt−1)p(x_{t-1})p(xt1) 和边缘分布 q(xt)q(x_t)q(xt) 都是未知的,直接计算这一后验分布是不可能的。DDPM的关键发现是:当噪声添加量足够小时,逆向转移核可以用高斯分布来近似:

pθ(xt−1∣xt)=N(xt−1;μθ(xt,t),σt2I)p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \sigma_t^2 I)pθ(xt1xt)=N(xt1;μθ(xt,t),σt2I)

其中 μθ\mu_\thetaμθ 是由神经网络参数化的均值函数。DDPM进一步证明,最优的均值函数可以表示为:

μθ∗(xt,t)=11−βt(xt−βt1−αˉtϵθ(xt,t))\mu_\theta^*(x_t, t) = \frac{1}{\sqrt{1-\beta_t}}\left(x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t, t)\right)μθ(xt,t)=1βt 1(xt1αˉt βtϵθ(xt,t))

其中 ϵθ(xt,t)\epsilon_\theta(x_t, t)ϵθ(xt,t) 是预测添加噪声的神经网络。这一发现将逆向过程的学习转化为一个简单的去噪问题:训练一个神经网络来预测每一步添加的噪声。

DDPM的训练目标可以通过变分下界(ELBO)推导得到。对数似然可以分解为:

log⁡pθ(x0)≥Eq[log⁡pθ(x0∣x1:T)]−DKL(q(x1:T∣x0)∥pθ(x1:T))\log p_\theta(x_0) \geq \mathbb{E}_q\left[\log p_\theta(x_0|x_{1:T})\right] - D_{KL}(q(x_{1:T}|x_0) \| p_\theta(x_{1:T}))logpθ(x0)Eq[logpθ(x0x1:T)]DKL(q(x1:Tx0)pθ(x1:T))

经过一系列推导,这一目标可以简化为一系列去噪损失的总和:

L=∑t=1TEx0,ϵ[∥ϵ−ϵθ(xt,t)∥2]L = \sum_{t=1}^{T} \mathbb{E}_{x_0, \epsilon}\left[\|\epsilon - \epsilon_\theta(x_t, t)\|^2\right]L=t=1TEx0,ϵ[ϵϵθ(xt,t)2]

这一简洁的训练目标是DDPM成功的关键:它将复杂的变分推断问题转化为简单的均方误差回归问题,使得训练变得稳定和高效。

2.3 Score-based视角与统一框架

扩散模型的另一种理论视角来自于Score-based生成模型。Score函数定义为对数概率密度的梯度:s(x)=∇xlog⁡p(x)s(x) = \nabla_x \log p(x)s(x)=xlogp(x)。Score-based方法的核心思想是:如果我们能够估计数据分布的Score函数,就可以通过朗之万动力学(Langevin Dynamics)来采样:

xt+1=xt+ϵs(xt)+2ϵzt,zt∼N(0,I)x_{t+1} = x_t + \epsilon s(x_t) + \sqrt{2\epsilon}z_t, \quad z_t \sim \mathcal{N}(0, I)xt+1=xt+ϵs(xt)+2ϵ zt,ztN(0,I)

然而,直接估计数据分布的Score函数是困难的:在高维空间中,数据分布的支持集通常是低维流形,导致Score估计不准确。Song和Ermon提出的去噪Score匹配(Denoising Score Matching)通过添加噪声来解决这一问题:估计的是噪声扰动数据分布的Score,而不是原始数据分布的Score。

2019年,Song等人在论文"Generative Modeling by Estimating Gradients of the Data Distribution"中系统性地建立了Score-based生成模型框架。他们发现,通过在多个噪声尺度上估计Score函数,并使用退火朗之万动力学(Annealed Langevin Dynamics)进行采样,可以生成高质量的图像。这一工作与DDPM有着深刻的联系:DDPM中的去噪网络实际上是在估计噪声扰动分布的Score函数。

2021年,Song等人进一步提出了基于随机微分方程的统一框架,将DDPM和Score-based模型统一到同一个理论体系下。他们证明,扩散模型的前向过程可以表示为SDE:

dx=f(x,t)dt+g(t)dwdx = f(x,t)dt + g(t)dwdx=f(x,t)dt+g(t)dw

而逆向生成过程则对应于逆向SDE:

dx=[f(x,t)−g(t)2∇xlog⁡pt(x)]dt+g(t)dwˉdx = [f(x,t) - g(t)^2 \nabla_x \log p_t(x)]dt + g(t)d\bar{w}dx=[f(x,t)g(t)2xlogpt(x)]dt+g(t)dwˉ

其中 ∇xlog⁡pt(x)\nabla_x \log p_t(x)xlogpt(x) 是时刻 ttt 的Score函数。这一统一框架不仅揭示了扩散模型与Score-based模型的等价性,还为设计新的扩散模型提供了理论指导。

表1:扩散模型主要变体对比

模型名称 发表时间 核心贡献 训练目标 采样方式
DDPM 2020 建立了扩散模型的标准框架 噪声预测MSE损失 离散马尔可夫链采样
DDIM 2020 非马尔可夫采样,加速生成 同DDPM 确定性ODE采样
Score SDE 2021 SDE/ODE统一框架 Score匹配损失 SDE或ODE求解器
Improved DDPM 2021 改进噪声调度和损失函数 加权MSE损失 同DDPM
Latent Diffusion 2022 潜空间扩散,降低计算成本 潜空间噪声预测 潜空间采样+解码

3 连续归一化流与神经ODE

流模型的理论基础与扩散模型有着本质的不同。扩散模型基于随机过程,通过逐步去噪来生成样本;而流模型则基于确定性变换,通过可逆映射将简单分布转化为复杂分布。理解流模型需要掌握微分方程、动力系统和测度论等多个数学分支的知识。

3.1 归一化流的基本原理

归一化流的核心思想是通过一系列可逆变换来构建复杂的概率分布。假设我们有一个简单的基础分布 pZ(z)p_Z(z)pZ(z)(通常是标准高斯分布)和一个可逆映射 f:Z→Xf: Z \rightarrow Xf:ZX,那么变换后的分布可以通过变量替换公式计算:

pX(x)=pZ(f−1(x))∣det⁡∂f−1(x)∂x∣p_X(x) = p_Z(f^{-1}(x)) \left|\det \frac{\partial f^{-1}(x)}{\partial x}\right|pX(x)=pZ(f1(x)) detxf1(x)

这一公式告诉我们,只要变换 fff 是可逆的且雅可比行列式可计算,我们就可以精确地计算任意点的概率密度。这是流模型相对于其他生成模型的独特优势:它提供了精确的似然计算,使得模型评估和比较变得简单。

传统的归一化流通过串联多个简单的可逆变换来构建复杂的映射。每个变换需要满足两个条件:可逆性和雅可比行列式的可计算性。为了满足这些条件,研究者们设计了多种特殊的网络结构。NICE(Non-linear Independent Components Estimation)使用加性耦合层,将输入分为两部分,只对其中一部分进行变换;Real NVP扩展了这一思想,引入了仿射耦合层;Glow则进一步改进了耦合层的设计,提高了模型的表达能力。

然而,这些特殊的架构设计严重限制了流模型的表达能力。耦合层的本质是将输入的一部分直接传递到输出,这意味着每次变换只能改变输入的一半维度。要实现全局的信息混合,需要大量的变换层,这增加了模型的复杂度和训练难度。更重要的是,这些架构限制使得流模型难以充分利用现代深度神经网络的强大表达能力。

3.2 连续归一化流与神经ODE

2018年,Chen等人提出的神经ODE(Neural ODE)为流模型带来了革命性的突破。神经ODE的核心思想是将神经网络的层数视为连续的时间变量,将前向传播建模为常微分方程的求解过程。具体而言,给定输入 z(0)z(0)z(0),输出 z(T)z(T)z(T) 通过求解以下ODE得到:

dz(t)dt=vθ(z(t),t),z(0)=z0\frac{dz(t)}{dt} = v_\theta(z(t), t), \quad z(0) = z_0dtdz(t)=vθ(z(t),t),z(0)=z0

其中 vθv_\thetavθ 是由神经网络参数化的向量场。这一连续视角带来了多个优势:首先,它消除了层数的限制,理论上可以使用任意深度的网络;其次,ODE求解器可以自适应地选择计算精度,在需要精细处理的区域使用更多的计算资源;最后,通过伴随方法(Adjoint Method),可以以 O(1)O(1)O(1) 的内存成本进行反向传播。

将神经ODE应用于流模型,就得到了连续归一化流(CNF)。在CNF框架下,概率密度的演化由连续性方程描述:

∂log⁡pt(z(t))∂t=−∇z⋅vθ(z(t),t)\frac{\partial \log p_t(z(t))}{\partial t} = -\nabla_z \cdot v_\theta(z(t), t)tlogpt(z(t))=zvθ(z(t),t)

这一方程告诉我们,概率密度的变化完全由向量场的散度决定。通过积分这一方程,我们可以计算任意时刻的概率密度:

log⁡pT(z(T))=log⁡p0(z(0))−∫0T∇z⋅vθ(z(t),t)dt\log p_T(z(T)) = \log p_0(z(0)) - \int_0^T \nabla_z \cdot v_\theta(z(t), t) dtlogpT(z(T))=logp0(z(0))0Tzvθ(z(t),t)dt

CNF的优势在于可以使用任意的神经网络来参数化向量场,不再受限于特殊的架构设计。这意味着我们可以使用现代深度学习中发展出的各种强大架构(如Transformer、U-Net等)来构建流模型。然而,CNF的训练一直是一个难题:计算散度需要对向量场进行反向传播,计算成本随输入维度线性增长;ODE求解需要多次函数评估,训练效率低下。

3.3 CNF训练的挑战与解决方案

传统CNF的训练方法基于最大似然估计。给定数据点 xxx,我们需要计算其对数似然 log⁡pθ(x)\log p_\theta(x)logpθ(x),这需要求解ODE从数据点反向追踪到噪声空间,然后计算概率密度的变化。这一过程存在两个主要的计算瓶颈:首先,ODE求解需要多次函数评估,每次评估都需要计算神经网络的输出;其次,计算散度 ∇z⋅vθ(z,t)\nabla_z \cdot v_\theta(z, t)zvθ(z,t) 需要对向量场进行反向传播,计算成本随维度线性增长。

为了解决散度计算的问题,研究者们提出了多种近似方法。Hutchinson迹估计器通过随机投影来估计散度:

∇z⋅vθ(z,t)≈ϵT∂vθ(z,t)∂zϵ,ϵ∼N(0,I)\nabla_z \cdot v_\theta(z, t) \approx \epsilon^T \frac{\partial v_\theta(z, t)}{\partial z} \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)zvθ(z,t)ϵTzvθ(z,t)ϵ,ϵN(0,I)

这一方法将散度计算从 O(d)O(d)O(d) 降低到 O(1)O(1)O(1),但引入了估计方差。FFJORD方法进一步改进了这一估计器,通过使用无偏估计和方差缩减技术提高了训练稳定性。

然而,即使解决了散度计算的问题,ODE求解的计算成本仍然是一个瓶颈。每次训练迭代都需要求解ODE,这意味着需要多次神经网络的前向传播。对于高分辨率图像生成任务,这一计算成本是不可接受的。这一问题直到Flow Matching的提出才得到根本性的解决。

表2:归一化流方法对比

方法 变换类型 架构限制 似然计算 训练效率
NICE 离散 加性耦合层 精确
Real NVP 离散 仿射耦合层 精确
Glow 离散 可逆1x1卷积+耦合层 精确
CNF (传统) 连续 无限制 精确
CNF (Flow Matching) 连续 无限制 精确

4 Flow Matching:流模型的训练革命

Flow Matching的提出彻底改变了CNF的训练范式。通过直接回归向量场而不是通过ODE求解来计算损失,Flow Matching实现了CNF的高效训练,使得流模型真正成为扩散模型的有力竞争者。

4.1 Flow Matching的核心思想

Flow Matching的核心思想来源于一个深刻的观察:我们不需要通过ODE求解来训练CNF,而是可以直接学习目标向量场。具体而言,假设我们知道从噪声分布到数据分布的最优传输路径,那么沿着这条路径的向量场就是我们要学习的目标。Flow Matching通过定义条件概率路径,将这一思想转化为可操作的训练算法。

条件Flow Matching(Conditional Flow Matching, CFM)是Flow Matching的基础形式。给定数据点 x1x_1x1,我们定义一条从噪声 x0∼N(0,I)x_0 \sim \mathcal{N}(0, I)x0N(0,I) 到数据 x1x_1x1 的条件概率路径 pt(x∣x1)p_t(x|x_1)pt(xx1)。最简单的选择是线性插值路径:

xt=(1−t)x0+tx1x_t = (1-t)x_0 + tx_1xt=(1t)x0+tx1

对应的条件向量场为:

ut(x∣x1)=x1−x01−0=x1−x0u_t(x|x_1) = \frac{x_1 - x_0}{1 - 0} = x_1 - x_0ut(xx1)=10x1x0=x1x0

这一简单的线性路径具有优雅的性质:它是最优传输路径,将噪声直接传输到数据点,轨迹是一条直线。Flow Matching的训练目标就是学习一个向量场 vθ(x,t)v_\theta(x, t)vθ(x,t) 来匹配这个条件向量场:

LCFM=Et,x0,x1[∥vθ(xt,t)−ut(xt∣x1)∥2]\mathcal{L}_{CFM} = \mathbb{E}_{t, x_0, x_1}\left[\|v_\theta(x_t, t) - u_t(x_t|x_1)\|^2\right]LCFM=Et,x0,x1[vθ(xt,t)ut(xtx1)2]

Lipman等人在原始论文中证明了一个关键定理:最小化条件Flow Matching损失等价于最小化边缘Flow Matching损失。这意味着我们不需要知道边缘概率路径,只需要学习条件向量场即可。这一发现极大地简化了训练过程:我们只需要采样噪声-数据对,计算条件向量场,然后训练网络来预测它。

Flow Matching与扩散模型有着深刻的联系。实际上,扩散模型可以看作是一种特殊的Flow Matching,其概率路径由扩散过程定义。然而,Flow Matching提供了更大的灵活性:我们可以自由选择概率路径的形式,而不受限于扩散过程的约束。这种灵活性使得我们可以设计更高效的生成路径,实现更快的采样速度。

4.2 最优传输路径与Rectified Flow

Flow Matching的一个重要特例是最优传输路径。最优传输理论研究如何以最小代价将一个概率分布转化为另一个概率分布。在生成模型的语境下,最优传输路径意味着从噪声到数据的最短路径,这对应于直线轨迹。

Liu等人提出的Rectified Flow直接采用了最优传输的思想。Rectified Flow的核心观察是:如果我们能够学习一个向量场,使得从噪声到数据的轨迹是直线,那么生成过程就可以用单步欧拉方法完成。这是因为直线轨迹的向量场是常数,不需要多次迭代来追踪弯曲的路径。

Rectified Flow的训练目标与Flow Matching类似,但强调了"拉直"轨迹的重要性。具体而言,Rectified Flow定义条件概率路径为:

Xt=tX1+(1−t)X0X_t = tX_1 + (1-t)X_0Xt=tX1+(1t)X0

其中 X1X_1X1 是数据,X0X_0X0 是噪声。对应的向量场为:

vt=X1−X0v_t = X_1 - X_0vt=X1X0

训练目标是让神经网络学习这个向量场:

L=E[∥vθ(Xt,t)−(X1−X0)∥2]\mathcal{L} = \mathbb{E}\left[\|v_\theta(X_t, t) - (X_1 - X_0)\|^2\right]L=E[vθ(Xt,t)(X1X0)2]

Rectified Flow的一个独特优势是可以通过"Reflow"操作来拉直轨迹。具体而言,如果我们用训练好的模型生成样本,然后用这些样本作为新的训练数据重新训练,轨迹会变得更加平直。理论上,经过多次Reflow操作,轨迹可以变得任意平直,最终实现一步生成。

表3:Flow Matching变体对比

方法 概率路径 向量场形式 主要优势 代表应用
Flow Matching (原始) 高斯条件路径 条件向量场回归 无模拟训练 理论研究
Rectified Flow 线性插值路径 x1−x0x_1 - x_0x1x0 轨迹拉直,一步生成 Stable Diffusion 3
Optimal Transport FM 最优传输路径 OT向量场 最短传输距离 理论研究
Riemannian FM 黎曼流形路径 流形向量场 非欧空间生成 分子生成
Stochastic Interpolants 随机插值 随机向量场 结合SDE优势 研究探索

4.3 Flow Matching的理论优势

Flow Matching相对于传统扩散模型具有多方面的理论优势。首先,Flow Matching提供了更大的设计自由度。在扩散模型中,概率路径由前向扩散过程固定,我们只能选择噪声调度参数。而在Flow Matching中,我们可以自由选择概率路径的形式,包括线性路径、最优传输路径、甚至学习得到的路径。这种灵活性使得我们可以针对特定任务设计最优的生成路径。

其次,Flow Matching的训练更加高效。传统CNF训练需要通过ODE求解来计算损失,计算成本高且数值不稳定。Flow Matching通过直接回归向量场,避免了ODE求解,训练过程变得简单高效。这一优势在高分辨率图像生成任务中尤为明显,Flow Matching可以以更少的计算资源达到与扩散模型相当甚至更好的生成质量。

第三,Flow Matching的采样更加灵活。由于向量场是在连续时间上定义的,我们可以使用任意的ODE求解器进行采样,包括自适应步长求解器、高阶求解器等。更重要的是,当轨迹足够平直时,我们可以使用单步欧拉方法进行采样,实现一步生成。这在实际应用中具有重要意义:一步生成意味着更低的延迟和更高的吞吐量。

第四,Flow Matching具有更好的理论性质。从最优传输的角度来看,Flow Matching学习的是从噪声分布到数据分布的最优传输映射。这一映射具有唯一性(在适当的条件下),并且满足单调性等良好性质。这些理论性质为模型的分析和改进提供了坚实的基础。

5 扩散模型与流模型的深度对比

扩散模型和流模型代表了生成式AI的两种不同范式。理解它们的异同对于把握生成式AI的发展方向至关重要。本节将从多个维度深入对比这两种方法,揭示它们各自的优势与局限。

5.1 理论框架的对比

扩散模型的理论基础建立在随机过程之上。前向过程是一个马尔可夫链,通过逐步添加噪声将数据转化为纯噪声;逆向过程则学习从噪声中恢复数据。这一框架可以用随机微分方程(SDE)来描述:

dx=f(x,t)dt+g(t)dwdx = f(x,t)dt + g(t)dwdx=f(x,t)dt+g(t)dw

其中随机项 g(t)dwg(t)dwg(t)dw 代表噪声的注入。扩散模型的生成过程本质上是求解逆向SDE,需要处理随机性和不确定性。

流模型的理论基础则建立在确定性变换之上。连续归一化流将生成过程建模为ODE的求解:

dxdt=vθ(x,t)\frac{dx}{dt} = v_\theta(x, t)dtdx=vθ(x,t)

没有随机项意味着生成过程是完全确定性的。给定相同的初始噪声,流模型总是生成相同的样本。这一性质在某些应用场景中是有价值的,比如需要可复现性的场景。

从概率论的角度来看,扩散模型和流模型都可以看作是在学习一个从噪声分布到数据分布的传输映射。扩散模型通过随机过程来实现这一传输,而流模型则通过确定性变换。这一区别导致了它们在采样效率、生成质量等方面的不同表现。

从变分推断的角度来看,扩散模型可以理解为一种特殊的变分自编码器。前向过程定义了编码器(添加噪声),逆向过程定义了解码器(去噪)。训练目标是最大化数据的变分下界。流模型则更接近于最大似然估计,通过精确计算似然来优化模型参数。

5.2 训练过程的对比

扩散模型的训练过程相对简单。DDPM的训练目标是最小化噪声预测误差:

LDDPM=Et,x0,ϵ[∥ϵ−ϵθ(xt,t)∥2]\mathcal{L}_{DDPM} = \mathbb{E}_{t, x_0, \epsilon}\left[\|\epsilon - \epsilon_\theta(x_t, t)\|^2\right]LDDPM=Et,x0,ϵ[ϵϵθ(xt,t)2]

这一目标函数的计算只需要一次神经网络的前向传播,训练效率高。然而,扩散模型的训练需要仔细设计噪声调度,不同的调度策略会显著影响生成质量。

Flow Matching的训练过程同样简单。其训练目标是最小化向量场预测误差:

LFM=Et,x0,x1[∥vθ(xt,t)−ut(xt∣x1)∥2]\mathcal{L}_{FM} = \mathbb{E}_{t, x_0, x_1}\left[\|v_\theta(x_t, t) - u_t(x_t|x_1)\|^2\right]LFM=Et,x0,x1[vθ(xt,t)ut(xtx1)2]

与扩散模型类似,这一目标函数的计算也只需要一次神经网络的前向传播。Flow Matching的一个优势是不需要设计噪声调度,概率路径的形式可以直接指定。

两种方法的训练稳定性都较好,不存在GAN那样的对抗训练问题。然而,它们都需要大量的训练数据和计算资源来达到最佳性能。在实际应用中,训练成本往往是决定模型选择的关键因素。

5.3 采样效率的对比

采样效率是生成式模型的核心指标之一。扩散模型的一个主要缺点是采样速度慢:标准的DDPM需要1000步迭代才能生成一个样本,每一步都需要神经网络的前向传播。虽然DDIM、DPM-Solver等方法可以将步数减少到几十步,但仍然无法实现真正的快速采样。

流模型在采样效率方面具有天然优势。由于生成过程是求解ODE,我们可以使用各种高效的ODE求解器。更重要的是,当轨迹足够平直时,单步欧拉方法就可以产生高质量的样本。Rectified Flow的理论分析表明,经过适当的训练,流模型可以实现一步生成。

从计算复杂度的角度来看,扩散模型的采样复杂度为 O(T)O(T)O(T),其中 TTT 是采样步数;而流模型的采样复杂度可以降低到 O(1)O(1)O(1)(一步生成)。这一差异在大规模应用中具有显著的实际意义:一步生成意味着更低的延迟和更高的吞吐量。

然而,需要注意的是,一步生成往往伴随着生成质量的下降。在实际应用中,通常需要在采样速度和生成质量之间进行权衡。Stable Diffusion 3和FLUX等模型通常使用4-8步采样来平衡速度和质量。

5.4 生成质量的对比

生成质量是评估生成式模型的另一个核心指标。从目前的实践来看,扩散模型和流模型都可以达到非常高的生成质量,但它们在不同方面各有优势。

扩散模型在生成多样性方面表现出色。由于生成过程包含随机性,扩散模型可以生成多样化的样本。这一特性在创意生成任务中尤为重要,比如艺术创作、图像编辑等。扩散模型生成的样本往往具有更丰富的细节和更自然的纹理。

流模型在生成一致性方面具有优势。由于生成过程是确定性的,给定相同的输入条件,流模型总是生成相同的输出。这一特性在需要精确控制的应用场景中是有价值的,比如图像编辑、风格迁移等。流模型生成的样本往往具有更好的结构和更清晰的边缘。

从定量指标来看,扩散模型和流模型在FID(Fréchet Inception Distance)、CLIP Score等指标上都可以达到相当的水平。Stable Diffusion 3基于Rectified Flow架构,在多个基准测试中取得了领先的成绩;FLUX模型基于Flow Matching,同样展示了卓越的生成质量。这表明流模型已经达到了与扩散模型相当的生成能力。

6 实际应用与前沿进展

理论研究的最终目的是服务于实际应用。扩散模型和流模型在图像生成、视频生成、音频生成等多个领域都有广泛的应用。本节将介绍这些技术的实际应用情况,并讨论最新的研究进展。

6.1 图像生成领域的应用

图像生成是扩散模型和流模型最主要的应用领域。2022年,Stable Diffusion的发布标志着扩散模型进入大众视野。Stable Diffusion采用了潜空间扩散(Latent Diffusion)的架构,将扩散过程从像素空间转移到低维潜空间,大大降低了计算成本。这一创新使得消费级GPU也能够运行高质量的图像生成模型。

Stable Diffusion的成功催生了大量的应用和生态系统。Automatic1111、ComfyUI等用户界面使得非技术用户也能方便地使用图像生成技术;ControlNet、LoRA等微调技术使得用户可以精确控制生成过程;Civitai等模型分享平台促进了社区的繁荣发展。这些应用和工具共同构成了AIGC的基础设施。

2024年,Stable Diffusion 3的发布标志着流模型在图像生成领域的崛起。SD3采用了Rectified Flow架构,结合了多模态扩散Transformer(MMDiT)骨干网络,在生成质量和效率方面都取得了显著提升。SD3的核心创新包括:重新加权的Rectified Flow训练目标,对感知相关尺度的时间步进行偏重采样;改进的Transformer架构,更好地融合文本和图像信息;以及更强大的文本编码器,提高文本理解能力。

FLUX是另一个基于Flow Matching的图像生成模型。由Black Forest Labs开发的FLUX采用了120亿参数的Transformer架构,展示了Flow Matching在大规模模型上的可扩展性。FLUX的特点包括:高质量的文本到图像生成、支持多种宽高比、以及快速的生成速度。FLUX的成功证明了Flow Matching不仅可以达到扩散模型的生成质量,还可以在效率方面取得优势。

6.2 视频生成领域的应用

视频生成是图像生成的自然延伸,但面临着更大的挑战。视频不仅需要生成高质量的帧,还需要保持时间上的连贯性。扩散模型在视频生成领域已经取得了显著进展,代表性的工作包括Runway的Gen-2、Pika Labs、以及OpenAI的Sora。

Sora是视频生成领域的里程碑式工作。它采用了DiT(Diffusion Transformer)架构,将视频压缩为时空补丁(Spacetime Patches),然后在潜空间进行扩散。Sora展示了扩散模型在长视频生成方面的能力,可以生成长达一分钟的连贯视频。然而,Sora的计算成本极高,训练和推理都需要大量的GPU资源。

流模型在视频生成领域的应用还处于早期阶段,但已经展现出潜力。Flow Matching的确定性生成特性可能有助于保持视频的时间连贯性;一步生成的能力可以显著降低视频生成的延迟。随着研究的深入,我们有望看到更多基于流模型的视频生成系统。

6.3 其他领域的应用

除了图像和视频生成,扩散模型和流模型还在其他领域有着广泛的应用。在音频生成领域,Diffusion模型已经被用于语音合成、音乐生成、音频超分辨率等任务。在3D生成领域,扩散模型被用于生成3D模型、场景重建、神经辐射场等。在科学计算领域,扩散模型被用于分子生成、蛋白质结构预测、材料设计等。

流模型在这些领域的应用也在快速发展。Flow Matching的灵活性和效率使其在许多任务中具有优势。特别是在需要精确控制生成的场景中,流模型的确定性特性可能更有价值。例如,在分子生成任务中,流模型可以学习从简单分布到分子分布的最优传输映射,生成具有特定性质的分子。

7 未来展望与研究趋势

生成式AI领域正在快速发展,扩散模型和流模型的范式转变只是这一进程中的一个阶段。展望未来,我们可以预见多个重要的研究方向和发展趋势。

7.1 统一框架的探索

扩散模型和流模型虽然在形式上有所不同,但它们都建立在相似的理论基础之上。从随机微分方程的角度来看,扩散模型对应于包含随机项的SDE,而流模型对应于确定性的ODE。这种联系提示我们,可能存在一个更一般的统一框架,能够涵盖这两种方法。

实际上,Stochastic Interpolants方法已经展示了这种统一的可能性。通过定义适当的插值过程,我们可以在确定性和随机性之间进行插值,得到一个连续的模型族。这一框架不仅统一了扩散模型和流模型,还提供了设计新模型的灵活性。

另一个统一的方向是基于最优传输的视角。扩散模型和流模型都可以看作是在学习从噪声分布到数据分布的传输映射。最优传输理论提供了分析这一传输过程的强大工具,可能揭示两种方法之间的深层联系。

7.2 效率的持续提升

生成效率一直是生成式模型的核心挑战。虽然Flow Matching已经展示了实现一步生成的可能性,但在实际应用中,多步采样仍然是主流。如何进一步提高采样效率,实现真正的高质量一步生成,是一个重要的研究方向。

一个有前景的方向是蒸馏技术。通过将多步模型的知识蒸馏到单步模型,可以在保持生成质量的同时大幅提高效率。Progressive Distillation、Consistency Training等方法已经展示了这一方向的潜力。

另一个方向是设计更高效的神经网络架构。Transformer架构虽然在表达能力方面具有优势,但其计算复杂度随序列长度二次增长。Mamba、State Space Models等新型架构可能为生成式模型带来效率的提升。

7.3 可控性与可解释性

随着生成式AI的广泛应用,可控性和可解释性变得越来越重要。用户需要精确控制生成过程,以满足特定的创作需求;研究者和监管者需要理解模型的决策过程,以确保安全和公平。

在可控性方面,条件生成技术已经取得了显著进展。文本条件、图像条件、布局条件等多种控制方式已经被开发出来。然而,如何实现更精细、更直观的控制,仍然是一个开放问题。

在可解释性方面,生成式模型的黑箱性质是一个挑战。理解模型为什么生成特定的输出,识别和消除偏见,确保生成内容的安全性,都需要更深入的研究。流模型的确定性特性可能为可解释性研究提供便利,因为可以精确追踪从输入到输出的变换过程。

8 总结与展望

生成式AI正在经历从扩散模型到流模型的范式转变。这一转变不仅仅是技术细节的优化,更是对生成模型本质理解的深化。扩散模型基于随机过程,通过逐步去噪来生成样本;流模型基于确定性变换,通过学习最优传输路径来实现生成。两种方法各有优势,在不同的应用场景中发挥着重要作用。

Flow Matching的提出是这一范式转变的关键节点。通过实现CNF的无模拟训练,Flow Matching使得流模型真正成为扩散模型的有力竞争者。Rectified Flow进一步简化了理论框架,展示了实现一步生成的可能性。Stable Diffusion 3和FLUX等模型的成功应用证明了流模型在实际任务中的有效性。

展望未来,生成式AI的发展将继续沿着效率提升、质量改进、可控性增强等方向前进。扩散模型和流模型的融合与统一可能带来新的突破。无论技术如何演进,对理论基础的理解始终是推动进步的关键。希望本文能够为读者提供对生成式AI前沿技术的深入理解,激发更多的研究与创新。


参考文献

[1] Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems, 33, 6840-6851. arXiv:2006.11239

[2] Lipman, Y., Chen, R. T. Q., Ben-Hamu, H., Nickel, M., & Le, M. (2022). Flow Matching for Generative Modeling. arXiv preprint arXiv:2210.02747.

[3] Liu, X., Gong, C., & Liu, Q. (2022). Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow. arXiv preprint arXiv:2209.03003.

[4] Song, Y., Sohl-Dickstein, J., Kingma, D. P., Kumar, A., Ermon, S., & Poole, B. (2021). Score-Based Generative Modeling through Stochastic Differential Equations. International Conference on Learning Representations.

[5] Song, Y., & Ermon, S. (2019). Generative Modeling by Estimating Gradients of the Data Distribution. Advances in Neural Information Processing Systems, 32.

[6] Chen, R. T. Q., Rubanova, Y., Bettencourt, J., & Duvenaud, D. (2018). Neural Ordinary Differential Equations. Advances in Neural Information Processing Systems, 31.

[7] Esser, P., Kulal, S., Blattmann, A., Entezari, R., Müller, J., Sauer, A., … & Ommer, B. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis. arXiv preprint arXiv:2403.03206.

[8] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 10684-10695.

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐