流匹配（Flow Matching）

Flow Matching（FM）由连续归一化流（CNFs）发展而来。首先简要介绍 CNF 的基本原理。与CNFs优化对数似然不同，Flow Matching直接优化向量场，并且不需要逆向求解ODE。ddtϕtx0utϕtx0dtdϕtx0utϕtx0))其中x0x_0x0表示初始分布的采样点，ϕtx0ϕtx0表示时刻ttt时初始点x0x_0x0达到的位置。

yu_anan111

1675人浏览 · 2025-03-16 18:10:32

yu_anan111 · 2025-03-16 18:10:32 发布

背景介绍

Flow Matching（FM）由连续归一化流（CNFs）发展而来。首先简要介绍 CNF 的基本原理。

连续归一化流（CNFs）

1. 运动轨迹建模

运动轨迹通过常微分方程（ODE）建模：
$\frac{dz}{dt} = f(z(t), t)$
其中 $z (t)$ 表示系统的状态， $f (z (t), t)$ 是向量场，通过神经网络进行参数化建模。

基于该轨迹，可以将服从初始分布 $p_0(x)$ 的数据转换到目标分布 $p_T(z)$ 。 $p_0(x)$ 是已知的初始分布（例如高斯分布）。 $p_T(z)$ 是目标分布，可能是未知的，需要通过数据样本近似。

2. 损失函数构建

1). 从目标分布中采样：
从目标分布 $p_T(z)$ 中采样得到样本 $z$ 。如果 $p_T(z)$ 未知，可以通过数据样本近似。

2). 逆向ODE求解初始分布：
通过逆向求解ODE，从目标分布 $p_T(z)$ 中的样本 $z$ 反推出初始分布 $p_0(x)$ 中的样本点 $x$ 。

3). 计算概率密度：
假设 $f$ 在 $z$ 上是一致Lipschitz连续的，并且在 $t$ 上是连续的，那么对数概率密度的变化遵循以下微分方程：
$\frac{\partial \log p(z(t))}{\partial t} = -\mathrm{tr}\left( \frac{\partial f}{\partial z(t)} \right)$
其中 $tr\mathrm{tr}$ 表示矩阵的迹， $∂f∂z(t)\frac{\partial f}{\partial z(t)}$ 是 $f$ 对 $z (t)$ 的雅可比矩阵。

从时间 $0$ 到 $T$ 积分，得到：
$\log p_T(z) = \log p_0(x) - \int_0^T \mathrm{tr}\left( \frac{\partial f}{\partial z(s)} \right) ds$

4). 最大化似然函数：
为了拟合目标分布，最大化似然函数：
$\mathcal{L} = \frac{1}{N} \sum_{i=1}^{N} \log p_T(z_i)$

Flow Matching（FM）

1. 概述

与CNFs优化对数似然不同，Flow Matching直接优化向量场，并且不需要逆向求解ODE。Flow Matching 仍然使用常微分方程（ODE）建模运动轨迹，只是形式不同：
$\frac{d}{dt} \phi_t(x_0) = u_t(\phi_t(x_0))$
其中 $x_0$ 表示初始分布的采样点， $ϕt(x0)\phi_t(x_0)$ 表示时刻 $t$ 时初始点 $x_0$ 达到的位置。

2. 向量场的参数化与损失函数

1). 向量场的参数化：
使用神经网络参数化 $vt(ϕt(x0))v_t(\phi_t(x_0))$ 来近似真实的向量场 $ut(ϕt(x0))u_t(\phi_t(x_0))$ 。

2). Flow Matching 损失函数：
$\mathcal{L}_{\mathrm{FM}}(\theta) = \mathbb{E}_{t, p_t(x)} \| v_t(x) - u_t(x)\|^2$
其中 $p_t(x)$ 是时刻 $t$ 时的概率密度， $x$ 取自 $p_t(x)$ ， $u_t(x)$ 是真实的向量场。

3). 条件 Flow Matching 损失函数：
由于 $p_t(x)$ 和 $u_t(x)$ 通常是未知的，无法直接优化损失函数。根据《FLOW MATCHING FOR GENERATIVE MODELING》定理2，优化条件损失函数与直接优化上述损失函数一致：
$\mathcal{L}_{\mathrm{CFM}}(\theta)=\mathbb{E}_{t,q(x_1),p_t(x|x_1)}\Vert v_t(x)-u_t(x|x_1)\Vert^2$
其中 $p_t(x|x_1)$ 是条件概率密度， $u_t(x|x_1)$ 是条件向量场。

3. 条件概率密度的选取

假设条件概率密度 $p_t(x|x_1)$ 为高斯分布：
$p_t(x|x_1)=\mathcal{N}(x\,|\,\mu_t(x_1),\sigma_t(x_1)^2I)$

边界条件：

初始时刻 $t = 0$ 时， $p_0(x|x_1)=p(x)$ （初始分布）。
终止时刻 $t = 1$ 时， $p1(x∣x1)=N(x∣x1,σ2I)p_1(x|x_1)=\mathcal{N}(x|x_1,\sigma^2I)$ （目标分布）。

4. 轨迹

由于生成特定概率路径的轨迹有无数种可能，此处选择简单的仿射变换作为轨迹：
$\psi_t(x_0)=\sigma_t(x_1)x_0+\mu_t(x_1)$
其中 $x_0$ 是初始点，服从标准正态分布 $p (x)$ 。

5. 重参数化

利用重参数，将对 $p_t(x|x_1)$ 的采样转变为对 $p(x_0)$ 的采样，重写条件Flow Matching 损失函数：
$\begin{align*}\mathcal{L}_{\mathrm{CFM}}(\theta) = \mathbb{E}_{t,q(x_1),p(x_0)} \Big\| v_t(\psi_t(x_0)) - \frac{d}{dt} \psi_t(x_0) \Big\|^2.\end{align*}$

6. 向量场推导

条件向量场 $ut(ψt(x0)∣x1)u_t(\psi_t(x_0)|x_1)$ 是轨迹 $ψt(x0)\psi_t(x_0)$ 对时间 $t$ 的导数：
$u_t(\psi_t(x_0)|x_1)=\frac{d}{dt} \psi_t(x_0)$
对 $ψt(x0)\psi_t(x_0)$ 求导，得到：
$\psi_t'(x_0)=\sigma_t'(x_1)x_0+\mu_t'(x_1)$
从轨迹方程中解出 $x_0$ ：
$x_0=\frac{\psi_t(x_0)-\mu_t(x_1)}{\sigma_t(x_1)}$
将 $x_0$ 代入导数表达式，得到条件向量场：
$u_t(\psi_t(x)|x_1)=\frac{\sigma'_t(x_1)}{\sigma_t(x_1)}\left(\psi_t(x)-\mu_t(x_1)\right)+\mu'_t(x_1)$

举例

1. VP扩散路径

VP扩散路径（来自《SCORE-BASED GENERATIVE MODELING THROUGH STOCHASTIC DIFFERENTIAL EQUATIONS》中的公式29），此处为了区分，对变量名作了改变：
$p_\tau(y|y_0)=\mathcal{N}(y\,|\,\alpha_{\tau}y_0,(1-\alpha_{\tau}^2)\,I),\alpha_{\tau}=e^{-\frac12T({\tau})},T({\tau})=\int_0^{\tau} \beta(s)ds$
上式中 $y_0$ 代表数据点，本文中 $x_1$ 代表数据点。上式的时间是从数据点到噪点，本文的时间是噪点到数据点，因此 $t=1−τt=1-\tau$ ，那么：
$p_t(x|x_1)=\mathcal{N}(x\,|\,\alpha_{1-t}x_1,(1-\alpha_{1-t}^2)\,I),\alpha_t=e^{-\frac12T(t)},T(t)=\int_0^t\beta(s)ds$
即：
$\mu_t(x_1)=\alpha_{1-t}x_1,\sigma_t(x_1)=\sqrt{1-\alpha_{1-t}^2}$
代入得条件向量场：
$u_t(x|x_1)=\frac{\alpha'_{1-t}}{1-\alpha^2_{1-t}}\left(\alpha_{1-t}x-x_1\right)=-\frac{T'(1-t)}{2}\left[\frac{e^{-T(1-t)}x-e^{-\frac{1}{2}T(1-t)}x_1}{1-e^{-T(1-t)}}\right]$