（论文速读）CCM：使用文本到图像一致性模型的实时可控视觉内容创建

CCM框架，首次实现了基于一致性模型(CMs)的实时可控图像生成。研究探索了三种控制策略：直接迁移扩散模型ControlNet、一致性训练定制ControlNet和统一适配器方法。实验表明，定制训练的CM ControlNet在4步生成时达到0.9秒/图（加速26倍），FID仅7.61，接近扩散模型质量。关键发现包括：1）CMs可作为独立生成模型；2）模型间存在语义层一致但细节层差异；3）适配器能

LJ1147517021

746人浏览 · 2026-01-12 16:01:53

LJ1147517021 · 2026-01-12 16:01:53 发布

论文题目：CCM: Real-Time Controllable Visual Content Creation Using Text-to-Image Consistency Models（使用文本到图像一致性模型的实时可控视觉内容创建）

会议：ICML2024

摘要：一致性模型(CMs)已经显示出用很少的步骤创建高质量图像的前景。然而，在预训练的CMs中添加新的条件控制的方法尚未被探索。在本文中，我们探讨了利用一致性模型的生成能力和效率来促进通过ControlNet创建可控视觉内容的关键主题。首先，我们观察到为扩散模型(DMs)训练的ControlNet可以直接应用于CMs进行高级语义控制，但牺牲了图像的低级细节和真实感。为了解决这个问题，我们使用一致性训练为ControlNet开发了一个cms定制的训练策略(Song et al.， 2023)。验证了通过一致性训练技术可以成功地建立ControlNet。此外，利用一致性训练可以训练出统一的适配器，增强了DM控制网的自适应能力。我们定量和定性地评估了各种条件控制下的所有策略，包括素描、头部、轮廓、深度、人体姿势、低分辨率图像和蒙面图像，并使用预训练的文本到图像的潜在一致性模型。

CCM：一致性模型实现实时可控图像生成的突破

引言

在AI图像生成领域，扩散模型（Diffusion Models）凭借其卓越的生成质量已经成为主流技术。然而，扩散模型有一个显著的缺陷：生成速度慢。以Stable Diffusion为例，生成一张1024×1024的高质量图像通常需要50步迭代，耗时约23.6秒。这种缓慢的生成速度严重限制了实时应用的可能性。

一致性模型（Consistency Models, CMs）作为新一代生成模型，展现出了用极少步骤（甚至1步）生成高质量图像的潜力。但一个关键问题始终悬而未决：如何为一致性模型添加条件控制能力，就像ControlNet为扩散模型所做的那样？

来自中国科学技术大学、阿里巴巴集团等机构的研究团队在ICML 2024上发表的论文《CCM: Real-Time Controllable Visual Content Creation Using Text-to-Image Consistency Models》，首次系统性地解决了这个问题。本文将深入解读这篇论文的核心贡献和技术细节。

问题背景与挑战

现有技术的局限

扩散模型的速度瓶颈
- 需要多次迭代（通常50-100步）才能生成高质量图像
- 使用ControlNet进行可控生成时，需要双倍的函数评估（因为classifier-free guidance）
- 在1024×1024分辨率下，单张图像生成耗时约23.6秒
一致性模型的空白
- 虽然一致性模型可以实现1-4步生成，但缺乏条件控制机制
- 如何为一致性模型训练ControlNet尚未被探索
- 扩散模型的ControlNet能否直接迁移到一致性模型存疑

核心研究问题

论文聚焦于三个关键问题：

能否直接将扩散模型的ControlNet应用于一致性模型？
能否使用consistency training技术从头训练专属的ControlNet？
如何更好地适配扩散模型的ControlNet到一致性模型？

技术方法：三种训练策略

研究团队提出并比较了三种为一致性模型添加条件控制的策略。

策略一：直接迁移（DM's ControlNet + CM）

核心思想：先为扩散模型训练ControlNet，然后直接应用到一致性模型。

理论基础：

一致性模型直接将概率流ODE轨迹上的任意点投影到数据
扩散模型通过迭代ODE求解器沿着概率流ODE生成数据
两者共享相同的概率流ODE，因此ControlNet的知识可能（部分）可迁移

训练目标：

其中ψ是ControlNet的参数，目标是最小化噪声预测误差。

优势与劣势：

✅ 可以直接复用现成的扩散模型ControlNet
✅ 无需重新训练，部署简单
❌ 性能次优，特别是低层细节和真实感方面
❌ 添加新控制时仍需通过扩散模型作为中介

策略二：Consistency Training（CM's ControlNet + CM）

核心思想：使用consistency training技术直接为一致性模型从零训练ControlNet。

理论创新：论文证明了一致性模型可以作为独立的生成模型家族，通过consistency training技术训练ControlNet，而无需依赖扩散模型。

训练目标：

其中：

f_{θ,ψ}是集成了ControlNet的一致性模型
f_{θ,ψ}^-是teacher模型（通过stopgrad获得）
d是距离函数（实验中使用L1距离表现最佳）
只有ControlNet的参数ψ是可训练的

训练细节：

超参数N=50（将[0,T]区间划分为50段）
批大小：32
训练步数：100,000步
距离函数：L1距离（优于MSE和Charbonnier函数）
教师模型：θ^- = stopgrad(θ)（不使用EMA）

优势：

✅ 端到端训练，性能最优
✅ 可以同时实现高层语义控制和低层细节控制
✅ 生成图像真实感更强

策略三：统一适配器（DM's ControlNet + Adapter + CM）

核心思想：训练一个统一的适配器（adapter），增强扩散模型ControlNet到一致性模型的适配能力。

动机：

直接迁移虽然可行但性能次优
完全重新训练成本高
适配器可以在保留DM's ControlNet知识的同时，弥合CM和DM之间的gap

训练目标：

其中：

k ~ U([1, K])，K是涉及的条件数量
Δψ + ψ_k构成新的ControlNet
适配器在多个条件上联合训练（论文中使用5个条件：sketch, canny, mask, pose, SR）

适配器架构：

残差块结构：Conv → Conv → Skip Connection
残差块数量与对应ControlNet的输出长度一致
每个残差块包含两个卷积模块和一个跳跃连接

优势：

✅ 可以适用于训练集内的条件（in-context）
✅ 对训练集外的条件也有效果（training-free，如depth和hed）
✅ 训练成本较低，一次训练多条件共享

实验设置与评估

实验配置

文本到图像一致性模型训练：

基础模型：从Stable Diffusion蒸馏的Latent Consistency Model (LCM)
分辨率：1024×1024
N=200，CFG=5.0
批大小：128，学习率：8e-6
训练成本：约160 A100 GPU天
特殊处理：强制zero-terminal SNR对齐训练和推理

条件控制类型（7种）：

Sketch：边缘检测模型 + 简化算法提取草图
Canny：Canny边缘检测器
Hed：整体嵌套边缘检测
Depthmap：Midas深度估计模型
Human Pose：人体姿态检测
Mask：随机遮罩（4通道：3通道RGB + 1通道二值掩码）
Super-resolution：16×超分辨率（下采样到64×64作为条件）

训练数据集：

ImageNet21K
WebVision
过滤版LAION（去除重复、低分辨率和有害内容）

评估指标

图像质量：FID (Fréchet Inception Distance)，越低越好
条件一致性：Fidelity = ‖h(y) - c_ctrl‖₁
- h(·)是提取条件的模型
- y是生成图像
- c_ctrl是输入条件
- 越低表示生成图像与条件越一致
效率指标：
- NFEs：函数评估次数
- Time：实际运行时间（单个A100 GPU）

实验结果

整体性能比较（Table 2数据）

下表展示了四种方法在四个典型任务上的定量对比（4步生成）：

方法	NFEs↓	Time(s)↓	Sketch2Image<br/>FID↓/Fidelity↓	Depth2Image<br/>FID↓/Fidelity↓	Mask2Image<br/>FID↓/Fidelity↓	16×SR<br/>FID↓/Fidelity↓	平均<br/>FID↓/Fidelity↓
DM's ControlNet+DM	50×2	23.6	8.40/0.106	11.48/0.177	4.37/0.085	5.01/0.121	7.31/0.122
DM's ControlNet+CM	4	0.9	21.88/0.091	21.12/0.190	10.27/0.457	11.41/0.146	16.16/0.221
DM's ControlNet+CM+Adapter	4	1.0	11.91/0.113	12.83/0.175	9.16/0.452	7.21/0.146	10.27/0.221
CM's ControlNet+CM	4	0.9	9.30/0.103	9.87/0.175	4.98/0.110	6.31/0.134	7.61/0.130

关键发现：

效率提升显著：
- CM仅需4步，而DM需要50×2=100步
- 时间从23.6秒降至0.9秒，加速26倍
- NFEs减少25倍
性能保持出色：
- CM's ControlNet的平均FID为7.61，仅略高于DM的7.31
- 在某些任务上甚至超越DM（如Depth2Image: 9.87 vs 11.48）
适配器有效性：
- 加入Adapter后，FID从16.16降至10.27
- 即使对未训练的条件（如Depth）也有改善

单步生成性能（极致速度）

方法	NFEs↓	Time(s)↓	Sketch2Image<br/>FID↓/Fidelity↓	Depth2Image<br/>FID↓/Fidelity↓	Mask2Image<br/>FID↓/Fidelity↓	16×SR<br/>FID↓/Fidelity↓	平均<br/>FID↓/Fidelity↓
DM's ControlNet+CM	1	0.2	30.71/0.083	26.08/0.193	14.67/0.431	21.32/0.237	23.19/0.231
DM's ControlNet+CM+Adapter	1	0.2	20.43/0.111	19.75/0.176	13.95/0.413	13.73/0.168	16.96/0.221
CM's ControlNet+CM	1	0.2	10.39/0.095	12.94/0.169	5.44/0.082	7.60/0.118	9.09/0.116

重要观察：

即使在1步生成下，CM's ControlNet仍能保持较好的质量（FID=9.09）
生成时间仅0.2秒，相比DM的23.6秒，加速118倍
这为实时应用开辟了可能

深度技术分析

分析1：为什么DM's ControlNet迁移效果次优？

论文通过相关性分析揭示了DM和CM的ControlNet之间的差异：

实验设计：

计算DM's ControlNet和CM's ControlNet在不同网络深度生成的控制信号之间的余弦相似度
网络深度从0.0（浅层，对应U-Net瓶颈层）到1.0（深层，对应输出层）

结果（Figure 5a）：

浅层（Depth=0.0）相似度高：约0.55
- 浅层对应高层语义控制
- 两个ControlNet在高层语义上基本一致
- 这解释了为什么直接迁移可以工作
深层（Depth=1.0）相似度低：约0.16
- 深层对应低层细节控制
- 两个ControlNet在低层细节上差异显著
- 这解释了为什么直接迁移会损失细节和真实感

傅里叶分析（Figure 5b）：

在浅层，两个信号的频谱幅度接近
在深层，频谱波动模式相似但尺度不同
进一步证实了高层一致、低层差异的结论

实际影响：

DM's ControlNet可以正确理解和传递语义信息（如"这是一只狗"）
但在细节刻画上失真（如毛发纹理、光影效果不自然）

分析2：距离函数的选择（Table 4）

论文测试了四种距离函数：

距离函数	FID↓	Fidelity↓
MSE (均方误差)	20.16	0.147
Charbonnier	11.91	0.117
L1 (绝对值)	9.30	0.103
Random pick (随机选择)	11.37	0.116

结论：L1距离显著优于其他选项，这可能因为L1对异常值更鲁棒。

分析3：超参数N的影响（Table 5）

N控制时间区间的划分粒度：

结论：N=50是最佳选择，过大的N反而降低性能。

分析4：对文本提示的鲁棒性（Table 3）

测试了两种提示方式：

配对标题：与图像相匹配的详细描述
通用提示："A high-quality and professional image"

结论：通用提示仅略微影响FID，模型对文本提示具有一定鲁棒性。

分析5：反向迁移实验

论文还测试了将CM's ControlNet迁移到DM的效果（Figure 6）：

结果：

可以迁移语义级控制
但在调节图像细节上仍然次优
进一步证明了CM和DM之间的本质差异

分析6：定制化生成（Figure 7）

论文验证了consistency training loss可以兼容图像定制化过程：

使用DreamBooth技术
基于CM进行个性化生成
成功生成了定制化的图像

视觉结果展示

多方法对比（Figure 3）

论文在多种条件下对比了四种方法的视觉效果：

Sketch条件：

DM's ControlNet+DM：质量最高，细节丰富，但慢
DM's ControlNet+CM：能理解草图语义，但图像不够真实
DM's ControlNet+CM+Adapter：比直接迁移好，但仍有改进空间
CM's ControlNet+CM：质量接近DM，速度快26倍

Mask Inpainting条件：

DM's ControlNet+CM：在遮罩区域外产生明显变化（控制失败）
CM's ControlNet+CM：正确只修改遮罩区域内容

Depth和Hed条件：

适配器对未训练条件也有改善效果
CM's ControlNet始终表现最佳

不同文本提示效果（Figure 4）

使用同一草图条件，测试不同文本提示：

"A high-quality and professional image"（通用提示）
"A yellow dog lies on the grassland and enjoys the sun"（详细描述）
"watercolor style, a dog lies on the beach"（艺术风格）

结论：模型能够灵活响应不同的文本提示，保持条件控制的同时适应文本描述。

技术洞察与启示

1. 一致性模型的独立性

论文最重要的发现是：一致性模型可以作为完全独立的生成模型家族，而不是扩散模型的"附庸"。通过consistency training，可以直接为CM训练各种控制机制，无需依赖DM。

2. 模型间的gap是真实存在的

虽然CM和DM都基于概率流ODE，但两者在：

训练目标（直接预测vs迭代去噪）
网络架构（单步vs多步）
信息流动（直接投影vs渐进细化）

等方面存在本质差异。这种差异导致ControlNet不能完美迁移。

3. 适配器的潜力

统一适配器的成功表明：

可以用轻量级模块弥合不同模型间的gap
多条件联合训练的适配器具有泛化能力
这为模型间知识迁移提供了新思路

4. 速度与质量的新平衡

CCM证明了可以在保持接近DM质量的同时，将生成速度提升26-118倍。这为实时应用（如视频生成、交互式编辑）开辟了道路。

实际应用价值

1. 实时图像编辑

0.2-0.9秒的生成速度支持实时反馈
用户可以即时看到编辑效果

2. 视频生成

快速生成速度降低视频生成成本
30fps视频理论上可行（0.033秒/帧）

3. 移动设备部署

更少的计算需求
适合边缘设备运行

4. 大规模应用

降低服务器成本
支持更多并发用户

局限性与未来方向

当前局限

质量仍有小幅损失：平均FID从7.31提升到7.61
训练成本较高：基础CM需要160 A100 GPU天
某些条件表现不够稳定：如Mask inpainting的Fidelity相对较高

未来研究方向

更多条件类型：
- 语音控制
- 3D几何控制
- 时序控制（视频）
进一步加速：
- 探索亚线性步数生成
- 模型压缩和量化
质量提升：
- 改进consistency training目标
- 更好的适配器设计
理论理解：
- 深入分析CM和DM的差异
- 探索最优迁移策略

结论

CCM这篇论文在文本到图像生成领域做出了重要贡献：

首次系统性探索了为一致性模型添加条件控制的方法，填补了这一领域的空白
证明了consistency training可以直接训练ControlNet，确立了CM作为独立生成模型家族的地位
实现了26-118倍的速度提升，同时保持接近扩散模型的质量
揭示了模型间迁移的机制，通过相关性分析解释了为什么直接迁移在低层细节上失败

这项工作不仅推动了一致性模型的发展，也为实时可控图像生成开辟了新的可能。随着技术的进一步成熟，我们有望在不久的将来看到更多基于一致性模型的实时AI应用。

关键词：一致性模型、ControlNet、实时生成、条件控制、扩散模型、文本到图像生成

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

刚刚，Anthropic 用 Claude Code 团灭了一大批 AI 初创公司！

2048 AI社区

WorldModel_Theory_002_PPT

这句话其实是在说一件经典事：在 POMDP 里，如果你用历史构造一个信念态/信息态（belief state / agent state），这个“新状态”对智能体来说就是可观测的，并且可以变成 Markov，从而把问题转成一个 MDP 来做。Dreamer 的 (s_t) 就扮演了这种“agent state”（智能体内部状态）的角色：RL4AA 的讲义也明确区分了environment stat