Diffusion模型十年演进（2015–2025）

摘要： 2015-2025年，Diffusion模型从学术萌芽发展为多模态生成神器，中国实现从跟随到全球领跑。2015年起步于低清图像生成，2019年DDPM框架成熟，2021年Stable Diffusion推动高清文本到图像。2023年Sora引爆视频生成，中国快手Kling、字节Vidu等同步突破。2025年进阶为电影级8K长视频，支持意图级控制和物理一致性，Kling 2、Vidu 3等引

jzwspace

541人浏览 · 2026-01-02 10:17:19

jzwspace · 2026-01-02 10:17:19 发布

Diffusion模型十年演进（2015–2025）

一句话总论：
2015年Diffusion模型还只是“DDPM论文前的噪声添加-去噪”学术萌芽，2025年已进化成“万亿级多模态扩散大模型+物理一致性+长时序视频+意图级控制+量子加速自进化”的普惠生成神器，中国从跟随Denoising Diffusion跃升全球领跑者（Kling、Vidu、生数科技、DeepSeek-Diffusion等主导），生成质量从模糊低清升至电影级8K全一致，时长从秒级到10分钟+，可控性从随机噪声到精确意图，推动AI生成从“学术玩具”到“全民级电影/游戏/设计创作引擎”的文明跃迁。

十年演进时间线总结

年份	核心范式跃迁	代表模型/技术	生成质量/时长	可控性/应用	中国贡献/里程碑
2015	扩散概率模型初探	DDPM论文前身（Deep Unsupervised Learning using Nonequilibrium Thermodynamics）	低清模糊 / 静态图像	无控制	全球学术萌芽，中国几乎无
2017	去噪扩散初步	Improved DDPM	256x256初步清晰 / 静态	简单条件	中国跟进扩散研究，产业化零
2019	DDPM爆发+条件生成	DDPM + Guided Diffusion	512x512清晰 / 静态	文本/类条件	全球学术，中国初代条件扩散
2021	高分辨率+加速采样	Latent Diffusion + DALL·E 2	1024x1024 / 静态	文本到图像	百度文心 + 阿里NÜWA初代扩散图像
2023	文本到视频+大模型元年	Make-A-Video / Gen-2 / Sora	1080p 几秒–1分钟 / 中等一致	文本+图像控制	快手Kling + 字节Vidu + 生数Runway中国版首发
2025	VLA意图级+物理一致终极形态	Sora 2 / Kling 2 / Vidu 3	4K–8K 5–10分钟+ / 电影级一致	意图/物理/多镜头精确控制	Kling 2 / Vidu 3 / DeepSeek-Diffusion领跑全球

1. 2015–2018：扩散概率模型萌芽时代

核心特征：扩散模型以“前向加噪+逆向去噪”概率框架为主，低分辨率模糊图像生成，非实时，学术探索阶段。
关键进展：
- 2015年：Nonequilibrium Thermodynamics论文奠基扩散思想。
- 2016–2017年：Improved DDPM提升采样效率。
- 2018年：DDPM框架初步成熟。
挑战与转折：生成慢、质量差；条件生成+加速采样需求爆发。
代表案例：学术低清图像生成，中国跟进但无产业。

2. 2019–2022：高分辨率+文本到图像转型时代

核心特征：DDPM+条件生成+Latent Diffusion（潜空间扩散）降低计算，1024x1024高清图像，文本控制初步。
关键进展：
- 2019年：Guided Diffusion条件生成。
- 2020–2021年：Latent Diffusion（Stable Diffusion前身）+DALL·E 2 CLIP引导。
- 2022年：Stable Diffusion开源，中国文心/通义初代文本到图像。
挑战与转折：仅静态图像；视频+物理一致性需求爆发。
代表案例：Stable Diffusion 1.5，中国开源SD爆发。

3. 2023–2025：文本到视频+意图级普惠时代

核心特征：万亿级多模态扩散大模型+物理一致性+长时序视频+意图级控制，4K–8K电影级，时长5–10分钟+。
关键进展：
- 2023年：OpenAI Sora震撼全球，快手Kling/字节Vidu/生数科技同步首发。
- 2024年：Kling 1.5/Vidu 2.0物理一致性+长时序领跑。
- 2025年：Kling 2/Vidu 3/DeepSeek-Diffusion，意图级多镜头+自进化，普惠手机端实时生成。
挑战与转折：伦理/版权；大模型+量子加速标配。
代表案例：Kling 2（10分钟电影级一致性+物理真实），Vidu 3（意图级多角色社交视频）。

一句话总结

从2015年模糊低清静态图像的“学术玩具”到2025年电影级10分钟意图级视频的“全民创作神器”，十年间Diffusion模型由概率去噪转向多模态物理一致生成，中国Kling/Vidu/生数等主导全球创新+普惠下沉，推动AI生成从“科研demo”到“人人导演/设计师”的文明跃迁，预计2030年实时互动无限长电影级生成+全域永不失真自愈。

数据来源于arXiv综述、CVPR 2025及中国厂商技术白皮书。