Diffusion模型十年演进(2015–2025)
摘要: 2015-2025年,Diffusion模型从学术萌芽发展为多模态生成神器,中国实现从跟随到全球领跑。2015年起步于低清图像生成,2019年DDPM框架成熟,2021年Stable Diffusion推动高清文本到图像。2023年Sora引爆视频生成,中国快手Kling、字节Vidu等同步突破。2025年进阶为电影级8K长视频,支持意图级控制和物理一致性,Kling 2、Vidu 3等引
·
Diffusion模型十年演进(2015–2025)
一句话总论:
2015年Diffusion模型还只是“DDPM论文前的噪声添加-去噪”学术萌芽,2025年已进化成“万亿级多模态扩散大模型+物理一致性+长时序视频+意图级控制+量子加速自进化”的普惠生成神器,中国从跟随Denoising Diffusion跃升全球领跑者(Kling、Vidu、生数科技、DeepSeek-Diffusion等主导),生成质量从模糊低清升至电影级8K全一致,时长从秒级到10分钟+,可控性从随机噪声到精确意图,推动AI生成从“学术玩具”到“全民级电影/游戏/设计创作引擎”的文明跃迁。
十年演进时间线总结
| 年份 | 核心范式跃迁 | 代表模型/技术 | 生成质量/时长 | 可控性/应用 | 中国贡献/里程碑 |
|---|---|---|---|---|---|
| 2015 | 扩散概率模型初探 | DDPM论文前身(Deep Unsupervised Learning using Nonequilibrium Thermodynamics) | 低清模糊 / 静态图像 | 无控制 | 全球学术萌芽,中国几乎无 |
| 2017 | 去噪扩散初步 | Improved DDPM | 256x256初步清晰 / 静态 | 简单条件 | 中国跟进扩散研究,产业化零 |
| 2019 | DDPM爆发+条件生成 | DDPM + Guided Diffusion | 512x512清晰 / 静态 | 文本/类条件 | 全球学术,中国初代条件扩散 |
| 2021 | 高分辨率+加速采样 | Latent Diffusion + DALL·E 2 | 1024x1024 / 静态 | 文本到图像 | 百度文心 + 阿里NÜWA初代扩散图像 |
| 2023 | 文本到视频+大模型元年 | Make-A-Video / Gen-2 / Sora | 1080p 几秒–1分钟 / 中等一致 | 文本+图像控制 | 快手Kling + 字节Vidu + 生数Runway中国版首发 |
| 2025 | VLA意图级+物理一致终极形态 | Sora 2 / Kling 2 / Vidu 3 | 4K–8K 5–10分钟+ / 电影级一致 | 意图/物理/多镜头精确控制 | Kling 2 / Vidu 3 / DeepSeek-Diffusion领跑全球 |
1. 2015–2018:扩散概率模型萌芽时代
- 核心特征:扩散模型以“前向加噪+逆向去噪”概率框架为主,低分辨率模糊图像生成,非实时,学术探索阶段。
- 关键进展:
- 2015年:Nonequilibrium Thermodynamics论文奠基扩散思想。
- 2016–2017年:Improved DDPM提升采样效率。
- 2018年:DDPM框架初步成熟。
- 挑战与转折:生成慢、质量差;条件生成+加速采样需求爆发。
- 代表案例:学术低清图像生成,中国跟进但无产业。
2. 2019–2022:高分辨率+文本到图像转型时代
- 核心特征:DDPM+条件生成+Latent Diffusion(潜空间扩散)降低计算,1024x1024高清图像,文本控制初步。
- 关键进展:
- 2019年:Guided Diffusion条件生成。
- 2020–2021年:Latent Diffusion(Stable Diffusion前身)+DALL·E 2 CLIP引导。
- 2022年:Stable Diffusion开源,中国文心/通义初代文本到图像。
- 挑战与转折:仅静态图像;视频+物理一致性需求爆发。
- 代表案例:Stable Diffusion 1.5,中国开源SD爆发。
3. 2023–2025:文本到视频+意图级普惠时代
- 核心特征:万亿级多模态扩散大模型+物理一致性+长时序视频+意图级控制,4K–8K电影级,时长5–10分钟+。
- 关键进展:
- 2023年:OpenAI Sora震撼全球,快手Kling/字节Vidu/生数科技同步首发。
- 2024年:Kling 1.5/Vidu 2.0物理一致性+长时序领跑。
- 2025年:Kling 2/Vidu 3/DeepSeek-Diffusion,意图级多镜头+自进化,普惠手机端实时生成。
- 挑战与转折:伦理/版权;大模型+量子加速标配。
- 代表案例:Kling 2(10分钟电影级一致性+物理真实),Vidu 3(意图级多角色社交视频)。
一句话总结
从2015年模糊低清静态图像的“学术玩具”到2025年电影级10分钟意图级视频的“全民创作神器”,十年间Diffusion模型由概率去噪转向多模态物理一致生成,中国Kling/Vidu/生数等主导全球创新+普惠下沉,推动AI生成从“科研demo”到“人人导演/设计师”的文明跃迁,预计2030年实时互动无限长电影级生成+全域永不失真自愈。
数据来源于arXiv综述、CVPR 2025及中国厂商技术白皮书。
更多推荐



所有评论(0)