概要

本周学习图像生成经典模型gan的相关知识,并于diffusion进行的比对。GAN开创了通过对抗学习进行内容生成的范式,而Diffusion模型在此基础上通过更稳定、迭代的路径实现了技术上的突破。当前,二者正走向融合,协同推动着生成式AI领域的进步

abstract

This week, I studied the classic image generation model GAN and compared it with Diffusion. GAN pioneered the paradigm of content generation through adversarial learning, while the Diffusion model has achieved technological breakthroughs by following a more stable and iterative path. Currently, the two are converging and jointly advancing the field of generative AI.

GAN模型

生成式对抗网络,核心是两个模型Generator与Discriminator。二者相互反馈,最终实现生成预期图片。起初的Generator是什么都不懂的,其生成的随机图片交由Discriminator进行评判,Discriminator初始也只会对图片库进行简单的学习。为了“骗过”Discriminator,Generator会不断调整,同理Discriminator也会为了应对进行升级

应用场景:图像风格迁移、图像修复与去噪、人脸生成、图像超分辨率

GAN模型的工作原理

基本架构与工作原理

  1. 固定生成器 G,训练判别器 D

    • 从真实数据集中取一批真实样本 X_real

    • 从随机噪声中生成一批假样本 X_fake = G(noise)

    • 将这两批数据混合,并打上标签(真实为1,生成为0),用来训练判别器 D。

    • 目标是让 D 对真实样本的输出接近 1,对假样本的输出接近 0。这实际上是一个二分类任务。

  2. 固定判别器 D,训练生成器 G

    • 再次生成一批假样本 X_fake = G(noise),并将它们输入到判别器 D。

    • 但是,这次我们把假样本的标签都设为“真实”(1)。

    • 训练生成器 G,目标是让判别器 D 对这批假样本的输出概率尽可能接近 1。

    • 换句话说,生成器在努力“欺骗”判别器,让判别器把这些假样本误认为是真的

GAN与diffusion的关联

GAN 通过生成器与判别器的内部对抗进行“一步到位”的逼真生成,而 Diffusion 则通过外部添加并逐步去除噪声这一“迭代式”过程实现更稳定、高质量的生成。本质上,Diffusion 可视为在继承 GAN 生成思想的基础上,解决了其训练不稳定、模式崩溃等核心痛点,从而成为当前的主流技术。如今,两者关系正从“竞争”转向“融合”,例如利用 GAN 的“一步生成”能力来加速 Diffusion 缓慢的采样过程,形成优势互补,共同推动生成式AI的发展。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐