diffusion 和 gan 的优缺点对比

trainGAN 训练的网络是生成器和判别器，生成器用于生成图像，判别器辅助生成器的训练。Diffusion 训练的噪声评估网络。sampleGAN 推理快，GAN的生成网络有维度变化。Diffusion 推理慢，需要迭代更多次，推理过程图像尺寸不变。训练难度GAN 的训练可能是不稳定的，容易出现模式崩溃和训练振荡等问题。Diffusion 训练loss收敛性好，比较平稳。模拟分布连续性Diffu

木水_

7787人浏览 · 2024-01-24 20:43:11

木水_ · 2024-01-24 20:43:11 发布

train
GAN 训练的网络是生成器和判别器，生成器用于生成图像，判别器辅助生成器的训练。
Diffusion 训练的噪声评估网络。

sample
GAN 推理快，GAN的生成网络有维度变化。
Diffusion 推理慢，需要迭代更多次，推理过程图像尺寸不变。

训练难度
GAN 的训练可能是不稳定的，容易出现模式崩溃和训练振荡等问题。
Diffusion 训练loss收敛性好，比较平稳。

模拟分布连续性
Diffusion相较于GAN可以模拟更加复杂，更加非线性的分布。但是Diffusion模拟的分布没有GAN连续性好，特别是在video风格迁移的时候，可能帧之间的关系会有很大差别。Diffusion就可以建模更加general，复杂的图像，大模型正需要像Diffusion这样的能力。所以SD等cv大模型才会依靠Diffusion越来越强大。
GAN可以在某种单个类别的生成上做到很好的效果，比如人脸。GAN很难在多种不同类别的图像组成的数据集上学到这样复杂的分布。

模型可控性
以StyleGAN为代表的GAN，生成器的输入latent space包括noise和latent code(w)。w的存在使得GAN的可控性更加直接，通过控制低维数据就可以控制高维数据的生成（但这种控制更加抽象），比如连续性插值操作和DragGAN等。
以SD为代表的Diffusion输入有noise latent space和text embedding space。text embedding的可控性没有w来的直接。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

告别闲鱼盯店！自动回复系统 + cpolar，副业党也能轻松管店

2048 AI社区

【无标题】

首个完整的 Claude Skills 中文适配项目，16 个官方 AI 技能模板全部翻译，**支持 GPT/CodeX等多种模型（需基座模型支持agent skill）**！

2048 AI社区

原型污染漏洞基础

定义：原型污染是指攻击者通过特定手段，向基础对象原型（如Object.prototype）或应用中广泛使用的构造函数原型中注入恶意属性，导致所有继承自该原型的对象自动拥有这些属性，从而改变应用程序逻辑或行为的攻击手法。图释：在污染发生后，任何自身及直接原型链上不包含pollutedProperty的对象，在查找该属性时，最终都会走到被污染的Object.prototype，从而返回攻击者设置的“恶