Stable Diffusion详解

Stable Diffusion是一种基于潜在扩散模型的AI图像生成技术，由Stability AI等团队开发并于2022年开源。它通过扩散过程(加噪/去噪)在潜空间中进行高效运算，大幅降低计算需求。核心组件包括CLIP文本编码器、U-Net去噪网络和VAE解码器，支持文生图、图生图等功能。主要优势包括快速出图(3秒/张)、本地运算保障数据安全、强大的可扩展性(支持110+插件)。该技术在创意设计

乄卝⑦

1804人浏览 · 2025-11-13 22:13:56

乄卝⑦ · 2025-11-13 22:13:56 发布

Stable Diffusion详解

一、Stable Diffusion 简介

Stable Diffusion（简称 SD）是由 Stability AI、CompVis 和 Runway 团队合作开发的一种潜在扩散模型。它于 2022 年 8 月正式开源，具有出图快、扩展性强、数据安全等特点。

二、Stable Diffusion 的核心概念

1. 扩散模型（Diffusion Model）

扩散模型是一种生成式模型，其核心思想是：

正向过程：对图像逐步添加高斯噪声，直到图像完全变为噪声。
反向过程：从噪声中逐步恢复出原始图像。

2. 潜在扩散模型（Latent Diffusion Model）

为了解决扩散模型在像素空间中计算量大的问题，潜在扩散模型先将图像压缩到潜空间，再进行扩散过程，大大减少了计算量和内存需求。

3. Stable Diffusion WebUI

提供了一个图形化界面，用户无需编写代码即可操作模型生成图像。

在这里插入图片描述

三、Stable Diffusion 的特点

1. 可拓展性强

开源模型与代码，支持自定义学习与创作。
集成超过 110 种插件，支持局部重绘、姿势控制、高清修复等功能。

2. 出图速度快

本地部署，依赖本地显卡算力，无需排队。
支持 3 秒/张 的高效出图。

3. 数据安全

所有图像生成过程在本地完成，避免数据上传到云端，保护用户隐私。

四、Stable Diffusion 的工作原理

在这里插入图片描述

1. 扩散过程

加噪：逐步向图像添加噪声，模拟“墨汁扩散”过程。
去噪：逐步从噪声中恢复图像，即逆向降噪。

在这里插入图片描述

2. 潜空间运算

Stable Diffusion 在潜空间中进行扩散过程，显著降低了计算复杂度。

在这里插入图片描述

3. 整体运行流程

在这里插入图片描述

4. Diffusion模型的原理

在这里插入图片描述

五、Stable Diffusion 的架构

Stable Diffusion 由三个核心组件构成：
在这里插入图片描述

1. CLIP Text Encoder

将文本提示词转换为 768 维向量。
使用对比学习训练，理解文本与图像的关系。
ClipText ⽂本编码器：

首先训练一个处理图像的 CNN 和一个处理文本的Transformer 模型，来预测图像的caption。

对比学习阶段：给定一个 Batch 的 N 个 (图片，文本) 对，图片输入给 Image Encoder 得到表征 I1,I2,…,In，文本输入给 Text Encoder 得到表征 T1,T2,…,Tn，其中 (Ij,Tj)属于是正样本，(Ij,Tk)属于负样本。最大化 N 个正样本的Cosine 相似度，最小化N^2−N个负样本的 Cosine 相似度。

在这里插入图片描述

Zero-Shot Transfer:这个阶段是使用 CLIP 的预训练好的 Image Encoder 和 Text Encoder 来做Zero-Shot Transfer。比如来一张 ImageNet-1K 验证集的图片，可以使用CLIP 预训练好的模型能完成这个分类的任务。模型的参数是冻结的，在图像生成过程中参数是不会发生变化的。

在这里插入图片描述

2. U-Net + Scheduler（图像信息生成器）

U-Net 原本是用于生物医学图像分割的神经网络模型，因为工作结构像一个 U 型字母，因此被称为 U 型神经网络训练模型。在扩散模型中，U-Net 可以辅助提取并解构训练图像的特征，有了它就能在较少训练样本的情况下获得更加准确多样的数据信息，从而使模型在出图结果上更加精确。

在这里插入图片描述

U-Net：提取图像特征，辅助去噪。
Scheduler：控制去噪步骤与采样算法。Scheduler 就是用来定义使用哪种算法来运行程序，它可以定义降噪的步骤、是否具备随机性、查找去噪后样本的算法等，因此它又被称为采样算法。

3. VAE 解码器

全称是 Variational Auto Encoder 变分自动编码器。简单来说，它的作用就是将高维数据（像素空间）映射到低维空间（潜空间），从而实现数据的压缩和降维。它由编码器（Encoder）和解码器（Decoder）两部分组成，编码器用于将图像信息降维并传入潜空间中，解码器将潜在数据表示转换回原始图像，而在潜在扩散模型的推理生成过程中我们只需用到 VAE 的解码器部分。

在这里插入图片描述