Stable Diffusion遇上Transformer：图像生成新手也能玩转AI绘图

AI 画图不是魔法，但用好了真能让你少加点班。提示词背熟、参数调稳、脚本整活老板需求再变态，也能五分钟内甩图。显卡电费别心疼绩效涨了、头发保住了这波不亏。今晚就把 WebUI 装起来，明早群里晒图，卷死同事。冲！

master_chenchen

841人浏览 · 2026-01-09 12:29:42

master_chenchen · 2026-01-09 12:29:42 发布

Stable Diffusion遇上Transformer：图像生成新手也能玩转AI绘图

Stable Diffusion遇上Transformer：图像生成新手也能玩转AI绘图

Stable Diffusion遇上Transformer：图像生成新手也能玩转AI绘图

友情提示：本文全程口语输出，想到哪儿写到哪儿，代码管够，坑也管埋。阅读时请自备瓜子可乐，看完要是还不会上手，欢迎半夜十二点微信语音轰炸我（虽然我不会接）。

为啥现在连做前端的都开始聊AI画图了？

说出来你可能不信，上周我们组那个连 flex 和 inline-flex 都分不清的小哥，突然在群里甩了一张二次元老婆图，配文：“前端的新需求，我五分钟撸出来的。”
我当场瞳孔地震——这货以前连 border-radius 都能写成 border-radius: 50px 50px 0 0 0（对，五个值），现在居然能出图？
追问之下，他甩给我一行命令：

python launch.py --api --medvram --xformers

我：？？？
他：Stable Diffusion 啊哥，WebUI 一把梭，前端也能玩。
那一刻，我意识到：AI 绘图已经卷到连切图仔都能上车了。
于是连夜把显卡从 1060 换成 3060 Ti，电费暴涨 200 块，终于踩完了所有坑，今天一次性打包给你。

这俩玩意儿到底是谁

Stable Diffusion 不是画画的吗，Transformer 不是搞语言的吗，咋就凑一块儿了？

先整点人话版定义：

Stable Diffusion = 一个会“ noise → 清晰图” 的扩散模型，专业背锅侠，出图丑就怪它。
Transformer = 自注意力老大哥，原本在 NLP 里混，现在跨界到 CV，负责把“赛博朋克猫耳女仆”翻译成 AI 能听懂的 77 维向量。

它俩的关系，就像烧烤摊老板和撒料小哥：Diffusion 负责把肉烤熟，Transformer 负责往上撒孜然、辣椒面、十三香，味道对不对全看撒料的手艺。

别被名字吓到：Stable Diffusion 其实没那么“稳定”

官方自称 Stable，其实跑过都知道——
同一句 prompt，今天跑是女神，明天跑就克苏鲁，随机种子一变，亲妈不认。
所以第一步：把 seed 给我钉死！

# 钉种子，谁动跟谁急
import random, torch
seed = 42
random.seed(seed)
torch.manual_seed(seed)
torch.cuda.manual_seed_all(seed)

Transformer 不只是大模型的底裤，它还能当画笔用？

Transformer 在 SD 里主要干两件事：

Text Encoder：把“古风少年，水墨风，4k”变成 77×768 的向量。
Cross-Attention：在 U-Net 每次采样时，把文本向量“插”到特征图里，让 AI 知道哪儿该画少年，哪儿该画水墨。

代码层面长这样（简化版，能跑就行）：

# 伪代码：文本向量怎么插进图像特征
def cross_attn(x, context):
    # x: [B, C, H, W] 图像特征
    # context: [B, 77, 768] 文本特征
    B, C, H, W = x.shape
    x = x.view(B, C, -1).transpose(1, 2)          # [B, HW, C]
    q = nn.Linear(C, C)(x)                        # 查
    k = nn.Linear(768, C)(context)                # 键
    v = nn.Linear(768, C)(context)                # 值
    attn = torch.softmax(q @ k.transpose(1,2) / (C**0.5), dim=-1)
    out = attn @ v                                # 把文本信息揉进图
    return out.transpose(1,2).view(B, C, H, W)

看不懂？没关系，把它当成火锅底料：图像特征是白菜，文本特征是辣椒油，cross-attention 就是筷子，搅一搅，味道就进去了。

技术细节扒一扒

扩散过程到底是怎么“慢慢画出来”的

一句话：AI 先拿一张纯噪声图，然后一步步去噪，就像你早上睁眼从模糊到清晰。
数学公式看着吓人，实际代码就三行：

# 去噪核心，就这三行
with torch.no_grad():
    for t in tqdm(scheduler.timesteps):
        noise_pred = unet(latents, t, encoder_hidden_states=text_emb).sample
        latents = scheduler.step(noise_pred, t, latents).prev_sample

把 scheduler.timesteps 想象成倒计时，20 步就是 20 次深呼吸，呼完就生图。步数越少越快，也越抽象；步数越多越慢，细节狂魔。

Latent Space（潜在空间）是个啥？能吃吗？

显存只有 8 G 的同学请把耳朵竖起来：
直接跑 512×512 图像，显存当场去世。于是大佬们把图先压小，在“潜在空间”里折腾，最后再解码回高清。
压小工具人叫 VAE，代码长这样：

# 把图压成 1/8 大小，显存立省 85%
from diffusers import AutoencoderKL
vae = AutoencoderKL.from_pretrained("runwayml/stable-diffusion-v1-5", subfolder="vae")
# 编码：像素空间 → 潜在空间
latents = vae.encode(pixel_imgs).latent_dist.sample() * 0.18215
# 解码：潜在空间 → 像素空间
decoded = vae.decode(latents / 0.18215).sample

记住 0.18215 这个魔法数，别手滑改它，改了就会得到一张 90 年代雪花屏。

CLIP 模型怎么让 AI 听懂你那句“赛博朋克风猫咪穿西装”

CLIP = 一个看图说话的预训练模型，它把文本和图像映射到同一向量空间，余弦相似度越高，越匹配。
SD 用的是 CLIP 的 Text Encoder 部分，纯文本输出向量，和图像无关。
调用方式简单粗暴：

from transformers import CLIPTextModel, CLIPTokenizer
tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-base-patch32")
text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-base-patch32")
text_input = tokenizer(["赛博朋克风猫咪穿西装"], padding="max_length", max_length=77, return_tensors="pt")
embeds = text_encoder(text_input.input_ids)[0]   # [1, 77, 768]

中文提示词？可以，但最好先用翻译 API 整成英文，CLIP 没背过《新华字典》。

Text Encoder 怎么把你的中二 prompt 翻译成 AI 能看懂的暗号

上面那步已经演示了，再补一个批量花式 prompt 的骚操作：

prompts = [
    "a cat in a suit, cyberpunk, neon, 4k",
    "a cat in a suit, vaporwave, pastel, 4k",
    "a cat in a suit, steampunk, brass, 4k"
]
text_inputs = tokenizer(prompts, padding="max_length", max_length=77, return_tensors="pt")
text_embeddings = text_encoder(text_inputs.input_ids)[0]
# 一次跑三张，老板看了直呼高产

U-Net 结构在图像生成里到底干了点啥脏活累活

U-Net = 一个** encoder-decoder + skip connection** 的卷积大杂烩，负责预测噪声。
输入：带噪的 latent + 时间步 t + 文本向量。
输出：预测的噪声。
结构图太复杂，直接看代码片段：

# 简化 U-Net 块，感受下 skip connection 的尿性
class ResnetBlock(nn.Module):
    def __init__(self, in_ch, out_ch, t_dim, context_dim):
        super().__init__()
        self.t_mlp = nn.Sequential(nn.SiLU(), nn.Linear(t_dim, out_ch))
        self.norm1 = nn.GroupNorm(8, in_ch)
        self.conv1 = nn.Conv2d(in_ch, out_ch, 3, padding=1)
        self.norm2 = nn.GroupNorm(8, out_ch)
        self.conv2 = nn.Conv2d(out_ch, out_ch, 3, padding=1)
        self.attn = CrossAttention(out_ch, context_dim)  # 文本插这里

    def forward(self, x, t_emb, context):
        h = self.conv1(torch.nn.functional.silu(self.norm1(x)))
        h += self.t_mlp(t_emb)[:, :, None, None]         # 时间步信息
        h = self.conv2(torch.nn.functional.silu(self.norm2(h)))
        h = self.attn(h, context)                        # 文本交叉注意力
        return h + x if x.shape[1] == h.shape[1] else h  # skip

skip connection 就像你小时候抄作业，把上一步的答案直接粘过来，防止信息丢失。

为什么说 VAE 是 Stable Diffusion 里的压缩包工具人

前面说了，VAE 负责压缩 + 解压，自己不会画画，只会“转格式”。
训练阶段，VAE 先单独练，目标是把 512×512 图压成 64×64，再还原，像素差越小越好。
推理阶段，VAE 就像 WinRAR，压一压省显存，解一解出高清，工具人实锤。

实际开发中怎么用

本地跑不动？试试 WebUI + API 组合拳

显存 < 8 G 的同学，命令行起手式：

# 省显存三件套
python launch.py --api --medvram --xformers

--api 暴露 HTTP 接口，前端直接调，再也不用学 Python。

前端怎么和后端配合调用 SD 服务（别再自己训模型了兄弟）

前端最烦的就是装环境，现在直接走后端 API：

// React 例子：一键生图
const generate = async () => {
  const res = await fetch("http://127.0.0.1:7860/sdapi/v1/txt2img", {
    method: "POST",
    headers: { "Content-Type": "application/json" },
    body: JSON.stringify({
      prompt: "cyberpunk cat, suit, neon",
      negative_prompt: "lowres, bad anatomy",
      steps: 20,
      cfg_scale: 7,
      seed: -1,
      width: 512,
      height: 512
    })
  });
  const data = await res.json();
  // data.images[0] 就是 base64 图，直接塞 img src
  document.getElementById("result").src = "data:image/png;base64," + data.images[0];
};

跨域？后端加 --cors-allow-origins=*，别问，问就是一把梭。

用 Gradio 快速搭个 Demo 界面，老板看了直呼内行

Gradio 官方 Demo 五句代码：

import gradio as gr
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5")
pipe = pipe.to("cuda")

def fn(prompt):
    image = pipe(prompt, num_inference_steps=20).images[0]
    return image

gr.Interface(fn, inputs="text", outputs="image").launch(server_name="0.0.0.0", server_port=7860)

docker 一键部署：

FROM pytorch/pytorch:2.0.1-cuda11.7-cudnn8-runtime
RUN pip install diffusers transformers gradio accelerate
COPY app.py /
CMD ["python", "app.py"]

老板看完直接甩你需求：“加个水印，再加个批量下载。” 五分钟搞定，绩效 +1。

把生成结果嵌进 React/Vue 项目的小技巧（别光截图糊上去）

base64 太长？转 Blob 再 URL.createObjectURL，省内存：

function base64ToBlob(b64, mime = "image/png") {
  const byte = atob(b64);
  const buffer = new ArrayBuffer(byte.length);
  const view = new Uint8Array(buffer);
  for (let i = 0; i < byte.length; i++) view[i] = byte.charCodeAt(i);
  return new Blob([buffer], { type: mime });
}
const url = URL.createObjectURL(base64ToBlob(data.images[0]));

Vue 同理，别直接 v-bind 几兆字符串，页面卡成 PPT。

Prompt 工程比写 CSS 还讲究？这些关键词真能提升出图质量

血泪总结，复制粘贴即可用：

场景	正向 prompt	负面 prompt
二次元	masterpiece, best quality, 1girl, detailed face, vibrant color	lowres, bad anatomy, extra fingers, watermark
写实	photorealistic, 8k, dslr, soft lighting, sharp focus	cartoon, painting, blurry, overexposed
图标	flat design, icon, simple background, trending on dribbble	3d, realistic, complex background

通用保底：

positive: masterpiece, best quality, ultra-detailed, 4k
negative: lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry

踩坑实录：那些年我掉进去的坑

显存炸了？可能是你没开 --medvram

1060 6 G 含泪总结：
–medvram 把 U-Net 拆成两层，–lowvram 再拆一层，–xformers 开启内存交叉注意力，三件套齐活，512×512 稳如老狗。

生成图糊成马赛克？检查下采样步数和 CFG scale

步数 < 10 → 抽象派
CFG < 5 → AI 当你放屁，想画啥都不听
CFG > 20 → 颜色炸成烟花

甜区：steps 20~30，CFG 7~12，谁用谁知道。

中文 prompt 不生效？编码问题还是模型没喂过中文数据

SD 1.5 的 CLIP 没学过中文，直接扔“古风少女”= 盲盒。
解决方案：

先调翻译 API：

const translate = async (cn) => {
  const res = await fetch(`https://api.mojidict.com/translate?q=${encodeURIComponent(cn)}`);
  return (await res.json()).data.en;
};

或者用 Taiyi-Stable-Diffusion 中文专属模型，Hugging Face 搜 taiyi，直接 from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B")，中文 prompt 直出，爽到飞起。

模型加载慢得像蜗牛？Hugging Face 缓存机制了解一下

首次下载 5 G 模型，科学上网 + 缓存目录：

export HF_HOME=/your/ssd/hf-cache
export HF_HUB_OFFLINE=1   # 断网也能跑

提前下载脚本：

from huggingface_hub import snapshot_download
snapshot_download("runwayml/stable-diffusion-v1-5", cache_dir="/your/ssd/hf-cache")

明明代码没动，今天生成的图咋变丑了？随机种子背锅现场

seed = -1 每次随机，复现 bug 必钉死：

const seed = parseInt(prompt.hashCode(), 16); // 相同 prompt 相同 seed

开发中的骚操作

用 ControlNet 精准控制姿势，告别“六指观音”

ControlNet 插件：openpose 预处理器 + 模型，让 AI 照着你给的骨架画图。
WebUI 安装完，上传一张 pose 图，勾选 Enable，权重 1.0，再写 prompt：

1girl, detailed face, school uniform

手指数一目了然，妈妈再也不担心多一根。

LoRA 微调：不用重新训练也能定制专属风格

LoRA = ** Low-Rank Adaptation **，只训 10 M 小矩阵，就能让模型学会新风格。
训练脚本：

accelerate launch train_network.py \
  --pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5" \
  --dataset_config="dataset.toml" \
  --output_dir="./output" \
  --output_name="my_lora" \
  --network_module="networks.lora" \
  --max_train_epochs=10 \
  --resolution=512,512 \
  --train_batch_size=2 \
  --learning_rate=1e-4 \
  --save_every_n_epochs=2

推理时加载：

pipe.unet.load_attn_procs("my_lora", weight_name="my_lora.safetensors")

二次元、水墨、像素风，想加啥加啥，主模型不动，LoRA 即插即用。

批量生成 + 自动筛选：用脚本代替人工挑图

import clip, torch, os
from PIL import Image

model, preprocess = clip.load("ViT-B/32", device="cuda")
text = clip.tokenize(["beautiful anime girl"]).to("cuda")

for img_name in os.listdir("outputs"):
    img = preprocess(Image.open(f"outputs/{img_name}")).unsqueeze(0).to("cuda")
    score = torch.cosine_similarity(model.encode_image(img), model.encode_text(text)).item()
    if score > 0.28:
        os.rename(f"outputs/{img_name}", f"selected/{img_name}")

CLIP 打分 > 0.28 自动入库，996 挑图已成历史。

把用户上传的草图变成高清大图，客户当场加预算

草图 → img2img → 高清 → 收钱
前端传图：

const form = new FormData();
form.append("init_image", file);
form.append("prompt", "masterpiece, best quality, detailed color");
form.append("denoising_strength", 0.55);  // 重绘幅度 0.55 最稳
form.append("steps", 30);
fetch("http://127.0.0.1:7860/sdapi/v1/img2img", { method: "POST", body: form });

denoising_strength 甜区 0.4~0.6，太低草图还在，太高六亲不认。

偷偷加个水印？别让 AI 作品被白嫖了

PIL 五行动态水印：

from PIL import Image, ImageDraw, ImageFont
def add_wm(img_path, text="@YourCompany"):
    img = Image.open(img_path).convert("RGBA")
    txt = Image.new("RGBA", img.size, (255,255,255,0))
    d = ImageDraw.Draw(txt)
    font = ImageFont.truetype("arial.ttf", 36)
    d.text((img.width-200, img.height-50), text, fill=(255,255,255,80), font=font)
    Image.alpha_composite(img, txt).save(img_path)

透明度 80/255，肉眼可见又不挡画，白嫖怪退散。

最后一点碎碎念

AI 画图不是魔法，但用好了真能让你少加点班。
提示词背熟、参数调稳、脚本整活，老板需求再变态，也能五分钟内甩图。
显卡电费别心疼，绩效涨了、头发保住了，这波不亏。
今晚就把 WebUI 装起来，明早群里晒图，卷死同事。
冲！

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

亲测好用8个AI论文工具，本科生轻松搞定毕业论文！

2048 AI社区

告别熬夜做 PPT！这 8 个 AI 工具，输入文字自动生成排版 + 配图

制作 PPT 是许多人学习与工作中绕不开的任务 —— 无论是大学生筹备答辩演示，还是职场人打磨工作汇报，不少人都会陷入相似的困境：面对空白页面无从下手，耗费大量时间在模板筛选、排版调整与数据可视化上，最终的成品却往往难以达到专业水准。随着 AI 技术的发展，AI 辅助制作 PPT 的工具逐渐成熟，能够有效帮助使用者从繁琐的重复性工作中解脱，将更多精力聚焦于内容本身的打磨。