ComfyUI入门初相识与默认工作流

ComfyUI是一个基于节点式工作流的Stable Diffusion可视化操作界面，通过将图像生成过程拆解为可自由组合的功能模块（如模型加载、文本编码、采样器等），实现对AI生成流程的精细控制。相比WebUI，ComfyUI具有更高的定制性、更好的性能表现和更强的流程复现能力，适合进阶用户进行复杂创作。其核心原理与Stable Diffusion一致，通过潜空间生成和迭代降噪来产生图像。本地部署

小马过河R

488人浏览 · 2026-01-02 10:48:59

小马过河R · 2026-01-02 10:48:59 发布

引言

说起来ComfyUI已经使用了很长一段时间了，比如模仿nano banana 的手办效果，各种动漫二次元的效果，甚至图生视频等都产生了社区内容传播价值。一直没有回过头来好好梳理一下这个东西。

今天小马来整理一下简单原理和入门理解。

在这里插入图片描述

一、什么是ComfyUI

ComfyUI 是专为 Stable Diffusion 设计的节点式图形用户界面（GUI），它将 SD 的图像生成过程拆解为多个可灵活组合的功能节点（如加载模型、文本提示、采样器、ControlNet 等），通过可视化连线构建完整的生图工作流，本质上是对 SD 底层运行逻辑的模块化封装和可视化操控工具‌。其核心功能（如文本编码、潜空间生成、图像解码等）均基于 SD 的原始架构实现，用户可通过节点自由配置 SD 的各项参数和扩展功能（如 LoRA、ControlNet），但所有计算仍依赖 SD 模型本身在本地显卡运行‌。

开源地址：https://github.com/comfyanonymous/ComfyUI

简单来说，SD 是 ComfyUI 的“引擎”，而 ComfyUI 则是 SD 的“可视化操作面板”，二者属于工具与底层模型的关系。

ComfyUI本质上是一个可视化的工作流引擎，它将Stable Diffusion等模型的复杂生成过程，解耦为一个个可连接、可复用的功能模块（节点），让你能像搭积木一样自由构建和控制AI图像生成流程。

🔬 核心架构与工作原理

它的原理可以通过以下核心模块和执行流程来理解：

模块/概念	功能与原理	关键节点示例
节点系统	系统的基础。每个节点是一个独立的功能单元（如加载模型、编码文本），通过输入/输出端口连接，形成有向无环图（DAG）。	`Checkpoint Loader`, `CLIP Text Encode`, `KSampler`
模型加载与调度	从检查点文件加载模型，并拆解为U-Net（去噪）、CLIP（文本编码）、VAE（图像编解码）三个核心组件供后续节点使用。	`Checkpoint Loader`
条件控制与编码	文本提示词通过CLIP模型被编码为生成过程可理解的特征向量。ControlNet、IP-Adapter等节点可额外注入图像的结构、姿态、风格等条件。	`CLIP Text Encode`, `ControlNetApply`
潜空间与采样	这是Stable Diffusion的核心。图像在潜空间（一种压缩的高维空间）中被处理和生成。`KSampler`在该空间中进行多次迭代去噪，将随机噪声转化为目标图像。	`Empty Latent Image`, `KSampler`
图像编解码	VAE编码器将像素图压缩为潜空间表示（用于图生图）；VAE解码器则将采样后的潜空间表示解码为最终的像素图像。	`VAE Encode`, `VAE Decode`

也就是说SD的原理是什么基本上就是ComfyUI的原理。

在这里插入图片描述

可以通俗理解为 Stable Diffusion 原理 = 先添加噪点再不断降噪来生成清晰的图片。

在这里插入图片描述

⚙️ 工作流的执行过程

当你点击“生成”时，ComfyUI的后端执行引擎会：

解析依赖：分析节点连接关系，进行拓扑排序，确定执行顺序。
智能调度与缓存：仅计算必要节点，并复用缓存结果以极大提升效率。
按序执行：依次执行节点，数据从上游流向下游。
资源管理：高效管理GPU显存，如自动卸载闲置模型。

✨ 主要特点

基于上述原理，ComfyUI拥有以下突出特点：

高自由度与可视化：节点式连接让复杂流程一目了然，可任意组合和实验。
卓越的复现性与分享：整个工作流可保存为JSON文件或内嵌于生成图片的元数据中，他人一键即可完全复现。
高性能与低资源占用：因其高效的执行引擎和显存管理，生成速度通常比WebUI更快，且在低显存设备上表现更好。
强大的可扩展性：拥有活跃的社区，可通过安装自定义节点不断扩展功能（如视频生成、3D等）。

二、ComfyUI 和 WebUI区别

ComfyUI 和 WebUI 是 Stable Diffusion 最常用的两款图形界面，但设计理念和适用场景差异很大。简单来说，WebUI 像是界面直观的“一体机”，适合快速上手；而 ComfyUI 则像是可深度定制的“组装电脑”，为追求控制和效率的用户设计。

为了帮你快速了解，我将它们的主要区别整理成了下表：

维度	Stable Diffusion WebUI (AUTOMATIC1111)	ComfyUI
核心理念	直观易用，开箱即用。提供固定的表单式界面，适合快速生成。	高度定制，模块化流程。通过连接节点自由构建和可视化工作流。
界面与操作	网页形式，参数以按钮、滑块、输入框排列，逻辑直观。	节点式界面。用户需手动添加、连接功能模块来构建流程，初期有一定学习门槛。
性能与效率	功能全面，但界面本身会占用一定资源。显存管理相对基础。	性能优化更好。通常生成速度更快，显存占用更低，在低显存设备上表现更佳。
工作流与复现性	操作步骤固化，复杂流程需手动切换。复现结果需完整记录所有参数。	核心优势。整个流程可保存/分享为JSON文件或图片元数据，实现100%精确复现。
生态与扩展	插件生态极其丰富，社区成熟，教程和解决方案众多。	插件（自定义节点）同样丰富，但生态相对较新。高度自由化带来了强大的复杂流程构建能力。
适用人群	新手、日常创作者、设计师。希望快速产出效果，不愿深究技术细节。	进阶用户、研究者、批量生产者。追求极致控制、效率、自动化，或需要复杂、可复用流程。

🤔 如何选择？
你可以根据自己的情况参考以下建议：

从 WebUI 开始：如果你是刚接触Stable Diffusion的新手，或者主要进行随机的、探索性的创作，希望用最少的精力快速出图，WebUI 是你的最佳选择。
选择 ComfyUI：如果你符合以下任一情况：
- 已经熟悉SD基本原理，不满足于固定操作，希望深度控制每一个生成步骤。
- 需要进行大批量、自动化的图像生成任务。
- 电脑显存较小，需要更高效的资源管理。
- 需要搭建和保存复杂、可重复使用的生产流程（如固定风格的商业图生成）。
- 有技术背景，乐于探索和搭建个性化工作流。

三、ComfyUI默认工作流讲解

这是一个默认的工作流，我们来做一下主流程的节点介绍分析。

在这里插入图片描述

相同颜色的点通常与相同颜色的点相连。

如果是一个图生图工作流，则风格由效果模型和提示词来决定，图片是否与原图相似则由那个降噪值设置大小决定，值越小变化就越小。
这里需要注意，反向提示词不代表说是不能出现，而是减少出现。一般正向和反向提示词我们都会在前面部分加入一些固定的词，比如高清，这个可以在网上查即可，提示词只支持英文。越靠前的提示词权重越高，所以一般我们把对质量要求的提示词放前面。

默认工作流只代表主流程原理，至于其他非默认节点或自定义节点等的添加那就是按需加载了，有些工作流可能都不含默认工作流的节点。

图生视频原理可以理解为是通过多图片（24张/s）合成的视频视觉效果。ComfyUI也是按照这个原理产出视频的。

安装插件：
ComfyUI Manager Menu - >Custom Nodes Manager

关于官方原生整合包和安装插件：https://baijiahao.baidu.com/s?id=1824062540201074783&wfr=spider&for=pc