引言

说起来ComfyUI已经使用了很长一段时间了,比如模仿nano banana 的手办效果,各种动漫二次元的效果,甚至图生视频等都产生了社区内容传播价值。一直没有回过头来好好梳理一下这个东西。

今天小马来整理一下简单原理和入门理解。

在这里插入图片描述

一、什么是ComfyUI

ComfyUI 是专为 Stable Diffusion 设计的节点式图形用户界面(GUI),它将 SD 的图像生成过程拆解为多个可灵活组合的功能节点(如加载模型、文本提示、采样器、ControlNet 等),通过可视化连线构建完整的生图工作流,本质上是对 SD 底层运行逻辑的模块化封装和可视化操控工具‌。其核心功能(如文本编码、潜空间生成、图像解码等)均基于 SD 的原始架构实现,用户可通过节点自由配置 SD 的各项参数和扩展功能(如 LoRA、ControlNet),但所有计算仍依赖 SD 模型本身在本地显卡运行‌。

开源地址:https://github.com/comfyanonymous/ComfyUI

简单来说,SD 是 ComfyUI 的“引擎”,而 ComfyUI 则是 SD 的“可视化操作面板”,二者属于工具与底层模型的关系。

ComfyUI本质上是一个可视化的工作流引擎,它将Stable Diffusion等模型的复杂生成过程,解耦为一个个可连接、可复用的功能模块(节点),让你能像搭积木一样自由构建和控制AI图像生成流程。

🔬 核心架构与工作原理

它的原理可以通过以下核心模块和执行流程来理解:

模块/概念 功能与原理 关键节点示例
节点系统 系统的基础。每个节点是一个独立的功能单元(如加载模型、编码文本),通过输入/输出端口连接,形成有向无环图(DAG)。 Checkpoint Loader, CLIP Text Encode, KSampler
模型加载与调度 从检查点文件加载模型,并拆解为U-Net(去噪)CLIP(文本编码)VAE(图像编解码) 三个核心组件供后续节点使用。 Checkpoint Loader
条件控制与编码 文本提示词通过CLIP模型被编码为生成过程可理解的特征向量。ControlNetIP-Adapter等节点可额外注入图像的结构、姿态、风格等条件。 CLIP Text Encode, ControlNetApply
潜空间与采样 这是Stable Diffusion的核心。图像在潜空间(一种压缩的高维空间)中被处理和生成。KSampler在该空间中进行多次迭代去噪,将随机噪声转化为目标图像。 Empty Latent Image, KSampler
图像编解码 VAE编码器将像素图压缩为潜空间表示(用于图生图);VAE解码器则将采样后的潜空间表示解码为最终的像素图像。 VAE Encode, VAE Decode

也就是说SD的原理是什么基本上就是ComfyUI的原理。

在这里插入图片描述

可以通俗理解为 Stable Diffusion 原理 = 先添加噪点 再不断降噪来生成清晰的图片。

在这里插入图片描述

⚙️ 工作流的执行过程

当你点击“生成”时,ComfyUI的后端执行引擎会:

  1. 解析依赖:分析节点连接关系,进行拓扑排序,确定执行顺序。
  2. 智能调度与缓存:仅计算必要节点,并复用缓存结果以极大提升效率。
  3. 按序执行:依次执行节点,数据从上游流向下游。
  4. 资源管理:高效管理GPU显存,如自动卸载闲置模型。

✨ 主要特点

基于上述原理,ComfyUI拥有以下突出特点:

  • 高自由度与可视化:节点式连接让复杂流程一目了然,可任意组合和实验。
  • 卓越的复现性与分享:整个工作流可保存为JSON文件或内嵌于生成图片的元数据中,他人一键即可完全复现。
  • 高性能与低资源占用:因其高效的执行引擎和显存管理,生成速度通常比WebUI更快,且在低显存设备上表现更好。
  • 强大的可扩展性:拥有活跃的社区,可通过安装自定义节点不断扩展功能(如视频生成、3D等)。

二、ComfyUI 和 WebUI区别

ComfyUI 和 WebUI 是 Stable Diffusion 最常用的两款图形界面,但设计理念和适用场景差异很大。简单来说,WebUI 像是界面直观的“一体机”,适合快速上手;而 ComfyUI 则像是可深度定制的“组装电脑”,为追求控制和效率的用户设计

为了帮你快速了解,我将它们的主要区别整理成了下表:

维度 Stable Diffusion WebUI (AUTOMATIC1111) ComfyUI
核心理念 直观易用,开箱即用。提供固定的表单式界面,适合快速生成。 高度定制,模块化流程。通过连接节点自由构建和可视化工作流。
界面与操作 网页形式,参数以按钮、滑块、输入框排列,逻辑直观。 节点式界面。用户需手动添加、连接功能模块来构建流程,初期有一定学习门槛。
性能与效率 功能全面,但界面本身会占用一定资源。显存管理相对基础。 性能优化更好。通常生成速度更快,显存占用更低,在低显存设备上表现更佳。
工作流与复现性 操作步骤固化,复杂流程需手动切换。复现结果需完整记录所有参数。 核心优势。整个流程可保存/分享为JSON文件或图片元数据,实现100%精确复现
生态与扩展 插件生态极其丰富,社区成熟,教程和解决方案众多。 插件(自定义节点)同样丰富,但生态相对较新。高度自由化带来了强大的复杂流程构建能力。
适用人群 新手、日常创作者、设计师。希望快速产出效果,不愿深究技术细节。 进阶用户、研究者、批量生产者。追求极致控制、效率、自动化,或需要复杂、可复用流程。

🤔 如何选择?
你可以根据自己的情况参考以下建议:

  • 从 WebUI 开始:如果你是刚接触Stable Diffusion的新手,或者主要进行随机的、探索性的创作,希望用最少的精力快速出图,WebUI 是你的最佳选择。
  • 选择 ComfyUI:如果你符合以下任一情况:
    • 已经熟悉SD基本原理,不满足于固定操作,希望深度控制每一个生成步骤
    • 需要进行大批量、自动化的图像生成任务。
    • 电脑显存较小,需要更高效的资源管理。
    • 需要搭建和保存复杂、可重复使用的生产流程(如固定风格的商业图生成)。
    • 有技术背景,乐于探索和搭建个性化工作流。

三、ComfyUI默认工作流讲解

这是一个默认的工作流,我们来做一下主流程的节点介绍分析。

在这里插入图片描述

相同颜色的点通常与相同颜色的点相连。

如果是一个图生图工作流,则风格由 效果模型和提示词来决定,图片是否与原图相似则由那个降噪值设置大小决定,值越小变化就越小。
这里需要注意,反向提示词不代表说是不能出现,而是减少出现。一般正向和反向提示词我们都会在前面部分加入一些固定的词,比如高清,这个可以在网上查即可,提示词只支持英文。越靠前的提示词权重越高,所以一般我们把对质量要求的提示词放前面。

默认工作流只代表主流程原理,至于其他非默认节点或自定义节点等的添加那就是按需加载了,有些工作流可能都不含默认工作流的节点。

图生视频原理 可以理解为是通过多图片(24张/s)合成的视频视觉效果。ComfyUI也是按照这个原理产出视频的。

安装插件:
ComfyUI Manager Menu - >Custom Nodes Manager

关于官方原生整合包和安装插件:https://baijiahao.baidu.com/s?id=1824062540201074783&wfr=spider&for=pc

本地部署硬件条件:

  • 内存:最低8G,建议16G。
  • 显卡:显存8G以上,最低20/30系列Nvidia独立显卡,推荐使用40系列Nvidia独立显卡。N卡(英伟达)效果最佳,A卡(超威/AMD)次之,I卡(英特尔)支持较差。

四、总结

本篇作为入门,更多深度玩法小马后续更新,想快速入门的同学小马推荐这个教程,也可以先睹为快。


  • 彩蛋的位置~

2025年能入围博客之星top300 《2025博客之星年度评选入围榜单公布》着实是意料之外情理之中,硬着头皮总结了2025年这一年的酸甜苦辣《2025,在AI星河中遨游,于CSDN星畔留痕》,真的是 “写最好的代码,买最好的假发”。新的一年希望我们都能砥砺前行。

在这里插入图片描述

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐