【ComfyUI】Qwen Image Edit实现双语文本与语义外观的精确编辑

本文介绍了一个基于Qwen-Image编辑功能的ComfyUI工作流，通过扩散模型、文本编码器、VAE模块和LoRA适配器的协同工作，实现对图像的精准编辑。该工作流包含模型加载、输入准备、条件编码、采样生成和结果输出五个阶段，支持UI元素去除、场景调整、内容修复等多种应用场景，能在保持高质量的同时快速完成图像编辑。典型用户包括设计师、数字艺术创作者和AI开发者等。

Mr数据杨

981人浏览 · 2025-11-18 17:39:42

Mr数据杨 · 2025-11-18 17:39:42 发布

今天展示的案例是一个基于 Qwen-Image 编辑功能的 ComfyUI 工作流。该工作流围绕图像编辑展开，通过加载扩散模型、文本编码器、VAE 模块以及 LoRA 适配器，结合输入图像与文本提示，实现对图像中元素的精准移除与增强效果。

在这里插入图片描述

整体设计不仅保证了画面质量，也通过采样器与归一化组件提升了生成的稳定性，最终输出高质量的编辑结果。

文章目录

工作流介绍
- 核心模型
- Node节点
工作流程
大模型应用
- TextEncodeQwenImageEdit 双语文本与语义外观控制
- TextEncodeQwenImageEdit (Negative Prompt) 负向语义控制
使用方法
应用场景
开发与应用

工作流介绍

这个工作流主要面向图像的定向修改与修复场景。通过引入 Qwen-Image 的专用扩散模型与配套 VAE 编码器，结合 Qwen 2.5 版本的多模态文本编码器，可以让输入提示词直接指导图像的修改区域。LoRA 模型作为轻量级适配器，大幅缩短了推理所需步骤，同时保持风格一致性。整体流程中，KSampler 与 CFGNorm 节点确保了采样结果的质量与一致性，而图像缩放与保存节点则保证了最终输出适应不同分辨率的需求。

在这里插入图片描述

核心模型

在该工作流中，核心模型由四部分组成。扩散模型负责图像生成的基础逻辑，VAE 模块完成潜在空间与像素空间的互转，CLIP 文本编码器使提示词具备指导性，而 LoRA 则提升了生成效率并适配不同编辑需求。这些模型通过互相协作，使得图像编辑能够在较低的推理步数中完成，同时确保生成效果的清晰度和语义一致性。

模型名称	说明
qwen_image_edit_fp8_e4m3fn.safetensors	主要扩散模型，负责图像编辑的核心生成逻辑
qwen_image_vae.safetensors	VAE 模型，用于潜在空间与图像空间的双向编码与解码
qwen_2.5_vl_7b_fp8_scaled.safetensors	文本编码器模型，将输入提示词转换为可指导图像编辑的条件
Qwen-Image-Lightning-4steps-V1.0.safetensors	LoRA 模型，减少推理步数并保持风格与效果的稳定性

Node节点

工作流的节点分工清晰：模型加载类节点（UNETLoader、VAE Loader、CLIP Loader、LoRA Loader）负责初始化模型资源；文本编码节点将输入的正向与反向提示词转化为条件；采样器（KSampler）与模型正则化节点（CFGNorm）协作控制采样过程；图像处理节点（LoadImage、ImageScaleToTotalPixels、VAEEncode/Decode）则保障输入与输出的质量；最后 SaveImage 节点完成结果存储。这种模块化的设计使得工作流既灵活又高效，方便在不同编辑场景下复用与拓展。

节点名称	说明
UNETLoader	加载扩散模型，负责图像生成的基础逻辑
VAE Loader / VAEEncode / VAEDecode	负责图像与潜在空间的双向转换，保证细节质量
CLIPLoader	加载文本编码器，将提示词转化为图像条件
LoraLoaderModelOnly	加载 LoRA 适配器，优化推理速度与风格控制
TextEncodeQwenImageEdit	编码提示词，生成正向与反向条件输入
KSampler	采样节点，决定图像生成的稳定性与细节
CFGNorm	对模型进行条件归一化，平衡采样效果
LoadImage	载入待编辑图像，作为工作流输入
ImageScaleToTotalPixels	调整图像分辨率，避免因尺寸过大影响结果
SaveImage	保存最终生成图像，输出编辑结果

工作流程

该工作流的执行逻辑环环相扣，整体分为模型加载、输入准备、条件编码、采样生成与结果输出五个阶段。首先通过 UNETLoader、VAELoader、CLIPLoader 和 LoRA Loader 初始化核心模型资源，确保扩散、文本与潜在空间的协作环境搭建完成。随后由 LoadImage 与图像缩放节点完成待编辑图像的输入与尺寸调整，避免因原图过大导致推理效果下降。条件编码阶段通过 TextEncodeQwenImageEdit 将正向与反向提示词转化为可被采样器识别的条件输入。采样阶段则由 CFGNorm 与 KSampler 协同工作，前者保证条件在模型推理中的权重分布均衡，后者则依据提示词与潜在空间的输入生成最终的潜在结果。最后通过 VAE 解码器将潜在结果还原为图像，并由 SaveImage 输出保存，从而形成完整的图像编辑工作流。

流程序号	流程阶段	工作描述	使用节点
1	模型加载	初始化扩散模型、VAE 模块、文本编码器与 LoRA 适配器	UNETLoader、VAELoader、CLIPLoader、LoraLoaderModelOnly
2	输入准备	载入待编辑图像并通过缩放控制像素总量，确保推理稳定	LoadImage、ImageScaleToTotalPixels
3	条件编码	将正向与反向提示词转换为条件输入，指导后续采样	TextEncodeQwenImageEdit
4	采样生成	利用采样器在潜在空间中生成结果，并通过归一化平衡权重	CFGNorm、KSampler
5	输出保存	将潜在结果解码为图像并输出到指定路径	VAEDecode、SaveImage

大模型应用

TextEncodeQwenImageEdit 双语文本与语义外观控制

在 Qwen Image Edit 工作流中，TextEncodeQwenImageEdit 节点是图像编辑的核心大模型节点。它将用户提供的正向 Prompt（支持双语文本）和输入图像结合，生成条件嵌入向量，用于指导模型精确编辑图像内容。Prompt 的描述控制图像中人物、场景、细节以及视觉风格的变化，是实现精确语义与外观控制的关键节点。

节点名称	Prompt 信息	说明
TextEncodeQwenImageEdit (Positive Prompt)	Remove all UI text elements from the image. Keep the feeling that the characters and scene are in water. Also, remove the green UI elements at the bottom.	将用户正向 Prompt 与输入图像结合生成条件嵌入，用于控制图像编辑内容、保持原有语义和视觉风格，同时精确调整不需要的元素和外观特征。

TextEncodeQwenImageEdit (Negative Prompt) 负向语义控制

此节点用于生成负向嵌入，用于抑制生成图像中不希望出现的元素或风格，确保编辑结果干净、自然并符合语义要求。

节点名称	Prompt 信息	说明
TextEncodeQwenImageEdit (Negative Prompt)	“”	将负向 Prompt 转化为条件嵌入，用于抑制不需要的视觉元素或风格，提升图像编辑的精确度和一致性。

使用方法

Qwen Image Edit 工作流结合输入图像、双语文本描述、潜在空间采样和 VAE 解码，实现高精度图像编辑。用户提供待编辑图像和正向 Prompt（可包含双语描述及语义指导），TextEncodeQwenImageEdit 生成条件嵌入，负向 Prompt 生成负向嵌入抑制不希望的元素。UNETLoader 加载核心扩散模型，LoraLoader 可附加 LoRA 权重增强效果，KSampler 进行潜变量采样，VAEEncode 和 VAEDecode 将潜在图像编码与解码为最终编辑图像，SaveImage 输出。用户可通过修改 Prompt、控制 CFG 或替换素材图像，实现对图像内容和语义外观的精确编辑。

注意点	说明
Prompt 描述清晰	确保编辑意图、语义和外观要求明确
使用负向 Prompt	防止生成不需要的元素或风格干扰
输入图像质量高	保证编辑结果自然、细节丰富
LoRA 权重可选	提升渲染细节和风格一致性
CFG 与采样步数调整	控制编辑强度和生成精度

应用场景

该工作流适用于多种图像编辑场景，尤其在需要去除不需要元素、修复图像内容或进行风格化修改时表现突出。通过灵活调整提示词与 LoRA 权重，可以实现从精细化局部修复到整体风格迁移的多样化任务。典型用户包括数字艺术创作者、平面设计人员以及研究 AI 图像编辑的开发者，他们能够在该流程中快速完成图像的优化与再创作。最终的展示内容可以覆盖 UI 元素去除、环境氛围调整或主体强化等方向，而生成的效果不仅保持了高分辨率细节，还能在短时间内实现高效推理。

应用场景	使用目标	典型用户	展示内容	实现效果
UI 元素去除	删除图像中的水印或多余界面元素	设计师、产品展示团队	清理后的主体图像	保持画面完整性与自然感
场景氛围调整	改变图像色调或背景元素	数字艺术创作者	风格化渲染结果	提升艺术效果与视觉冲击力
内容修复与补全	修补缺失区域或调整构图	照片修复师、AI 应用开发者	修复后的完整图像	高分辨率细节还原
风格迁移	在保持结构的前提下赋予新风格	插画师、视觉创意工作室	新风格的艺术化图像	节省人工重绘时间
快速生成对比图	多参数设置下生成多版本输出	AI 实验人员、研究者	不同采样配置的图像结果	对比模型效果与优化方向