今天展示的案例是一个基于 HiDream-I1 模型的 ComfyUI 工作流,通过加载扩散模型、文本编码器与 VAE 组件,结合正向与负向提示词的输入,完成潜在空间的采样与解码,最终生成高质量的图像结果。

在这里插入图片描述

整个流程以“古代人物”为演示,直观展现了从模型加载到图像保存的完整链路,也为后续定制化生成提供了可复用的范式。

工作流介绍

该工作流围绕 HiDream 系列模型展开,主要通过加载 UNet 扩散模型、CLIP 编码器与 VAE 解码器,再结合 KSampler 的采样机制,构建了一个较为精简的文生图流程。不同组件在潜在图像的生成与解码环节中形成联动,确保生成画面既符合语义约束,也保持在视觉层面的细节表现力。

在这里插入图片描述

核心模型

本工作流所依赖的核心模型包含扩散模型、VAE 模型与多重文本编码器。扩散模型负责潜在空间的采样与逐步去噪,VAE 模型用于潜在特征与图像空间的相互转化,而文本编码器则承担提示词的语义解析任务。通过这些模型的协同作用,提示词中描述的场景与细节得以在最终图像中得到较高保真度的体现。

模型名称 说明
hidream_i1_fast_fp8.safetensors 扩散模型,负责潜在空间的迭代采样与生成
ae.safetensors VAE 模型,用于潜在特征与图像的双向映射
clip_l_hidream.safetensors 大型 CLIP 文本编码器,解析正向提示
clip_g_hidream.safetensors 全局 CLIP 编码器,提升语义一致性
t5xxl_fp8_e4m3fn_scaled.safetensors T5 文本编码器,增强复杂描述的表达能力
llama_3.1_8b_instruct_fp8_scaled.safetensors LLaMA 指令型编码器,支持更复杂语境下的文本理解

Node节点

节点设计覆盖了从模型加载、提示词解析、潜在图像初始化到采样与解码的完整链路。每个节点承担特定的功能,如 UNETLoader 提供扩散模型加载,CLIPTextEncode 解析提示词,KSampler 执行迭代采样,而 VAEDecode 则将潜在表示还原为可视图像。SaveImage 节点最终将生成的结果保存为图像文件,使整个流程从输入到输出完全闭环。

节点名称 说明
UNETLoader 加载扩散模型 hidream_i1_fast_fp8,用于潜在采样
QuadrupleCLIPLoader 加载多重文本编码器,为提示词提供语义支撑
CLIPTextEncode (Positive Prompt) 解析正向提示词,将文字转化为语义向量
CLIPTextEncode (Negative Prompt) 解析负向提示,抑制低质量特征
EmptySD3LatentImage 初始化潜在空间图像
KSampler 执行采样与去噪,生成潜在图像
VAELoader 加载 VAE 模型用于解码
VAEDecode 将潜在图像解码为真实图像
SaveImage 输出并保存最终图像

工作流程

该工作流的流程从模型与编码器的加载开始,经过正负提示词的解析和潜在图像的初始化,再由采样器完成多步迭代生成,最终通过 VAE 解码与图像保存实现完整的输出。整个链路紧密衔接,每个阶段承担了不可或缺的功能:加载节点确保了模型和编码器的正确调用,提示词解析节点为生成提供语义约束,采样器完成了潜在空间的图像生成,而解码与保存节点将结果转化为直观可见的画面。这一流程体现了 ComfyUI 工作流模块化与可组合化的特征,使得文生图任务更高效且具备可控性。

流程序号 流程阶段 工作描述 使用节点
1 模型加载 加载扩散模型、VAE 模型与多重文本编码器,建立生成所需基础 UNETLoader, VAELoader, QuadrupleCLIPLoader
2 提示词解析 将正向提示词与负向提示词转化为语义向量,构建条件输入 CLIPTextEncode (Positive), CLIPTextEncode (Negative)
3 潜在图像初始化 在潜在空间中生成初始随机图像作为采样输入 EmptySD3LatentImage
4 潜在采样与生成 通过采样器执行去噪与生成迭代,得到符合条件的潜在图像 ModelSamplingSD3, KSampler
5 图像解码 使用 VAE 解码潜在特征,将其转化为可视化图像 VAEDecode
6 结果保存 输出最终生成的高质量图像文件,完成整个流程 SaveImage

大模型应用

CLIPTextEncode 文本语义嵌入生成

在 HiDream I1 Fast 工作流中,CLIPTextEncode 节点负责将用户提供的正向 Prompt 转化为 CLIP 条件嵌入,用于指导 UNET 模型在 16 步快速推理下生成图像。Prompt 描述直接控制图像的场景、角色、光影、细节和风格,是实现速度优先同时保持预览质量的核心节点。

节点名称 Prompt 信息 说明
CLIPTextEncode (Positive Prompt) A lo-fi, grungy wide shot of a ragged large red tree leaning slightly to one side Polaroid aesthetic. the tree is alone in a desolate landscape, the tree is illuminated by a red light, the background is pitch black 将正向 Prompt 转化为条件嵌入,用于控制 UNET 模型生成图像的语义、风格和光影,实现快速生成预览图像。

CLIPTextEncode 负向语义控制

该节点生成负向条件嵌入,用于抑制生成图像中不希望出现的元素或质量问题,如低质量细节、JPEG 压缩痕迹等,保证快速生成的图像干净、清晰。

节点名称 Prompt 信息 说明
CLIPTextEncode (Negative Prompt) bad ugly jpeg artifacts 将负向 Prompt 转化为条件嵌入,用于抑制不希望出现的视觉元素或低质量细节,确保快速生成图像预览效果良好。

使用方法

HiDream I1 Fast 工作流通过正向和负向 Prompt 的条件嵌入、潜在空间采样、UNET 模型快速推理及 VAE 解码,实现 16 步快速图像生成。用户提供正向 Prompt 描述场景、角色及风格,CLIPTextEncode 转化为正向嵌入,负向 Prompt 生成负向嵌入以抑制不希望的元素。EmptySD3LatentImage 提供初始潜在图像,UNETLoader 加载 HiDream I1 Fast FP8 模型,ModelSamplingSD3 处理潜变量采样,KSampler 控制采样细节,VAELoader 与 VAEDecode 将潜在图像解码为最终图像,SaveImage 输出。用户可以通过修改 Prompt、CFG 或潜在图像参数快速生成图像预览,实现速度与画质的平衡。

注意点 说明
Prompt 描述清晰 确保场景、角色、光影和细节符合预期
使用负向 Prompt 防止生成低质量或不希望出现的元素
推理步数 16 步 快速生成预览,同时保持可接受画质
潜变量尺寸与输出一致 保证 VAEDecode 解码后图像比例正确
模型量化与精度 HiDream I1 Fast FP8 模型降低显存占用,同时保持预览图像质量

应用场景

该工作流适合用于多种图像生成任务,尤其在需要较强语义控制与快速生成的场景中表现突出。通过正负提示词的组合,可以在风格化、艺术化和写实类任务中自由切换;结合轻量化的 fp8 模型与采样设置,能够在有限算力环境中快速出图;对于内容创作、概念设计、场景可视化等领域,这一流程都能提供高效的支持。其灵活的节点组合方式,使得用户能够根据不同的使用目标扩展工作流结构,例如增加后处理节点进行风格微调,或者接入 LoRA 模型以增强特定元素生成效果。

应用场景 使用目标 典型用户 展示内容 实现效果
艺术创作 在语义约束下生成风格化作品 插画师、数字艺术工作者 抽象场景、风格化人物 生成具有艺术感的高质量图像
概念设计 快速验证设计创意与场景构想 游戏设计师、影视概念设计师 虚拟场景、道具概念图 在短时间内形成直观的视觉原型
场景可视化 将抽象描述转化为可视画面 建筑师、学术研究人员 建筑外观、研究实验场景 提供直观的视觉参考与表达
内容生成 在有限算力下完成高效图像生产 自媒体创作者、AI 应用开发者 海报、文章配图 快速生成满足语境需求的图像
风格试验 针对同一提示词尝试多样风格 AI 爱好者、模型调优人员 多风格并行对比图 验证采样参数与模型设置的效果差异

开发与应用

更多 AIGC 与 ComfyUI工作流 相关研究学习内容请查阅:

ComfyUI使用教程、开发指导、资源下载

更多内容桌面应用开发和学习文档请查阅:

AIGC工具平台Tauri+Django环境开发,支持局域网使用
AIGC工具平台Tauri+Django常见错误与解决办法
AIGC工具平台Tauri+Django内容生产介绍和使用
AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
AIGC工具平台Tauri+Django开源git项目介绍和使用

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐