AI 驱动的内容生成,已经不再只是“在线点一下就出图”的新奇体验,而是越来越多工作室、内容团队的日常生产流程:写实图像可以稳定到接近摄影,视频模型能生成更长、更连贯的镜头,甚至能更精准地遵循创作指令。也正因为“能用”的程度变高,创作者开始在意另一件事:能不能把它变成可控、可复用、可迭代、可交付的工作流。这也是为什么越来越多人把生成式 AI 从云端搬回本地 PC 来跑——本地意味着素材更可控、迭代成本更可预测、修改更顺手,也更不容易被 token、排队、平台限制打断节奏。

在这条路线里,NVIDIA RTX PC常被当作“默认最优解”:显卡性能强、迭代速度快,很多工作流可以直接在本地运行,做大量试错也不会被云端计费牵着走。再加上近一段时间围绕 RTX 的优化持续推进——从图像到视频、从推理到加速、从模型精度到显存管理——让“在本地完成从出图到出片”的可能性越来越高。

这篇文章会用一个尽量现实、可照做的方式,把你从“跑通第一张图”一路带到“图像→视频→合并工作流→进一步扩展”的进阶路径。工具以 ComfyUI 为核心,模型以 FLUX.2(图像)与 LTX-2(视频)为例,并补充必要的显存/性能策略,让你在有限硬件条件下也能跑得动、改得快、做得稳。


一、为什么是 ComfyUI:把“生成”变成可以搭建的流程,而不是黑箱按钮

很多在线工具的体验更像“许愿”:你输入一段提示词,它给你几个结果;你不满意再改一句,反复直到“差不多”。这种方式有两个天然限制:一是你很难把过程拆开理解,二是你很难把某次成功的结果稳定复刻出来。对交付型创作来说,复刻与可控比“偶尔灵光一现”更重要。

ComfyUI的价值在于它是节点式(node-based)的:生成过程被拆成一段段节点,节点之间用连线组成“管线”。你可以把它理解为一条可视化的生产线:加载模型、编码提示词、采样、解码、保存,每一步你都看得见、改得动、换得掉。工作流还可以保存、复用、复制粘贴组合,这意味着你能把一次成功的流程变成“模板”,下一次直接套用,不用从头猜。

你可以从这里开始下载与了解 ComfyUI:

  • ComfyUI 官网下载(含 Windows 桌面版入口):https://www.comfy.org/download
  • ComfyUI Windows 桌面版安装文档:https://docs.comfy.org/installation/desktop/windows
  • ComfyUI 便携版(Portable)Windows 文档:https://docs.comfy.org/installation/comfyui_portable_windows
  • ComfyUI GitHub(生态、更新与源码):https://github.com/Comfy-Org/ComfyUI

如果你是第一次装,通常更建议先用桌面版:它更像传统软件,安装与依赖处理更省心;等你熟悉模型目录、插件管理、多个版本共存,再考虑便携版也不迟。


二、从 0 到 1:先跑通“第一张图”,别急着追求最好看

很多人第一次打开 ComfyUI 会被节点图吓到:一堆方块、接口、参数、线,像电路板。真正高效的入门方式是“把目标缩小到最小”——你只需要先做到一件事:用模板跑通一张文字转图片

在 ComfyUI 的模板(Templates)里选择“快速开始(Quick Start)→ 文字转图片(Text to Image)”,它会自动帮你加载一套最小工作流。你点击运行时,会看到节点依次高亮执行:这一步非常关键,因为它让你形成一个稳定认知——生成不是魔法,而是一条链路。

此时你先不要纠结提示词技巧、模型版本、高清修复、ControlNet 或 LoRA。你只要确认三件事:

  1. 你点运行,显卡开始工作,最终能输出一张图。
  2. 你知道输出图存到哪里去了(下一节会讲路径)。
  3. 你改提示词再运行,能看到结果变化。

只要这三件事成立,你就已经拥有了“能继续往上叠加复杂度”的地基。


三、模型、权重与下载:为什么一装就是几十 GB,它们到底是什么

接下来你会接触到 FLUX.2 这类更强的图像模型。很多模板在第一次使用时,会提示你下载某些 .safetensors 文件或其他资源,而且体积巨大,动不动十几 GB、几十 GB。这里面最容易让新手困惑的是:这些文件是什么?为什么 ComfyUI 不自带?

可以用一个直觉来理解:

  • 模型结构像“脑的结构”,决定计算方式;
  • **权重(weights)**像“脑里形成的记忆”,是训练的结果,真正决定模型会什么、像什么、能输出什么。

权重文件大,是因为它承载了模型“学到的知识”,数十亿个参数不是夸张描述,而是现实规模。ComfyUI 作为框架,不可能把所有模型的权重都内置,否则软件体积会不可控;它更合理的方式是:你要用哪个模型,就按需下载并放到正确目录。

当你开始安装 FLUX.2 这种模型时,建议你提前做好三件事:

  • 磁盘空间规划:你不只会装一个模型,还会装多个版本、LoRA、工作流素材。
  • 下载时间预期:大文件下载失败很常见,尽量选择稳定网络或支持断点续传的方式。
  • 模型目录习惯:越早建立清晰的目录结构,后期越不痛苦。

如果你想了解 LTX-2(视频模型)相关权重与说明,官方入口很集中,建议以这些为准:

  • LTX-2 GitHub(官方仓库、推理代码、LoRA 等):https://github.com/Lightricks/LTX-2
  • LTX-2 Hugging Face(模型卡与权重入口):https://huggingface.co/Lightricks/LTX-2
  • LTX 文档:ComfyUI 集成说明:https://docs.ltx.video/open-source-model/integration-tools/comfy-ui

四、显存(VRAM)就是你的“创作预算”:学会用参数换时间、换质量

当你从“跑通”进入“出精品”,最先遇到的瓶颈通常不是提示词,而是显存:一报错、卡死、生成极慢,背后大概率都是 VRAM 不够或被吃满。

你可以把显存理解成现场工作台的面积:台面越小,一次能摆的东西越少;你想同时摆更多工具,就得拆开分批做,或者把一部分东西挪到旁边(更慢)。在生成式 AI 里,“摆东西”的因素主要有四类:

  1. 模型本体:模型越大,常驻显存越高。
  2. 分辨率:图越大越吃显存。
  3. 采样步数/批量:步数越高、一次生成张数越多,显存与时间都涨。
  4. 视频任务:帧数、时长、FPS 叠加后,消耗会非常快。

原文提到的建议方向是:在合适的 GPU 上使用更适配的精度(比如 RTX 50 系列偏 FP4、RTX 40 系列偏 FP8),核心思想是“用更省显存的表示方式换取可运行与更快速度”。你不需要把 FP4/FP8 当成玄学,它更像“压缩与加速策略”,目标就是让模型在你的硬件里更顺畅地跑。

实际操作层面,最实用的策略是:把生成分成两套参数——“草稿参数”和“最终参数”。

  • 草稿:低分辨率、较短步数、较短视频、较低 FPS,只求构图与运动逻辑正确。
  • 最终:在草稿满意后,再把分辨率、步数、时长拉上去。

这样你会发现迭代速度快了非常多。很多人卡在“每次都用最终质量去试错”,自然觉得生成很慢、成本很高;但如果你把草稿当作“分镜预演”,效率会立刻变样。


五、用 FLUX.2 做图:提示词更像摄影指令,而不是文学创作

当你开始使用 FLUX.2(例如 FLUX.2-Dev)这类模型来追求更高图像质量时,提示词的写法会明显影响稳定性。一个很有效的直觉是:把提示词写成“摄影棚指令”

摄影指令通常包含四件事:拍什么、在哪拍、怎么拍、拍成什么味道。你可以把它压缩成 1–2 句,保持信息密度,而不是写一大段剧情散文。比如:

电影感特写,一辆雨中的复古赛车停在城市街边,湿漉漉的柏油路反射霓虹灯,高对比,35mm 胶片质感,浅景深,清晰对焦。

这类提示词的好处是可控:主体明确、场景明确、风格明确、镜头语言明确。新手常见的反效果是“堆很多形容词”,以为在加细节,实际是在加分歧:模型会从太多修饰语里做取舍,画面容易乱。

另一个很实用的建议是:画面杂乱时优先做减法;以及尽量少用负面提示词,更多用“我想要什么”的正向描述。这不是说负面提示词一定无效,而是它对新手来说更难控,容易引发意料之外的偏移。先把正向描述写清楚,往往更稳定。


六、保存工作流与输出路径:把 ComfyUI 当成“工程文件”,而不是一次性工具

当你下载完模型权重、跑通模板后,强烈建议你做一件看似琐碎但长期收益巨大的事:保存工作流

ComfyUI 的工作流不只是“节点截图”,它本质上是一份可复现的项目配置。你今天调出一个满意结果,过两周要复刻同风格、同参数、同镜头语言时,如果没有保存工作流,几乎等于重新再来。保存之后,你会逐渐形成“自己的模板库”:不同风格、不同用途、不同输出规格,像 Photoshop 动作、像 AE 模板一样可以复用。

同时你一定要尽早确认默认输出路径在哪里。不同安装方式位置会不同,但原则是一样的:你要知道“结果存哪了”,并能把它移动或整理到你的项目目录里。等你开始做“图→视频→多轮迭代”,文件会迅速增多;如果你没有良好的归档习惯,很快就会陷入“找不到那张最好的图/那段最好的草稿视频”的混乱。


七、进入视频:LTX-2 的提示词是“分镜与镜头描述”,不是完整剧本

从图像进入视频,你会明显感觉控制难度上升:你不再只要一帧好看,你要的是连续帧都合理、主体不乱变、动作与运镜有逻辑。这时候,提示词的写法要从“描述一个画面”升级为“描述一个镜头”。

原文给的核心方法非常对:用现在式写 4–6 句左右,涵盖镜头尺度、光照色彩、动作过程、运镜方式,再补充声音元素(如果模型链路支持或你在做更完整的视听设计)。你可以把它写得像分镜脚本,而不是文学叙事。比如同样是“复古赛车雨夜”,你的视频提示词可以更像这样:

夜晚雨中城市街边,中景镜头,霓虹灯在湿地面形成强反射。复古赛车缓慢启动,雨水从车身滑落,轮胎溅起细小水花。镜头手持跟拍,从车侧平移到车尾,保持浅景深与清晰对焦。整体胶片质感,高对比,冷色霓虹为主。环境音是持续雨声与远处车流声。

你会发现:它不需要很长,但必须把“怎么动”说清楚。这也是为什么很多教程强调镜头语言(推轨、摇摄、固定镜头、过肩等),因为视频模型需要一个明确的运动指令,否则它就会用自己的默认方式“瞎动”,你就会觉得不受控。

关于 LTX-2 的权威资料入口,建议你以这几个页面为准,它们能帮你对齐版本、用法与 ComfyUI 集成方式:

  • NVIDIA 的 LTX-2 + ComfyUI 快速入门/指南(偏实践与流程):https://www.nvidia.com/en-us/geforce/news/rtx-ai-video-generation-guide/
  • LTX 官方文档:ComfyUI 集成页(偏配置与工作流使用):https://docs.ltx.video/open-source-model/integration-tools/comfy-ui
  • LTX-2 GitHub(偏技术细节与更新):https://github.com/Lightricks/LTX-2
  • LTX-2 Hugging Face(偏模型卡与权重):https://huggingface.co/Lightricks/LTX-2

八、显存不够但又想跑视频:理解“把一部分卸载到内存”的意义与代价

视频生成尤其容易遇到“显存墙”。一些优化策略会引入类似 Weight Streaming 的机制:当 VRAM 不足时,把部分内容卸载到系统内存里继续运行。它的意义很现实:让更多配置的机器也能生成,只是更慢

你可以把它理解成:显存放不下,就临时把一部分搬到更远的仓库(内存)里用,搬运会增加时间,所以速度下降。这不是“魔法加速”,而是“在跑得动与跑不动之间”给你一个折中选项。

不过实践里更推荐的顺序仍然是:先从源头控制参数——降低分辨率、缩短时长、减少帧数/FPS、降低采样步数;只有在你确认“参数已经很保守但仍不足”时,再把卸载机制当作兜底。这样你会更稳定、更可预测。


九、最能提升效率的一步:把 FLUX.2 出图与 LTX-2 出片合并成一条工作流

当你掌握了图像与视频的基本生成方式后,会马上遇到一个影响产能的痛点:你在两个工作流之间反复切换。

常见的低效流程是:

1)在 FLUX.2 工作流里出很多图
2)去输出目录里挑一张
3)再打开 LTX-2 的图生视频工作流,把图导进去
4)生成草稿视频
5)发现图不合适或提示词要改
6)回到 1)重复

这个“跨工作流搬运素材”的过程,会消耗大量注意力与时间。原文给出的解决方案非常实用:把 FLUX.2 的关键节点复制到 LTX-2 工作流里,让“文字→图像→视频”在同一条链路里完成。这样你只需要在一个工程里改提示词、改参数,整条流水线一键重新跑,迭代速度会明显上升。

节点式工具的真正优势也在这里:工作流是可组合的。你越往后做,越不应该依赖“别人给的完整成品工作流”,而是把它们当作模块库:需要哪段就拿哪段,拼出适合你项目的管线。对工作室来说,这相当于把经验固化成可复用资产;对个人创作者来说,这相当于建立自己的“效率外挂”。


十、再往上走:3D 引导让“可控性”更像专业制作,而不只是生成好看画面

当你能稳定地“出图”和“出片”之后,下一阶段往往不是再换更大模型,而是提升可控性:多镜头一致性、空间连续性、镜头运动可预设、角色走位不乱。这些需求在广告、产品展示、短剧分镜、品牌视觉里非常常见。

这时候引入 3D 引导就变得合理:3D 负责空间结构与镜头运动的硬约束,生成式 AI 负责质感、风格、细节与氛围。你可以把它理解为“用骨架控制形体,用生成补完皮肤与妆发”。当你开始做系列化内容、需要稳定交付时,这种路线往往比“不断抽卡碰运气”更可靠。


十一、一个可落地的练习路线:用最少挫败感,从新手走到可生产

如果你想把本文变成真正能执行的行动清单,这里给你一个很实用的顺序(它刻意避免你一上来被复杂参数淹没):

你先做三天练习,不追求完美,只追求“跑通+复现”。

第 1 天:跑通与定位文件
装 ComfyUI(建议桌面版),用 Quick Start 文生图模板输出一张图,确认输出路径,能找到文件并归档到你的项目文件夹。
参考入口:https://www.comfy.org/download
安装文档:https://docs.comfy.org/installation/desktop/windows

第 2 天:用 FLUX.2 做出稳定风格
加载 FLUX.2 模板(或你要用的图像模型模板),用“摄影指令式提示词”反复迭代 10 次,找出你最稳定的 1–2 套提示词与参数组合,并保存工作流。重点是“复现”:同一提示词多跑几次,看风格是否稳定。

第 3 天:用 LTX-2 把图动起来
选你第 2 天最满意的一张图,进入 LTX-2 图生视频流程,用“镜头描述式提示词”生成 3–5 个不同运镜版本:固定镜头/推轨/跟拍/摇摄。比较哪种最可控、最符合你的内容调性。
参考:NVIDIA 指南 https://www.nvidia.com/en-us/geforce/news/rtx-ai-video-generation-guide/
LTX 文档 https://docs.ltx.video/open-source-model/integration-tools/comfy-ui

完成这三天后,你就已经具备把它用于项目的基本能力:你知道怎么装、怎么跑、怎么保存、怎么迭代、怎么从图到视频。之后你再去研究更复杂的节点、插件、控制模块,学习成本会低很多,因为你有“真实需求”在牵引,而不是被参数表催眠。


结语:本地工作流的终点不是“更大模型”,而是“更少阻力的迭代”

把视觉生成式 AI 放到 RTX PC 本地跑,本质不是为了炫耀硬件,而是为了减少阻力:少一点等待、少一点限制、少一点不可控,多一点复用、多一点稳定、多一点可交付。ComfyUI 的节点式工作流把生成从“黑箱按钮”拆成了可以搭建的流程;FLUX.2 把图像质量推到更可用的层级;LTX-2 让“可控的视频生成”变得更像分镜制作,而不是纯抽卡。

当你把“模板→保存工作流→合并管线→分草稿与最终参数”的习惯建立起来,你会发现生成式 AI 不再是灵感玩具,而是你创作系统里一个可靠的模块:随时可调用、随时可迭代、随时可复制到下一个项目。

如果你愿意,我也可以按你的真实硬件(例如 RTX 4060 8GB、4070 12GB、4090 24GB 等)和你的内容类型(短剧分镜、广告产品片、IP 角色系列图、出版封面等),把这篇文章再改成更“贴你的生产场景”的 5000 字版本:会包含更具体的参数建议、迭代策略与文件/工作流命名规范。你告诉我显卡型号与显存、主要做图还是视频即可。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐