【ComfyUI】通用静态图像转视频

本文介绍了一种基于Stable Video Diffusion(SVD)模型的ComfyUI图生视频工作流，能够将静态图片转换为动态视频。工作流包含模型加载、图像导入、条件生成、视频采样、解码合成等8个核心步骤，通过SVD_img2vid_Conditioning节点实现视觉语义转换。该方案适用于创意视频制作、产品演示等场景，支持设计师和AI爱好者快速实现"以图生动"效果。文中

Mr数据杨

252人浏览 · 2025-11-25 22:38:49

Mr数据杨 · 2025-11-25 22:38:49 发布

今天给大家演示一个 ComfyUI 图生视频工作流。该流程基于 Stable Video Diffusion (SVD) 模型，通过输入一张静态图片，结合条件控制与采样器配置，最终生成动态视频效果。

整个过程不仅能展现模型对图像运动的理解，还能让用户快速体验从“图”到“视频”的一键生成效果。

工作流介绍

这个工作流以 SVD 图像转视频模型 为核心，首先加载检查点模型及相关 VAE/CLIP 组件，随后导入静态图像并生成对应的潜变量，通过条件控制与采样器进行视频帧的生成，再经过解码与视频合成节点输出最终视频文件。整体逻辑清晰：从 模型加载 → 图片输入 → 条件生成 → 采样与解码 → 视频输出，实现了图像到视频的完整转化流程。

在这里插入图片描述

核心模型

在本工作流中使用的核心模型是 svd.safetensors，它是 Stable Video Diffusion img2vid 的权重文件，能够将单张图片扩展为时间维度上的连续视频帧。模型依赖 VAE 进行潜空间与图像空间的互转，并结合 CLIP Vision 进行特征条件化。

模型名称	说明
svd.safetensors	Stable Video Diffusion 图生视频核心模型，用于从静态图像生成动态视频。

Node节点

该工作流包含多个关键节点。模型加载节点负责读取核心权重和相关组件，图像加载节点提供输入素材，条件生成节点利用 SVD 特性构建正/负向引导，采样器节点进行迭代生成，最后通过解码、合成与保存节点将潜变量还原为视频文件。整体节点互相衔接，完成从输入到输出的完整链路。

节点名称	说明
ImageOnlyCheckpointLoader	加载 SVD 模型及其相关组件（MODEL/CLIP_VISION/VAE）。
LoadImage	导入用户输入的静态图像。
SVD_img2vid_Conditioning	根据输入图像与 CLIP Vision 特征，生成正向/负向条件及潜变量。
VideoLinearCFGGuidance	为视频生成过程提供 CFG 引导控制。
KSampler	基于模型与条件进行迭代采样，生成潜变量帧。
VAEDecode	将潜变量解码为可视图像帧。
CreateVideo	将解码后的图像帧合成为视频。
SaveVideo	输出最终的视频文件。

工作流程

整个工作流的执行顺序由 模型加载 → 图像导入 → 条件构建 → 视频生成与引导 → 潜变量采样 → 图像解码 → 视频合成 → 文件保存 八个阶段组成。通过节点间的数据传递，保证了从输入图像到最终视频输出的完整链路。模型与图像在前端准备，随后通过条件和采样器生成视频帧，最后在解码与合成节点中输出可播放的视频文件。

流程序号	流程阶段	工作描述	使用节点
1	模型加载	加载 Stable Video Diffusion 模型及其 CLIP、VAE 组件，作为后续生成的基础。	ImageOnlyCheckpointLoader
2	图像导入	读取用户输入的静态图像，作为视频生成的参考起点。	LoadImage
3	条件构建	使用输入图像与 CLIP Vision 特征生成正/负条件及潜变量。	SVD_img2vid_Conditioning
4	引导控制	通过 CFG 指导视频生成过程，提高一致性和控制性。	VideoLinearCFGGuidance
5	潜变量采样	依据条件和模型进行迭代采样，生成潜变量帧。	KSampler
6	图像解码	将潜变量解码为具体图像帧。	VAEDecode
7	视频合成	将生成的图像帧合成为连续的视频序列。	CreateVideo
8	文件保存	将最终生成的视频以文件形式输出保存。	SaveVideo

大模型应用

SVD_img2vid_Conditioning 视觉语义与潜变量核心生成器

该节点是整个工作流中唯一承担「大模型语义处理」的关键节点。它将加载的视觉编码模型、用户提供的初始图像以及 VAE 编码结果结合，生成视频生成所需的两类核心语义信息：positive conditioning 与 negative conditioning，同时构建用于采样的视频初始潜变量。
由于本工作流是一个纯图像转视频流程，不再依赖文本 Prompt，而是完全由视觉特征主导生成，因此该节点的职责是将图像内容、风格、构图、色彩统一转化为模型可理解的语义表达。最终生成的视频风格、结构和动态一致性，都由这里的视觉条件决定。

节点名称	Prompt 信息	说明
SVD_img2vid_Conditioning	（无文本 Prompt，基于输入图像自动生成视觉语义）	将 CLIP Vision、初始图像与 VAE 编码结果融合，生成 positive 与 negative 条件 embedding，并构建视频潜变量，是整个 SVD 视频生成的核心语义节点。

使用方法

该图像转视频工作流通过加载 SVD（Stable Video Diffusion）模型，读取用户输入的图片，并利用视觉条件生成连续帧，最终合成完整视频。用户只需更换输入图片，系统就能自动重新编码图像语义、生成潜变量并进行视频采样。

初始图像决定视频内容主题与画面风格；视觉模型负责解析图像特征；潜变量则引导动作与帧间变化；用户无需提供文字 Prompt 就能生成与原图一致性极强的视频。

注意点	说明
输入图要清晰	影响视觉语义提取与最终视频质量
建议使用较高分辨率	SVD 动态生成效果与分辨率相关
视频长度由帧率参数决定	在 CreateVideo 节点中调整
图像主体应明确	有利于模型提取重点特征进行动态生成
CFG 调整平稳即可	VideoLinearCFGGuidance 过高会导致画面不自然

应用场景

该工作流主要用于 图像到视频的快速生成，尤其适合创意视频、故事板扩展、产品演示与视觉动效场景。用户只需准备一张静态图像，即可自动生成带有动态变化的视频。典型用户包括 设计师、视频创作者、AI 爱好者 等，他们能够通过该流程将静态素材转化为动态内容，从而扩展创作维度。生成的视频可以用于 社交媒体展示、概念验证、艺术创作 等，帮助实现“以图生动”的效果。

应用场景	使用目标	典型用户	展示内容	实现效果
图像转视频	将静态图像转化为动态视频	设计师 / 创作者 / AI 爱好者	输入单张图片	输出连贯的视频画面
创意内容制作	用于视觉动效或短片生成	视频博主 / 营销团队	产品图像 / 场景图像	自动生成动画效果
概念演示	展示项目或艺术创意	项目展示者 / 艺术家	草图 / 插画	转化为动态视觉演示
AI 研究与实验	验证图生视频模型效果	开发者 / 学者	不同测试图片	比较生成结果与模型性能