AI生成模型实操全攻略：从模型选择到LoRA训练与创作落地

当下AI生成技术正处于高速发展阶段，生成模型成为创意创作、设计生产、内容制作等领域的核心工具，克莱因、Flex等模型的迭代，LoRA训练技术的成熟，以及开源与闭源生态的互补，让AI生成的落地门槛不断降低，同时也为创作者提供了更多个性化、高定制化的可能。

闹纳尼

258人浏览 · 2026-02-18 01:30:07

闹纳尼 · 2026-02-18 01:30:07 发布

前言

当下AI生成技术正处于高速发展阶段，生成模型成为创意创作、设计生产、内容制作等领域的核心工具，克莱因、Flex等模型的迭代，LoRA训练技术的成熟，以及开源与闭源生态的互补，让AI生成的落地门槛不断降低，同时也为创作者提供了更多个性化、高定制化的可能。本教程将从基础认知出发，逐步讲解生成模型的选择、LoRA训练的全流程、模型测试与优化、开源/闭源工具的实操应用，还会结合行业实操经验分享创作技巧与避坑指南，同时融入流沙任务系统等实用工具的使用方法，兼顾新手入门与进阶提升，助力创作者真正掌握AI生成模型的使用逻辑，实现从“会用”到“用好”再到“创作出独特内容”的转变，教程总字数超5000字，内容兼具实操性、系统性和实用性。

一、AI生成模型基础认知：核心概念与生态格局

1.1 生成模型核心定义与应用场景

AI生成模型是基于深度学习算法，通过学习海量数据的特征与规律，能够自主生成文本、图像、音频、视频等内容的智能模型，其中图像生成模型是当下创意领域应用最广泛的类型，也是本教程的核心讲解对象。

这类模型的核心原理是通过编码器对输入的提示词（Prompt）、参考图等信息进行特征提取，再通过解码器生成符合特征要求的内容，不同模型的网络结构、训练数据、调优方向不同，最终生成的内容在细节、结构、风格、延展性上会存在显著差异。

其应用场景覆盖多个领域：设计领域可快速生成产品原型、海报、插画；文创领域能创作漫画分镜、角色设定、场景原画；自媒体领域可制作短视频素材、封面图、图文配图；工业领域能辅助完成零部件设计、效果图绘制等，核心价值在于大幅降低创作门槛、提升生产效率，同时为创作者提供全新的创意灵感。

1.2 主流图像生成模型分类与特性

目前主流的图像生成模型可按研发模式分为闭源模型和开源模型，按功能特性可分为通用生成模型和专用微调模型，本教程重点讲解当下创意领域最常用的克莱因、Flex系列模型，二者均属于高性能图像生成模型，也是目前行业内口碑与实操效果俱佳的选择，具体特性对比如下：

模型名称	核心优势	轻微短板	适用场景
克莱因模型	细节表现拉满，相同分辨率下细部细节量更多；结构逻辑更优，能描述的内容更丰富；构图突破保守局限，创意性更强；不同训练梯度下结果稳定，风格固定性好；具备强大的“启发大冒险能力”，可创造独特原创元素	画面延展性稍逊于部分通用模型，大场景跨维度生成时偶尔会出现元素衔接问题	角色设定、精细插画、产品精修、原画创作、高细节场景绘制
Flex 1代模型	画面延展性强，大场景生成效果流畅；对基础提示词的兼容性高，新手易上手；生成速度较快，硬件要求相对较低	细节表现不如克莱因，相同分辨率下元素精细度稍弱；构图偏保守，创意突破有限；不同训练梯度下结果稳定性一般，易出现风格偏移	快速草图、大场景氛围图、短视频素材、基础配图、创意初稿

除了这两款核心模型，新手也可从Stable Diffusion（SD）基础版、Midjourney等入门，其中SD开源生态完善，可作为LoRA训练的基础载体，Midjourney闭源操作简单，适合快速体验AI生成的创意效果。

1.3 开源与闭源模型生态格局与选择逻辑

AI生成模型的开源与闭源生态并非对立，而是互补共存，二者各有优劣，适配不同的创作需求和使用场景，创作者需根据自身定位、硬件条件、创作目标选择合适的模式，这也是用好AI生成模型的关键前提。

闭源模型：以Midjourney、文心一格、通义万相为代表，核心特点是操作门槛低、云端部署、无需专业硬件，用户只需输入提示词即可生成内容，平台会持续优化模型，生成效果的下限较高。但短板也十分明显：一是内容辨识度低，批量化生成的内容易千篇一律，在视觉商品领域难以形成独特优势；二是定制化程度低，无法根据个人创作风格进行深度微调；三是存在版权与使用限制，部分商业用途需缴纳额外费用。闭源模型适合AI新手、快速出稿需求、非商业浅度创作的场景。
开源模型：以Stable Diffusion、克莱因（开源版）、Flex（开源版）为代表，核心特点是支持本地部署、可深度微调、版权更清晰，用户能掌握全部生产资料，可通过LoRA训练、模型融合等方式打造专属模型，生成的内容能充分体现个人风格，拉开与批量化内容的差距。但开源模型的使用门槛较高，需要一定的硬件基础（如高性能显卡）、电脑操作能力和模型调优知识。开源模型适合专业创作者、商业创作、个性化风格打造、深度AI创作研究的场景。

选择逻辑：新手可先从闭源模型入手，熟悉提示词撰写、生成逻辑等基础操作；有一定基础后，可尝试开源模型的本地部署或API调用，逐步学习微调与训练；专业创作者建议深耕开源生态，通过LoRA训练打造专属模型，实现创作的个性化与差异化。同时，也可采用“闭源出灵感+开源做落地”的组合方式，兼顾效率与独特性。

二、前期准备：硬件、软件与基础工具配置

2.1 硬件配置要求：兼顾实用性与性价比

AI生成模型的使用（尤其是本地部署和LoRA训练）对硬件有一定要求，核心硬件为显卡（GPU），其次是内存（RAM）、固态硬盘（SSD）和CPU，不同使用场景的硬件配置要求不同，本教程提供入门级、进阶级、专业级三套配置方案，适配不同需求和预算，均为当下主流的性价比选择：

入门级（仅模型推理、轻量生成，无LoRA训练）：显卡选择NVIDIA GeForce RTX 3060（12G显存）/AMD Radeon RX 6600 XT，显存是核心，建议不低于8G；内存16G DDR4；固态硬盘512G NVMe（用于安装系统和模型文件）；CPU选择英特尔i5-12400F/AMD Ryzen 5 5600，满足基础运算即可。这套配置可支持768*768分辨率的图像生成，能流畅运行SD基础版、克莱因模型轻量版，适合新手入门。
进阶级（支持模型推理+轻量LoRA训练）：显卡选择NVIDIA GeForce RTX 4070 Ti（12G显存）/RTX 3090（24G显存），NVIDIA显卡对CUDA的兼容性更好，LoRA训练效率更高；内存32G DDR4/DDR5；固态硬盘1T NVMe（模型文件和训练集需要较大存储空间）；CPU选择英特尔i7-13700F/AMD Ryzen 7 7700X。这套配置可支持1024*1024分辨率的图像生成，能流畅完成小型LoRA训练（训练集数量≤500张），适合有一定基础的创作者。
专业级（支持高分辨率生成+大规模LoRA训练）：显卡选择NVIDIA GeForce RTX 4090（24G显存）/NVIDIA A100（40G显存，专业计算卡）；内存64G DDR5；固态硬盘2T+NVMe（可分盘存放训练集、模型文件、生成成果）；CPU选择英特尔i9-14900K/AMD Ryzen 9 7950X。这套配置可支持2048*2048及更高分辨率的图像生成，能完成大规模LoRA训练（训练集数量≥1000张），适合专业设计师、AI创作工作室、全职内容创作者。

温馨提示：若暂时无足够预算升级硬件，可选择云服务器（如阿里云、腾讯云的GPU云服务器）或API调用的方式使用开源模型，无需本地部署，只需按使用量付费，性价比也较高；同时，显卡的显存是核心指标，优先选择大显存显卡，远超单纯追求显卡的核心频率。

2.2 软件与工具安装：一站式配置指南

本教程的实操基于Windows系统（兼容性最强，新手友好），核心软件与工具包括模型运行载体、训练工具、辅助编辑工具，所有工具均为当下行业主流，且大部分开源免费，安装过程简单，按步骤操作即可，具体安装与配置流程如下：

核心运行载体：ComfyUI/Stable Diffusion WebUI
- 选择逻辑：ComfyUI操作更灵活，支持节点式编辑，可精准控制生成流程，适合进阶创作和LoRA训练；Stable Diffusion WebUI（SD WebUI）界面更简洁，插件生态完善，新手易上手。建议新手先安装SD WebUI，进阶后再学习ComfyUI。
- 安装步骤：直接在GitHub上搜索对应工具的官方仓库，下载最新版安装包，选择“一键安装包”（内含依赖环境，无需手动配置Python、CUDA等），解压后点击启动脚本（如webui-user.bat），等待自动安装依赖，出现本地访问地址（如http://127.0.0.1:7860）即安装成功。
- 关键配置：启动前可修改启动脚本，设置显卡显存占用、生成分辨率等参数，如在webui-user.bat中添加--xformers可提升生成速度，减少显存占用。
LoRA训练工具：LoRA Trainer/SD WebUI LoRA插件
- LoRA Trainer：独立的LoRA训练工具，功能更专业，支持自定义训练参数，适合大规模训练，可从GitHub下载，与SD WebUI联动使用。
- SD WebUI LoRA插件：在SD WebUI的“插件市场”中搜索“LoRA”，选择排名靠前的插件（如Lora Trainer Extended），点击“安装并重启”，即可在SD WebUI中直接进行轻量LoRA训练，新手首选。
辅助工具：图像编辑+提示词优化+文件管理
- 图像编辑：Photoshop（专业级）、GIMP（开源免费）、醒图（简易版），用于处理训练集图片、优化生成成果、调整画面细节。
- 提示词优化：Prompt Hero（在线提示词库）、AI提示词生成器（微信小程序/网页版），用于学习优质提示词撰写逻辑，优化自身提示词。
- 文件管理：Everything（快速搜索文件）、百度网盘/阿里云盘（存储模型文件和训练集），模型文件和训练集体积较大，需做好分类存储。
模型文件下载与导入
- 模型文件获取渠道：Hugging Face（官方开源库，最权威）、Civitai（专业AI模型社区，资源丰富）、B站模型分享区（国内创作者分享，适配性高）。
- 导入步骤：将下载的模型文件（格式多为ckpt、safetensors、bin）放入SD WebUI/ComfyUI的指定文件夹，如SD WebUI的models/Stable-diffusion（主模型）、models/Lora（LoRA模型），重启工具后即可在界面中选择使用。

2.3 基础环境检查与问题排查

软件安装完成后，需进行基础环境检查，确保所有工具能正常运行，避免后续实操中出现卡顿、报错等问题，核心检查点与常见问题排查方法如下：

显卡驱动检查：右键“此电脑”→“管理”→“设备管理器”→“显示适配器”，查看显卡型号是否识别正常，驱动是否为最新版，若驱动过旧，可到NVIDIA/AMD官网下载最新驱动安装。
显存占用测试：在SD WebUI中生成一张768*768分辨率的图片，查看界面底部的显存占用提示，若出现“显存不足”，可降低分辨率、关闭其他后台程序，或在启动脚本中添加显存优化参数。
模型导入检查：在SD WebUI的“模型选择栏”中查看是否能识别已导入的克莱因、Flex等模型，若无法识别，检查文件格式是否正确、存放路径是否有误，确保模型文件未损坏。
常见报错排查：若启动时出现“Python环境错误”，可重新安装一键安装包，自动修复依赖；若生成时出现“黑屏/画面破碎”，检查提示词是否有误、模型是否与工具兼容；若LoRA训练时出现“数据加载失败”，检查训练集图片格式是否为JPG/PNG，尺寸是否统一。

三、核心实操一：生成模型的基础使用与提示词撰写技巧

3.1 模型基础操作流程：从打开到生成的一站式步骤

以Stable Diffusion WebUI为操作载体，以克莱因模型和Flex 1代模型为核心，讲解AI生成模型的基础操作流程，步骤简单易懂，新手可按此流程快速完成第一次图像生成，核心流程分为5步：

选择模型：打开SD WebUI本地地址，在界面顶部的“Stable Diffusion checkpoint”下拉栏中，选择克莱因模型或Flex 1代模型，点击“Refresh”刷新，确保模型加载成功。
设置生成参数：在“文生图”标签页中设置核心参数，这是影响生成效果的关键，新手可先按默认参数尝试，后续再逐步优化：
- 分辨率：克莱因模型建议768768/10241024，Flex 1代模型建议10241024/1280720；
- 采样步数：20-30步为宜，步数过少画面模糊，步数过多生成速度慢，无明显效果提升；
- 采样方法：DPM++ 2M Karras（兼容性最强，生成效果稳定，新手首选）；
- CFG缩放：7-10为宜，数值越高，画面越贴合提示词，但创意性会降低；
- 生成数量：1-4张为宜，兼顾速度与选择空间。
撰写提示词（Prompt）与反向提示词（Negative Prompt）：在对应输入框中填写提示词和反向提示词，提示词描述想要的画面内容，反向提示词描述不想出现的画面内容（如模糊、低分辨率、畸形、水印等）。
点击生成：设置完成后，点击“Generate”按钮，等待生成完成，界面底部会显示生成进度和显存占用情况，生成的图片会显示在界面右侧的“图片预览区”。
保存与优化：生成完成后，右键图片可选择“保存图片”“保存原图”，若对效果不满意，可调整提示词或参数，重新生成；若效果较好，可通过图像编辑工具进行后期优化。

进阶操作：“图生图”功能的使用，适合基于参考图进行创作，步骤为：点击“图生图”标签页→上传参考图→设置生成参数（分辨率建议与参考图一致）→撰写提示词→点击生成，图生图功能能更好地控制画面构图和元素，适合角色设定、场景复刻等需求。

3.2 提示词撰写核心逻辑：让模型精准理解创作需求

提示词是AI生成模型的“指挥棒”，撰写质量直接决定生成效果，很多新手觉得生成效果不佳，核心原因是提示词撰写过于简单、逻辑混乱，模型无法精准理解创作需求。本教程分享通用提示词撰写逻辑，适用于克莱因、Flex、SD、Midjourney等所有主流图像生成模型，同时结合克莱因模型的特性给出专属撰写技巧。

3.2.1 通用提示词撰写结构：从核心到细节，层层递进

优质的提示词应具备清晰的逻辑结构，遵循“核心主体+风格定位+细节描述+画面氛围+技术参数”的顺序，层层递进，让模型先明确核心创作对象，再逐步丰富细节和氛围，技术参数则能提升画面的整体质量，具体结构与示例如下：

核心主体：明确画面的核心创作对象，如“古风女性角色”“赛博朋克城市场景”“猫咪插画”“产品海报（水杯）”，这是模型生成的基础，必须简洁明确。
风格定位：明确画面的创作风格，如“国潮风格”“日系动漫风格”“写实油画风格”“扁平插画风格”“赛博朋克风格”“水墨风格”，风格定位越具体，模型生成的画面越统一。
细节描述：对核心主体和画面元素进行精细化描述，这是提升画面质量的关键，可从外形、色彩、材质、动作、服饰、道具等维度展开，如“古风女性角色，长发及腰，梳双丫髻，身着淡粉色襦裙，裙摆绣有荷花纹样，手持油纸伞，眉眼温柔，皮肤白皙”。
画面氛围：描述画面的整体氛围和情绪，如“氛围感拉满，暖色调，光影柔和，朦胧美，静谧氛围，科技感十足，暗黑系，清新治愈”。
技术参数：添加提升画面质量的技术描述，如“8K超高清，超高细节，极致分辨率，光影追踪，纹理清晰，构图完美，无瑕疵，无畸形，高清渲染”。

示例：克莱因模型生成“古风女性角色”的完整提示词→“古风女性角色，国潮风格，长发及腰，梳双丫髻，身着淡粉色襦裙，裙摆绣有荷花纹样，手持油纸伞，眉眼温柔，皮肤白皙，站在荷塘边，荷叶亭亭，荷花盛开，暖色调，光影柔和，氛围感拉满，8K超高清，超高细节，极致分辨率，纹理清晰，构图完美”；反向提示词→“模糊，低分辨率，畸形，水印，文字，模糊背景，色彩杂乱，皮肤粗糙，比例失调，无细节，画面破碎”。

3.2.2 克莱因模型专属提示词技巧

克莱因模型的核心优势是细节表现和创意性，撰写提示词时可充分利用其特性，让生成效果更出彩：

增加细节描述的密度：克莱因模型能处理更多的细节信息，可在提示词中加入更多精细化的描述，如服饰的纹样、皮肤的质感、场景的微小元素等，避免提示词过于简略。
加入创意性描述：利用克莱因模型的“启发大冒险能力”，在提示词中加入一些独特的创意元素，如“融合水墨与赛博朋克风格”“角色的眼睛里有星空”“场景中漂浮着发光的花瓣”，模型能根据这些描述创造出独特的原创内容。
控制提示词的长度：克莱因模型对长提示词的兼容性较好，建议提示词长度控制在50-100字，既能丰富细节，又不会导致模型信息过载。

3.2.3 提示词撰写避坑指南

避免模糊化描述：如“好看的画面”“漂亮的角色”“有趣的场景”，模型无法理解这类模糊的描述，会导致生成效果偏离预期。
避免关键词堆砌：如在提示词中加入大量无关的风格和元素，如“古风女性角色，赛博朋克，日系动漫，写实油画，水墨风格”，会导致模型混淆风格，生成的画面杂乱无章。
避免语法错误和逻辑混乱：提示词的逻辑应清晰，按“核心到细节”的顺序撰写，避免语序颠倒、成分残缺，如“身着淡粉色襦裙，古风女性角色，手持油纸伞”，虽不影响生成，但会降低模型对核心主体的识别效率。
反向提示词必须填写：很多新手会忽略反向提示词，导致生成的画面出现模糊、畸形、水印等问题，反向提示词建议固定填写基础内容，再根据创作需求补充，如“模糊，低分辨率，畸形，水印，文字，比例失调，无细节，画面破碎，色彩杂乱”。

3.3 不同模型的参数优化技巧：适配特性，提升效果

克莱因和Flex 1代模型的特性不同，在基础参数的基础上进行针对性优化，能让生成效果事半功倍，核心优化方向为分辨率、采样步数、CFG缩放，同时结合适用场景调整，具体优化技巧如下：

克莱因模型参数优化
- 分辨率：优先选择768768/10241024，充分发挥其细节表现优势，避免过低分辨率浪费模型性能；若需要生成大场景，可采用“先小分辨率生成，再通过图生图放大”的方式，解决延展性稍弱的问题。
- 采样步数：25-30步为宜，克莱因模型对采样步数的要求稍高，25步以上才能充分展现细节。
- CFG缩放：8-10为宜，数值稍高能让模型更贴合提示词的细节描述，避免细节丢失。
- 适用场景优化：创作角色设定时，可将分辨率设置为1024*1024，增加“人物比例完美，面部细节拉满，服饰纹理清晰”等提示词；创作精细插画时，可开启“高清修复”功能，提升画面的整体精细度。
Flex 1代模型参数优化
- 分辨率：优先选择10241024/1280720，充分发挥其延展性优势，适合生成大场景氛围图；若需要提升细节，可将CFG缩放适当提高。
- 采样步数：20-25步为宜，Flex 1代模型的生成速度较快，20步以上即可保证画面质量，无需过多增加步数。
- CFG缩放：7-8为宜，数值不宜过高，否则会降低画面的创意性，导致构图更保守。
- 适用场景优化：创作大场景氛围图时，可将分辨率设置为1280720，增加“画面延展性强，元素衔接流畅，氛围拉满”等提示词；创作快速草图时，可降低分辨率至512512，减少采样步数至15步，提升生成速度。

四、核心实操二：LoRA训练全流程攻略——从训练集准备到模型导出

LoRA（Low-Rank Adaptation）是一种轻量级的模型微调技术，核心优势是训练成本低、耗时短、显存占用少，能在不改变主模型结构的前提下，让模型学习特定的风格、角色、元素，打造专属的个性化模型，是开源AI生成模型生态的核心技术，也是专业创作者实现内容差异化的关键。本教程讲解LoRA训练的全流程实操，以SD WebUI的LoRA插件为工具，以克莱因模型为基础主模型，兼顾新手友好性和专业性，所有步骤均经过实操验证，可直接落地。

4.1 LoRA训练核心认知：训练目标与核心原则

在开始训练前，需明确LoRA训练的核心目标和原则，避免盲目训练导致模型效果不佳，这是做好LoRA训练的前提。

核心训练目标：LoRA训练的核心是让模型学习特定的特征，这些特征可以是个人创作风格（如独特的绘画笔触、色彩搭配）、特定角色形象（如原创动漫角色、真人形象）、专属元素（如独特的场景元素、产品特征）、固定风格（如专属的国潮风格、赛博朋克风格）。训练目标越明确，训练效果越好，避免一次训练多个无关特征，导致模型学习混乱。
核心训练原则
- 训练集质量优先，而非数量：这是LoRA训练最核心的原则，很多新手认为训练集数量越多越好，实则不然，低质量的训练集会让模型学习到不良特征，导致生成效果不佳。优质的训练集远胜于海量的低质量训练集，建议训练集数量控制在50-500张（新手建议100-200张），重点保证每张图片的质量。
- 训练集特征统一且有变体：训练集的图片需具备共同的核心特征（贴合训练目标），同时又有一定的变体，避免模型过拟合（即只能生成训练集中的图片，无法创意拓展）。例如，训练“原创古风女性角色”的LoRA模型，训练集的图片需均为该角色，但角色的动作、服饰、场景、角度需有一定变化。
- 参数适配硬件与训练目标：LoRA训练的参数并非固定，需根据自身硬件条件（尤其是显存）和训练目标调整，显存小则降低批次大小、训练分辨率等参数，避免显存不足；训练风格则调整学习率，训练角色则调整训练轮数。
- 循序渐进，轻量训练：LoRA是轻量级微调技术，无需进行大规模训练，建议采用“轻量训练、多次迭代”的方式，先进行小轮数训练，测试效果后再根据问题调整训练集和参数，逐步优化模型。

4.2 第一步：训练集准备——优质训练集是成功的一半

训练集准备是LoRA训练中最重要的环节，占训练成功的70%以上，核心流程为确定训练集主题→收集图片→图片预处理→图片分类与标注，每个步骤都有严格的标准和技巧，需认真执行。

4.2.1 确定训练集主题：贴合训练目标，特征明确

训练集主题需与训练目标完全一致，核心特征明确，避免主题模糊。例如：

训练目标为“个人绘画风格的LoRA模型”，训练集主题为“本人创作的100张插画，均为日系动漫风格，色彩偏清新，笔触细腻”；
训练目标为“原创角色（小舞）的LoRA模型”，训练集主题为“原创角色小舞的80张图片，均为该角色的不同动作、角度、场景，角色特征为粉色长发、兔耳发饰、红色舞裙”。

4.2.2 收集图片：渠道与质量标准

图片收集渠道：优先选择自己创作的图片（版权清晰，无侵权风险），其次可选择免费商用图片库（如Pixabay、Pexels、Unsplash）、AI生成的优质图片（需确认无版权限制），避免使用有版权保护的图片，防止侵权。
图片质量标准：这是训练集准备的核心，所有图片需满足以下标准，不符合的图片一律剔除：
- 分辨率：不低于512512，建议768768/1024*1024，保证图片有足够的细节；
- 清晰度：画面清晰，无模糊、噪点、水印、文字，避免模型学习到无关元素；
- 特征明确：每张图片都具备训练目标的核心特征，无偏离主题的图片；
- 格式统一：均为JPG/PNG格式，避免其他格式导致数据加载失败；
- 无畸形/瑕疵：人物/元素比例正常，无畸形、破碎、色彩杂乱等问题。

4.2.3 图片预处理：统一规格，优化质量

收集到的图片需要进行预处理，统一规格，优化质量，让模型能更高效地学习特征，预处理工具建议使用Photoshop/GIMP/醒图，核心预处理步骤为：

统一尺寸：将所有图片的分辨率统一为512512/768768（根据硬件显存调整，显存小则选择512*512），裁剪时保证核心特征在画面中央，避免裁剪掉关键元素。
去除无关元素：使用修图工具去除图片中的水印、文字、噪点、模糊区域，若图片中有无关元素（如多余的人物、道具），也需进行裁剪或修除。
统一色彩与亮度：若训练集图片的色彩、亮度差异较大，可进行轻微调整，让整体色调保持统一，避免模型学习到杂乱的色彩特征，但无需过度调整，保留一定的色彩变体。
图片压缩：将预处理后的图片进行轻量压缩，保证文件大小在1-5M之间，避免文件过大导致训练时数据加载缓慢，压缩时需保证画面质量无明显损失。

4.2.4 图片分类与标注：提升模型学习效率

图片预处理完成后，需进行简单的分类与标注，核心目的是让模型更清晰地识别特征，提升学习效率，新手可采用简单标注法，无需复杂的专业标注：

分类：将训练集图片按动作/角度/场景进行简单分类，如“正面角度”“侧面角度”“静态动作”“动态动作”“室内场景”“室外场景”，分类后可将图片放入不同的文件夹，便于后续训练时按批次加载。
标注：为每张图片添加简单的文本标注，标注内容为图片的核心特征，如“古风女性角色，粉色襦裙，手持油纸伞，荷塘场景，正面角度”，标注文本可直接命名为图片文件名，让模型在训练时能将图像特征与文本特征结合学习，提升模型的文本理解能力。

4.3 第二步：训练参数设置——适配硬件与训练目标

训练集准备完成后，进入SD WebUI的LoRA插件进行训练参数设置，参数设置是LoRA训练的核心技术环节，直接影响训练效果和训练效率，新手无需死记硬背参数，只需根据自身硬件条件和训练目标进行针对性调整，本教程提供通用参数模板，新手可在此基础上微调，同时讲解核心参数的含义与调整逻辑。

4.3.1 核心参数含义与调整逻辑

首先明确LoRA训练的核心参数，理解每个参数的含义，才能根据实际情况调整，核心参数包括训练分辨率、批次大小、学习率、训练轮数、保存步数、网络维度，具体含义与调整逻辑如下：

训练分辨率：与训练集图片的分辨率一致，建议512512/768768，显存小则选择512*512，避免显存不足。
批次大小（Batch Size）：每次训练加载的图片数量，显存小则设置为1-2，显存大则设置为4-8，批次大小过大会导致显存不足，过小则训练效率低。
学习率：模型学习特征的速度，核心调整参数，建议范围1e-4 ~ 5e-4（即0.0001 ~ 0.0005），学习率过高会导致模型过拟合，学习率过低会导致模型学习不充分，训练风格建议选择1e-4 ~ 2e-4，训练角色建议选择3e-4 ~ 5e-4。
训练轮数（Epoch）：模型遍历训练集的次数，建议范围3 ~ 10，训练集数量少则增加轮数，训练集数量多则减少轮数，新手建议先设置为3-5轮，测试效果后再调整。
保存步数：训练过程中保存模型的步数，建议设置为200 ~ 500步，保存多个模型版本，便于后续选择效果最好的版本，避免单次训练失败导致前功尽弃。
网络维度（Rank）：LoRA模型的特征学习维度，建议范围8 ~ 64，维度越高，模型学习的特征越精细，但训练难度越大，显存要求越高，新手建议设置为16-32，兼顾效果与硬件要求。

4.3.2 通用参数模板（新手首选）

结合当下主流的入门级/进阶级硬件，提供通用LoRA训练参数模板，适配大部分训练目标（风格/角色/元素），新手可直接使用，后续再根据测试效果微调：

参数名称	入门级硬件（3060 12G）	进阶级硬件（4070 Ti 12G/3090 24G）
训练分辨率	512*512	768*768
批次大小	1	4-8
学习率	2e-4（0.0002）	3e-4（0.0003）
训练轮数	3-5	5-8
保存步数	200	300-500
网络维度	16	32
优化器	AdamW	AdamW
训练集加载方式	按顺序加载	随机加载

4.3.3 参数设置实操步骤

打开SD WebUI，进入“LoRA Trainer”插件界面，点击“训练集设置”，选择预处理后的训练集图片文件夹，确认图片格式为JPG/PNG，加载成功后会显示图片数量。
在“参数设置”栏中，按上述通用参数模板设置核心参数，根据自身硬件条件选择对应数值。
在“模型保存设置”栏中，设置模型保存路径（建议选择SSD硬盘），设置模型名称（如“我的古风风格LoRA_v1”），选择保存格式（safetensors，兼容性最强）。
在“主模型选择”栏中，选择克莱因模型（或其他基础主模型），确认主模型加载成功。
检查所有参数设置，确认无误后，点击“开始训练”，插件会自动开始LoRA训练，界面会显示训练进度、显存占用、剩余时间等信息。

4.4 第三步：模型训练与监控——及时避坑，保证训练质量

点击开始训练后，进入模型训练阶段，训练时间根据硬件条件、训练集数量、训练轮数而定，入门级硬件训练100张图片/3轮，大约需要30-60分钟，进阶级硬件则需要15-30分钟，训练过程中需实时监控，及时发现并解决问题，避免训练失败或模型效果不佳。

4.4.1 训练过程核心监控点

显存占用监控：界面会实时显示显存占用情况，若出现“显存不足”提示，立即停止训练，降低训练分辨率、批次大小等参数，再重新开始。
训练进度监控：查看训练轮数和步数是否正常推进，若出现进度停滞，检查训练集图片是否损坏、路径是否有误，或关闭其他后台程序，释放系统资源。
损失值（Loss）监控：损失值是衡量模型学习效果的核心指标，界面会显示实时损失值，损失值逐步下降且趋于稳定，说明模型学习效果良好；若损失值突然飙升、持续不变或波动过大，说明训练集或参数存在问题，需立即停止训练，排查原因。

4.4.2 训练过程常见问题与解决方法

显存不足：最常见的问题，解决方法为降低训练分辨率（如从768768降至512512）、降低批次大小（如从4降至1）、关闭高清修复等额外功能、释放后台系统资源。
损失值飙升/波动过大：原因可能是学习率过高、训练集特征混乱、图片质量不佳，解决方法为降低学习率（如从3e-4降至2e-4）、重新筛选训练集（剔除特征模糊、质量不佳的图片）、统一训练集特征。
训练进度停滞：原因可能是图片文件损坏、路径有误、工具卡顿，解决方法为检查训练集图片是否能正常打开、确认图片存放路径无误、重启SD WebUI和LoRA插件。
模型保存失败：原因可能是保存路径无写入权限、硬盘空间不足，解决方法为更换保存路径（如桌面/SSD硬盘）、清理硬盘空间，保证至少有10G以上的可用空间。

4.5 第四步：模型测试与优化——多次迭代，打造优质模型

训练完成后，插件会在指定路径生成多个LoRA模型版本（按保存步数划分），接下来需要对模型进行测试，验证训练效果，根据测试问题进行优化，采用“测试→排查问题→调整训练集/参数→重新训练”的多次迭代方式，打造优质的LoRA模型，这是LoRA训练的最后一步，也是让模型效果达到最佳的关键。

4.5.1 LoRA模型测试实操步骤

导入LoRA模型：将训练生成的LoRA模型文件（safetensors格式）放入SD WebUI的models/Lora文件夹，重启SD WebUI，在“LoRA”标签页中加载该模型。
设置测试参数：在“文生图”标签页中，选择基础主模型（与训练时一致，如克莱因模型），设置分辨率、采样步数、CFG缩放等基础参数，与模型使用的基础参数一致。
撰写测试提示词：撰写贴合训练目标的测试提示词，提示词应包含训练集的核心特征，同时加入一定的创意性描述，测试模型的特征学习能力和创意拓展能力，避免使用训练集中的原提示词，防止测试结果失真。
生成测试图片：点击生成，生成3-5张测试图片，查看图片效果，核心验证以下几个点：
- 模型是否学习到核心特征（如个人风格、角色形象、专属元素）；
- 生成的图片是否存在过拟合（即与训练集图片高度相似，无创意拓展）；
- 图片是否存在畸形、模糊、细节丢失等问题；
- 模型对提示词的理解能力是否正常，是否能根据提示词调整画面元素。

4.5.2 常见测试问题与优化方案

测试后若发现模型效果不佳，需针对性排查问题并给出优化方案，常见问题与优化方案如下：

模型未学习到核心特征：生成的图片无训练目标的特征，原因是训练集特征不明确、学习率过低、训练轮数不足，优化方案为重新筛选训练集（强化核心特征）、适当提高学习率、增加训练轮数。
模型过拟合：生成的图片与训练集图片高度相似，无创意拓展，原因是训练集变体不足、学习率过高、训练轮数过多，优化方案为为训练集添加更多变体图片、降低学习率、减少训练轮数。
图片细节丢失/畸形：生成的图片细节不足、人物/元素比例失调，原因是训练集图片质量不佳、训练分辨率过低、网络维度设置过低，优化方案为重新预处理训练集（提升图片质量）、适当提高训练分辨率、增加网络维度。
模型风格偏移：生成的图片特征与训练目标存在偏差，原因是训练集中混入无关特征的图片、参数设置混乱，优化方案为剔除训练集中的无关图片、重新设置参数，采用轻量训练再次迭代。

4.5.3 模型最终导出与保存

经过多次测试与优化后，选择效果最佳的LoRA模型版本，进行最终导出与保存，核心注意事项：

保存模型源文件（safetensors格式），做好备份，防止文件丢失；
为模型添加说明文档，记录训练目标、训练集信息、参数设置、适用场景、提示词技巧等，方便后续使用和分享；
若需要分享模型，可将模型文件与说明文档一起打包，标注模型的使用权限和版权信息。

五、核心实操三：开源与闭源模型的组合应用+流沙任务系统使用

5.1 开源与闭源模型的组合应用技巧：兼顾效率与独特性

如前文所述，开源与闭源模型并非对立，而是互补共存，专业创作者在实际创作中，建议采用组合应用的方式，充分发挥二者的优势，兼顾创作效率和内容独特性，本教程分享3种主流的组合应用模式，适配不同的创作场景，可直接落地：

模式一：闭源出灵感，开源做落地
- 适用场景：创意构思阶段、灵感匮乏时、商业创作的初稿设计。
- 实操逻辑：先在闭源模型（如Midjourney、文心一格）中输入简单的提示词，快速生成大量创意灵感图，筛选出符合需求的构图、风格、元素；再将灵感图作为参考图，导入开源模型（如克莱因+自制LoRA模型）的图生图功能，结合专属LoRA模型的特征，进行精细化落地创作，添加个人风格和细节，让最终成果具备独特性。
- 核心优势：快速获取创意灵感，避免陷入“创意瓶颈”，同时通过开源模型落地，保证内容的独特性和版权清晰。
模式二：开源做定制，闭源做拓展
- 适用场景：个性化角色设定、专属风格创作、商业定制化需求。
- 实操逻辑：先通过开源模型+自制LoRA模型，创作符合定制需求的核心内容（如原创角色、专属场景），保证内容的独特性和定制化；再将核心内容导入闭源模型，利用其强大的延展性和快速生成能力，进行拓展创作（如角色的不同动作、场景的不同角度、内容的不同版本），提升创作效率。
- 核心优势：满足定制化需求，同时快速完成拓展内容创作，兼顾个性化与效率。
模式三：轻量创作用闭源，深度创作用开源
- 适用场景：多平台内容分发、批量出稿、深度原创创作结合的场景。
- 实操逻辑：对于非商业、轻量、批量的创作需求（如自媒体配图、短视频素材、基础草稿），直接使用闭源模型，快速出稿，提升效率；对于商业、深度、原创的创作需求（如原画创作、产品设计、角色设定），使用开源模型+自制LoRA模型，进行精细化创作，打造高质量、高独特性的内容。
- 核心优势：根据创作需求灵活选择工具，避免“杀鸡用牛刀”，最大化提升创作效率和成果质量。

5.2 流沙任务系统：AI创作的高效辅助工具

流沙任务系统是当下AI创作领域的实用工具，专为创作者设计，核心功能是任务管理、创意沉淀、生成流程优化，能帮助创作者梳理创作思路、管理创作任务、沉淀创意成果，该系统将于2026年过年期间正式上线，本教程提前讲解其核心功能与使用技巧，助力创作者在系统上线后快速上手，提升AI创作的效率和系统性。

5.2.1 流沙任务系统核心功能

创作任务管理：支持创建、编辑、删除创作任务，可按创作类型、截止时间、优先级对任务进行分类管理，同时可添加任务备注（如创作需求、提示词、参数设置），让创作思路更清晰，避免任务混乱。
创意沉淀与收藏：支持收藏AI生成的优质成果、创意灵感图、优质提示词，可按风格、场景、主题进行分类收藏，打造个人创意库，方便后续创作时快速参考，避免灵感流失。
生成流程模板化：支持将常用的生成流程（如模型选择、参数设置、提示词结构）保存为模板，后续创作时可直接调用模板，无需重复设置参数和撰写提示词，大幅提升创作效率。
多工具联动：支持与SD WebUI、ComfyUI、Midjourney等主流AI生成工具联动，可直接在系统中调用工具进行生成，生成成果自动同步至系统，实现“一站式创作”。
成果导出与分享：支持将创作成果按格式导出（如JPG/PNG/PSD），同时支持一键分享至社交平台、创作社区，方便创作者展示成果和交流学习。

5.2.2 流沙任务系统使用技巧

打造个人专属模板库：将常用的创作流程（如克莱因模型生成角色设定的参数和提示词模板、Flex模型生成大场景的参数和提示词模板）保存为模板，按创作类型分类，后续创作时直接调用，节省大量时间。
精细化管理创意库：将收藏的创意灵感图、优质提示词按风格（国潮/日系/赛博朋克）、场景（古风/现代/未来）、创作类型（角色/场景/产品） 进行精细化分类，添加标签，方便后续快速搜索和参考。
任务拆解与分步执行：对于复杂的创作任务（如AI短剧制作、漫画分镜创作），可在系统中将任务拆解为多个子任务（如角色设定、场景绘制、分镜设计），按优先级分步执行，让创作过程更有条理。
多工具联动高效创作：利用系统的多工具联动功能，在系统中完成创意构思后，直接调用SD WebUI进行精细化生成，生成成果自动同步至系统，再在系统中进行成果管理和导出，实现一站式创作，避免在多个工具之间切换，提升效率。

六、行业实操经验与避坑指南：从新手到专业的进阶之路

6.1 新手常见实操误区与避坑指南

新手在学习AI生成模型和LoRA训练的过程中，容易陷入一些误区，导致创作效果不佳、训练失败，本教程梳理了8个最常见的误区，并给出对应的避坑指南，帮助新手少走弯路：

误区一：盲目追求大显存显卡，忽视基础操作和提示词撰写。避坑指南：硬件是基础，但技巧才是核心，新手应先从提示词撰写、模型基础操作入手，提升创作能力，再根据需求逐步升级硬件。
误区二：认为训练集数量越多越好，盲目收集海量低质量图片。避坑指南：LoRA训练的核心是质量而非数量，新手应精选50-200张高质量、特征明确的图片作为训练集，保证训练效果。
误区三：死记硬背参数，不根据自身硬件和训练目标调整。避坑指南：参数无固定值，核心是适配硬件和训练目标，新手应先理解核心参数的含义，再根据通用模板微调，通过多次测试找到最佳参数。
误区四：忽略反向提示词，导致生成的画面出现模糊、畸形等问题。避坑指南：反向提示词是提升生成效果的关键，新手应养成填写反向提示词的习惯，固定填写基础反向提示词，再根据创作需求补充。
误区五：一次训练多个无关特征，导致模型学习混乱。避坑指南：LoRA训练的目标应单一明确，一次只训练一个核心特征（如一种风格、一个角色），避免模型学习混乱。
误区六：过度依赖AI生成，忽视人工后期优化。避坑指南：AI生成是辅助工具，人工后期优化能让成果更完美，新手应掌握基础的图像编辑技巧，对AI生成的成果进行精细化优化。
误区七：使用有版权保护的图片作为训练集，存在侵权风险。避坑指南：优先使用自己创作的图片作为训练集，或选择免费商用图片库，避免使用有版权保护的图片，防止侵权。
误区八：急于求成，期望一次训练就能生成优质模型。避坑指南：LoRA训练是一个多次迭代的过程，新手应保持耐心，采用“轻量训练、多次测试、逐步优化”的方式，打造优质模型。

6.2 行业实操进阶经验：从“会用”到“用好”的关键技巧

打造个人专属风格体系：专业创作者的核心竞争力是独特的个人风格，建议创作者在熟悉AI生成模型后，结合自身的创作特长，打造个人专属风格体系（如独特的色彩搭配、笔触、构图），并通过LoRA训练将个人风格固化为专属模型，让生成的内容具备高辨识度，拉开与批量化内容的差距。
建立个人提示词库：在创作过程中，不断收集和优化优质提示词，按风格、场景、创作类型建立个人提示词库，同时记录每个提示词的生成效果和适配模型，后续创作时可快速调用和优化，提升提示词撰写效率。
关注模型生态的更新与迭代：AI生成模型的发展速度极快，新模型、新工具、新技巧不断涌现，创作者应关注行业动态，及时学习新模型的特性、新工具的使用方法、新的训练技巧，保持自身的竞争力。
参与创作社区的交流与学习：加入AI创作社区（如Civitai、B站AI创作区、小红书AI设计区），与其他创作者交流经验、分享成果、解答问题，在交流中学习新的技巧和思路，同时也能获得更多的创作灵感。
兼顾AI生成与人工创作的融合：AI生成是辅助工具，无法替代人工创作的创意和思考，专业创作者应将AI生成与人工创作深度融合，用AI完成重复性、机械性的工作（如草图绘制、元素生成），将更多的时间和精力放在创意构思、精细化设计、情感表达上，让创作成果更有温度和深度。

6.3 商业创作的版权与使用建议

AI生成内容的版权问题是商业创作的核心问题，创作者在进行商业创作时，需重视版权问题，避免侵权风险，本教程给出实用的版权与使用建议：

开源模型创作：优先选择开源模型（如克莱因、Flex、SD）进行商业创作，同时使用自己创作的训练集训练LoRA模型，确保创作成果的版权清晰，无侵权风险。
闭源模型创作：使用闭源模型（如Midjourney）进行商业创作时，需仔细阅读平台的用户协议，确认商业使用权限，部分平台的商业使用需要缴纳会员费或版权费，需按要求操作。
成果原创性检测：在将AI生成内容用于商业用途前，可通过原创性检测工具（如百度识图、谷歌识图）检测内容是否与现有内容高度相似，避免出现版权纠纷。
保留创作过程记录：保存AI生成的创作过程记录（如提示词、参数设置、生成步骤、参考图），若出现版权纠纷，可作为原创性证明。
结合人工创作提升原创性：对AI生成的内容进行大量的人工后期优化和修改，提升内容的原创性，让创作成果具备独立的版权属性。

七、总结与后续学习方向

7.1 教程核心总结

本教程从AI生成模型的基础认知出发，讲解了克莱因、Flex等主流模型的特性与选择逻辑，完成了硬件、软件的前期配置，详细讲解了模型基础使用、提示词撰写、LoRA训练的全流程实操，分享了开源与闭源模型的组合应用技巧和流沙任务系统的使用方法，最后给出了行业实操经验、避坑指南和商业创作的版权建议，核心要点可总结为3个核心：

基础核心：提示词是AI生成的基础，优质的提示词需具备清晰的逻辑结构，层层递进，让模型精准理解创作需求，同时需根据不同模型的特性进行针对性优化。
进阶核心：LoRA训练是实现内容差异化的关键，优质的训练集是LoRA训练成功的一半，需遵循“质量优先、特征明确、有变体”的原则，同时根据硬件和训练目标调整参数，采用多次迭代的方式优化模型。
应用核心：开源与闭源模型的组合应用是提升创作效率和成果质量的关键，创作者应充分发挥二者的优势，兼顾效率与独特性，同时将AI生成与人工创作深度融合，打造有温度、有深度、有辨识度的创作成果。

7.2 后续学习方向

AI生成技术正处于高速发展阶段，创作者在掌握本教程的内容后，可从以下方向继续学习，实现从“新手”到“专业”的进阶：

模型融合与进阶微调：学习模型融合技术（如SD模型与克莱因模型融合）、进阶微调技术（如DreamBooth、Textual Inversion），打造更个性化、更高性能的模型。
多模态AI生成：学习文本、图像、音频、视频的多模态AI生成技术，如AI短剧制作、AI动漫生成、AI音频配图，拓展创作领域。
AI生成与专业设计工具的联动：学习AI生成模型与Photoshop、Illustrator、Blender等专业设计工具的联动使用，实现AI生成与专业设计的深度融合。
AI创作商业化落地：探索AI创作的商业化落地路径，如AI设计接单、AI内容创作、AI模型定制，将AI创作能力转化为实际收益。

后记

AI生成模型并非替代创作者的工具，而是赋能创作者的“创意助手”，它能大幅降低创作门槛、提升生产效率，为创作者提供全新的创意灵感，但最终的创意构思、情感表达、风格打造，仍需要创作者的人工思考和打磨。希望本教程能帮助广大创作者掌握AI生成模型的核心实操技巧，在AI时代的创作浪潮中，找到属于自己的创作方向，将