前言

当下AI生成技术正处于高速发展阶段,生成模型成为创意创作、设计生产、内容制作等领域的核心工具,克莱因、Flex等模型的迭代,LoRA训练技术的成熟,以及开源与闭源生态的互补,让AI生成的落地门槛不断降低,同时也为创作者提供了更多个性化、高定制化的可能。本教程将从基础认知出发,逐步讲解生成模型的选择、LoRA训练的全流程、模型测试与优化、开源/闭源工具的实操应用,还会结合行业实操经验分享创作技巧与避坑指南,同时融入流沙任务系统等实用工具的使用方法,兼顾新手入门与进阶提升,助力创作者真正掌握AI生成模型的使用逻辑,实现从“会用”到“用好”再到“创作出独特内容”的转变,教程总字数超5000字,内容兼具实操性、系统性和实用性。

一、AI生成模型基础认知:核心概念与生态格局

1.1 生成模型核心定义与应用场景

AI生成模型是基于深度学习算法,通过学习海量数据的特征与规律,能够自主生成文本、图像、音频、视频等内容的智能模型,其中图像生成模型是当下创意领域应用最广泛的类型,也是本教程的核心讲解对象。

这类模型的核心原理是通过编码器对输入的提示词(Prompt)、参考图等信息进行特征提取,再通过解码器生成符合特征要求的内容,不同模型的网络结构、训练数据、调优方向不同,最终生成的内容在细节、结构、风格、延展性上会存在显著差异。

其应用场景覆盖多个领域:设计领域可快速生成产品原型、海报、插画;文创领域能创作漫画分镜、角色设定、场景原画;自媒体领域可制作短视频素材、封面图、图文配图;工业领域能辅助完成零部件设计、效果图绘制等,核心价值在于大幅降低创作门槛、提升生产效率,同时为创作者提供全新的创意灵感。

1.2 主流图像生成模型分类与特性

目前主流的图像生成模型可按研发模式分为闭源模型开源模型,按功能特性可分为通用生成模型和专用微调模型,本教程重点讲解当下创意领域最常用的克莱因、Flex系列模型,二者均属于高性能图像生成模型,也是目前行业内口碑与实操效果俱佳的选择,具体特性对比如下:

模型名称 核心优势 轻微短板 适用场景
克莱因模型 细节表现拉满,相同分辨率下细部细节量更多;结构逻辑更优,能描述的内容更丰富;构图突破保守局限,创意性更强;不同训练梯度下结果稳定,风格固定性好;具备强大的“启发大冒险能力”,可创造独特原创元素 画面延展性稍逊于部分通用模型,大场景跨维度生成时偶尔会出现元素衔接问题 角色设定、精细插画、产品精修、原画创作、高细节场景绘制
Flex 1代模型 画面延展性强,大场景生成效果流畅;对基础提示词的兼容性高,新手易上手;生成速度较快,硬件要求相对较低 细节表现不如克莱因,相同分辨率下元素精细度稍弱;构图偏保守,创意突破有限;不同训练梯度下结果稳定性一般,易出现风格偏移 快速草图、大场景氛围图、短视频素材、基础配图、创意初稿

除了这两款核心模型,新手也可从Stable Diffusion(SD)基础版、Midjourney等入门,其中SD开源生态完善,可作为LoRA训练的基础载体,Midjourney闭源操作简单,适合快速体验AI生成的创意效果。

1.3 开源与闭源模型生态格局与选择逻辑

AI生成模型的开源与闭源生态并非对立,而是互补共存,二者各有优劣,适配不同的创作需求和使用场景,创作者需根据自身定位、硬件条件、创作目标选择合适的模式,这也是用好AI生成模型的关键前提。

  1. 闭源模型:以Midjourney、文心一格、通义万相为代表,核心特点是操作门槛低、云端部署、无需专业硬件,用户只需输入提示词即可生成内容,平台会持续优化模型,生成效果的下限较高。但短板也十分明显:一是内容辨识度低,批量化生成的内容易千篇一律,在视觉商品领域难以形成独特优势;二是定制化程度低,无法根据个人创作风格进行深度微调;三是存在版权与使用限制,部分商业用途需缴纳额外费用。闭源模型适合AI新手、快速出稿需求、非商业浅度创作的场景。
  2. 开源模型:以Stable Diffusion、克莱因(开源版)、Flex(开源版)为代表,核心特点是支持本地部署、可深度微调、版权更清晰,用户能掌握全部生产资料,可通过LoRA训练、模型融合等方式打造专属模型,生成的内容能充分体现个人风格,拉开与批量化内容的差距。但开源模型的使用门槛较高,需要一定的硬件基础(如高性能显卡)、电脑操作能力和模型调优知识。开源模型适合专业创作者、商业创作、个性化风格打造、深度AI创作研究的场景。

选择逻辑:新手可先从闭源模型入手,熟悉提示词撰写、生成逻辑等基础操作;有一定基础后,可尝试开源模型的本地部署或API调用,逐步学习微调与训练;专业创作者建议深耕开源生态,通过LoRA训练打造专属模型,实现创作的个性化与差异化。同时,也可采用“闭源出灵感+开源做落地”的组合方式,兼顾效率与独特性。

二、前期准备:硬件、软件与基础工具配置

2.1 硬件配置要求:兼顾实用性与性价比

AI生成模型的使用(尤其是本地部署和LoRA训练)对硬件有一定要求,核心硬件为显卡(GPU),其次是内存(RAM)、固态硬盘(SSD)和CPU,不同使用场景的硬件配置要求不同,本教程提供入门级、进阶级、专业级三套配置方案,适配不同需求和预算,均为当下主流的性价比选择:

  1. 入门级(仅模型推理、轻量生成,无LoRA训练):显卡选择NVIDIA GeForce RTX 3060(12G显存)/AMD Radeon RX 6600 XT,显存是核心,建议不低于8G;内存16G DDR4;固态硬盘512G NVMe(用于安装系统和模型文件);CPU选择英特尔i5-12400F/AMD Ryzen 5 5600,满足基础运算即可。这套配置可支持768*768分辨率的图像生成,能流畅运行SD基础版、克莱因模型轻量版,适合新手入门。
  2. 进阶级(支持模型推理+轻量LoRA训练):显卡选择NVIDIA GeForce RTX 4070 Ti(12G显存)/RTX 3090(24G显存),NVIDIA显卡对CUDA的兼容性更好,LoRA训练效率更高;内存32G DDR4/DDR5;固态硬盘1T NVMe(模型文件和训练集需要较大存储空间);CPU选择英特尔i7-13700F/AMD Ryzen 7 7700X。这套配置可支持1024*1024分辨率的图像生成,能流畅完成小型LoRA训练(训练集数量≤500张),适合有一定基础的创作者。
  3. 专业级(支持高分辨率生成+大规模LoRA训练):显卡选择NVIDIA GeForce RTX 4090(24G显存)/NVIDIA A100(40G显存,专业计算卡);内存64G DDR5;固态硬盘2T+NVMe(可分盘存放训练集、模型文件、生成成果);CPU选择英特尔i9-14900K/AMD Ryzen 9 7950X。这套配置可支持2048*2048及更高分辨率的图像生成,能完成大规模LoRA训练(训练集数量≥1000张),适合专业设计师、AI创作工作室、全职内容创作者。

温馨提示:若暂时无足够预算升级硬件,可选择云服务器(如阿里云、腾讯云的GPU云服务器)或API调用的方式使用开源模型,无需本地部署,只需按使用量付费,性价比也较高;同时,显卡的显存是核心指标,优先选择大显存显卡,远超单纯追求显卡的核心频率。

2.2 软件与工具安装:一站式配置指南

本教程的实操基于Windows系统(兼容性最强,新手友好),核心软件与工具包括模型运行载体、训练工具、辅助编辑工具,所有工具均为当下行业主流,且大部分开源免费,安装过程简单,按步骤操作即可,具体安装与配置流程如下:

  1. 核心运行载体:ComfyUI/Stable Diffusion WebUI

    • 选择逻辑:ComfyUI操作更灵活,支持节点式编辑,可精准控制生成流程,适合进阶创作和LoRA训练;Stable Diffusion WebUI(SD WebUI)界面更简洁,插件生态完善,新手易上手。建议新手先安装SD WebUI,进阶后再学习ComfyUI。
    • 安装步骤:直接在GitHub上搜索对应工具的官方仓库,下载最新版安装包,选择“一键安装包”(内含依赖环境,无需手动配置Python、CUDA等),解压后点击启动脚本(如webui-user.bat),等待自动安装依赖,出现本地访问地址(如http://127.0.0.1:7860)即安装成功。
    • 关键配置:启动前可修改启动脚本,设置显卡显存占用、生成分辨率等参数,如在webui-user.bat中添加--xformers可提升生成速度,减少显存占用。
  2. LoRA训练工具:LoRA Trainer/SD WebUI LoRA插件

    • LoRA Trainer:独立的LoRA训练工具,功能更专业,支持自定义训练参数,适合大规模训练,可从GitHub下载,与SD WebUI联动使用。
    • SD WebUI LoRA插件:在SD WebUI的“插件市场”中搜索“LoRA”,选择排名靠前的插件(如Lora Trainer Extended),点击“安装并重启”,即可在SD WebUI中直接进行轻量LoRA训练,新手首选。
  3. 辅助工具:图像编辑+提示词优化+文件管理

    • 图像编辑:Photoshop(专业级)、GIMP(开源免费)、醒图(简易版),用于处理训练集图片、优化生成成果、调整画面细节。
    • 提示词优化:Prompt Hero(在线提示词库)、AI提示词生成器(微信小程序/网页版),用于学习优质提示词撰写逻辑,优化自身提示词。
    • 文件管理:Everything(快速搜索文件)、百度网盘/阿里云盘(存储模型文件和训练集),模型文件和训练集体积较大,需做好分类存储。
  4. 模型文件下载与导入

    • 模型文件获取渠道:Hugging Face(官方开源库,最权威)、Civitai(专业AI模型社区,资源丰富)、B站模型分享区(国内创作者分享,适配性高)。
    • 导入步骤:将下载的模型文件(格式多为ckpt、safetensors、bin)放入SD WebUI/ComfyUI的指定文件夹,如SD WebUI的models/Stable-diffusion(主模型)、models/Lora(LoRA模型),重启工具后即可在界面中选择使用。

2.3 基础环境检查与问题排查

软件安装完成后,需进行基础环境检查,确保所有工具能正常运行,避免后续实操中出现卡顿、报错等问题,核心检查点与常见问题排查方法如下:

  1. 显卡驱动检查:右键“此电脑”→“管理”→“设备管理器”→“显示适配器”,查看显卡型号是否识别正常,驱动是否为最新版,若驱动过旧,可到NVIDIA/AMD官网下载最新驱动安装。
  2. 显存占用测试:在SD WebUI中生成一张768*768分辨率的图片,查看界面底部的显存占用提示,若出现“显存不足”,可降低分辨率、关闭其他后台程序,或在启动脚本中添加显存优化参数。
  3. 模型导入检查:在SD WebUI的“模型选择栏”中查看是否能识别已导入的克莱因、Flex等模型,若无法识别,检查文件格式是否正确、存放路径是否有误,确保模型文件未损坏。
  4. 常见报错排查:若启动时出现“Python环境错误”,可重新安装一键安装包,自动修复依赖;若生成时出现“黑屏/画面破碎”,检查提示词是否有误、模型是否与工具兼容;若LoRA训练时出现“数据加载失败”,检查训练集图片格式是否为JPG/PNG,尺寸是否统一。

三、核心实操一:生成模型的基础使用与提示词撰写技巧

3.1 模型基础操作流程:从打开到生成的一站式步骤

Stable Diffusion WebUI为操作载体,以克莱因模型和Flex 1代模型为核心,讲解AI生成模型的基础操作流程,步骤简单易懂,新手可按此流程快速完成第一次图像生成,核心流程分为5步

  1. 选择模型:打开SD WebUI本地地址,在界面顶部的“Stable Diffusion checkpoint”下拉栏中,选择克莱因模型或Flex 1代模型,点击“Refresh”刷新,确保模型加载成功。
  2. 设置生成参数:在“文生图”标签页中设置核心参数,这是影响生成效果的关键,新手可先按默认参数尝试,后续再逐步优化:
    • 分辨率:克莱因模型建议768768/10241024,Flex 1代模型建议10241024/1280720;
    • 采样步数:20-30步为宜,步数过少画面模糊,步数过多生成速度慢,无明显效果提升;
    • 采样方法:DPM++ 2M Karras(兼容性最强,生成效果稳定,新手首选);
    • CFG缩放:7-10为宜,数值越高,画面越贴合提示词,但创意性会降低;
    • 生成数量:1-4张为宜,兼顾速度与选择空间。
  3. 撰写提示词(Prompt)与反向提示词(Negative Prompt):在对应输入框中填写提示词和反向提示词,提示词描述想要的画面内容,反向提示词描述不想出现的画面内容(如模糊、低分辨率、畸形、水印等)。
  4. 点击生成:设置完成后,点击“Generate”按钮,等待生成完成,界面底部会显示生成进度和显存占用情况,生成的图片会显示在界面右侧的“图片预览区”。
  5. 保存与优化:生成完成后,右键图片可选择“保存图片”“保存原图”,若对效果不满意,可调整提示词或参数,重新生成;若效果较好,可通过图像编辑工具进行后期优化。

进阶操作:“图生图”功能的使用,适合基于参考图进行创作,步骤为:点击“图生图”标签页→上传参考图→设置生成参数(分辨率建议与参考图一致)→撰写提示词→点击生成,图生图功能能更好地控制画面构图和元素,适合角色设定、场景复刻等需求。

3.2 提示词撰写核心逻辑:让模型精准理解创作需求

提示词是AI生成模型的“指挥棒”,撰写质量直接决定生成效果,很多新手觉得生成效果不佳,核心原因是提示词撰写过于简单、逻辑混乱,模型无法精准理解创作需求。本教程分享通用提示词撰写逻辑,适用于克莱因、Flex、SD、Midjourney等所有主流图像生成模型,同时结合克莱因模型的特性给出专属撰写技巧。

3.2.1 通用提示词撰写结构:从核心到细节,层层递进

优质的提示词应具备清晰的逻辑结构,遵循“核心主体+风格定位+细节描述+画面氛围+技术参数”的顺序,层层递进,让模型先明确核心创作对象,再逐步丰富细节和氛围,技术参数则能提升画面的整体质量,具体结构与示例如下:

  1. 核心主体:明确画面的核心创作对象,如“古风女性角色”“赛博朋克城市场景”“猫咪插画”“产品海报(水杯)”,这是模型生成的基础,必须简洁明确。
  2. 风格定位:明确画面的创作风格,如“国潮风格”“日系动漫风格”“写实油画风格”“扁平插画风格”“赛博朋克风格”“水墨风格”,风格定位越具体,模型生成的画面越统一。
  3. 细节描述:对核心主体和画面元素进行精细化描述,这是提升画面质量的关键,可从外形、色彩、材质、动作、服饰、道具等维度展开,如“古风女性角色,长发及腰,梳双丫髻,身着淡粉色襦裙,裙摆绣有荷花纹样,手持油纸伞,眉眼温柔,皮肤白皙”。
  4. 画面氛围:描述画面的整体氛围和情绪,如“氛围感拉满,暖色调,光影柔和,朦胧美,静谧氛围,科技感十足,暗黑系,清新治愈”。
  5. 技术参数:添加提升画面质量的技术描述,如“8K超高清,超高细节,极致分辨率,光影追踪,纹理清晰,构图完美,无瑕疵,无畸形,高清渲染”。

示例:克莱因模型生成“古风女性角色”的完整提示词→“古风女性角色,国潮风格,长发及腰,梳双丫髻,身着淡粉色襦裙,裙摆绣有荷花纹样,手持油纸伞,眉眼温柔,皮肤白皙,站在荷塘边,荷叶亭亭,荷花盛开,暖色调,光影柔和,氛围感拉满,8K超高清,超高细节,极致分辨率,纹理清晰,构图完美”;反向提示词→“模糊,低分辨率,畸形,水印,文字,模糊背景,色彩杂乱,皮肤粗糙,比例失调,无细节,画面破碎”。

3.2.2 克莱因模型专属提示词技巧

克莱因模型的核心优势是细节表现和创意性,撰写提示词时可充分利用其特性,让生成效果更出彩:

  1. 增加细节描述的密度:克莱因模型能处理更多的细节信息,可在提示词中加入更多精细化的描述,如服饰的纹样、皮肤的质感、场景的微小元素等,避免提示词过于简略。
  2. 加入创意性描述:利用克莱因模型的“启发大冒险能力”,在提示词中加入一些独特的创意元素,如“融合水墨与赛博朋克风格”“角色的眼睛里有星空”“场景中漂浮着发光的花瓣”,模型能根据这些描述创造出独特的原创内容。
  3. 控制提示词的长度:克莱因模型对长提示词的兼容性较好,建议提示词长度控制在50-100字,既能丰富细节,又不会导致模型信息过载。
3.2.3 提示词撰写避坑指南
  1. 避免模糊化描述:如“好看的画面”“漂亮的角色”“有趣的场景”,模型无法理解这类模糊的描述,会导致生成效果偏离预期。
  2. 避免关键词堆砌:如在提示词中加入大量无关的风格和元素,如“古风女性角色,赛博朋克,日系动漫,写实油画,水墨风格”,会导致模型混淆风格,生成的画面杂乱无章。
  3. 避免语法错误和逻辑混乱:提示词的逻辑应清晰,按“核心到细节”的顺序撰写,避免语序颠倒、成分残缺,如“身着淡粉色襦裙,古风女性角色,手持油纸伞”,虽不影响生成,但会降低模型对核心主体的识别效率。
  4. 反向提示词必须填写:很多新手会忽略反向提示词,导致生成的画面出现模糊、畸形、水印等问题,反向提示词建议固定填写基础内容,再根据创作需求补充,如“模糊,低分辨率,畸形,水印,文字,比例失调,无细节,画面破碎,色彩杂乱”。

3.3 不同模型的参数优化技巧:适配特性,提升效果

克莱因和Flex 1代模型的特性不同,在基础参数的基础上进行针对性优化,能让生成效果事半功倍,核心优化方向为分辨率、采样步数、CFG缩放,同时结合适用场景调整,具体优化技巧如下:

  1. 克莱因模型参数优化

    • 分辨率:优先选择768768/10241024,充分发挥其细节表现优势,避免过低分辨率浪费模型性能;若需要生成大场景,可采用“先小分辨率生成,再通过图生图放大”的方式,解决延展性稍弱的问题。
    • 采样步数:25-30步为宜,克莱因模型对采样步数的要求稍高,25步以上才能充分展现细节。
    • CFG缩放:8-10为宜,数值稍高能让模型更贴合提示词的细节描述,避免细节丢失。
    • 适用场景优化:创作角色设定时,可将分辨率设置为1024*1024,增加“人物比例完美,面部细节拉满,服饰纹理清晰”等提示词;创作精细插画时,可开启“高清修复”功能,提升画面的整体精细度。
  2. Flex 1代模型参数优化

    • 分辨率:优先选择10241024/1280720,充分发挥其延展性优势,适合生成大场景氛围图;若需要提升细节,可将CFG缩放适当提高。
    • 采样步数:20-25步为宜,Flex 1代模型的生成速度较快,20步以上即可保证画面质量,无需过多增加步数。
    • CFG缩放:7-8为宜,数值不宜过高,否则会降低画面的创意性,导致构图更保守。
    • 适用场景优化:创作大场景氛围图时,可将分辨率设置为1280720,增加“画面延展性强,元素衔接流畅,氛围拉满”等提示词;创作快速草图时,可降低分辨率至512512,减少采样步数至15步,提升生成速度。

四、核心实操二:LoRA训练全流程攻略——从训练集准备到模型导出

LoRA(Low-Rank Adaptation)是一种轻量级的模型微调技术,核心优势是训练成本低、耗时短、显存占用少,能在不改变主模型结构的前提下,让模型学习特定的风格、角色、元素,打造专属的个性化模型,是开源AI生成模型生态的核心技术,也是专业创作者实现内容差异化的关键。本教程讲解LoRA训练的全流程实操,以SD WebUI的LoRA插件为工具,以克莱因模型为基础主模型,兼顾新手友好性和专业性,所有步骤均经过实操验证,可直接落地。

4.1 LoRA训练核心认知:训练目标与核心原则

在开始训练前,需明确LoRA训练的核心目标和原则,避免盲目训练导致模型效果不佳,这是做好LoRA训练的前提。

  1. 核心训练目标:LoRA训练的核心是让模型学习特定的特征,这些特征可以是个人创作风格(如独特的绘画笔触、色彩搭配)、特定角色形象(如原创动漫角色、真人形象)、专属元素(如独特的场景元素、产品特征)、固定风格(如专属的国潮风格、赛博朋克风格)。训练目标越明确,训练效果越好,避免一次训练多个无关特征,导致模型学习混乱。
  2. 核心训练原则
    • 训练集质量优先,而非数量:这是LoRA训练最核心的原则,很多新手认为训练集数量越多越好,实则不然,低质量的训练集会让模型学习到不良特征,导致生成效果不佳。优质的训练集远胜于海量的低质量训练集,建议训练集数量控制在50-500张(新手建议100-200张),重点保证每张图片的质量。
    • 训练集特征统一且有变体:训练集的图片需具备共同的核心特征(贴合训练目标),同时又有一定的变体,避免模型过拟合(即只能生成训练集中的图片,无法创意拓展)。例如,训练“原创古风女性角色”的LoRA模型,训练集的图片需均为该角色,但角色的动作、服饰、场景、角度需有一定变化。
    • 参数适配硬件与训练目标:LoRA训练的参数并非固定,需根据自身硬件条件(尤其是显存)和训练目标调整,显存小则降低批次大小、训练分辨率等参数,避免显存不足;训练风格则调整学习率,训练角色则调整训练轮数。
    • 循序渐进,轻量训练:LoRA是轻量级微调技术,无需进行大规模训练,建议采用“轻量训练、多次迭代”的方式,先进行小轮数训练,测试效果后再根据问题调整训练集和参数,逐步优化模型。

4.2 第一步:训练集准备——优质训练集是成功的一半

训练集准备是LoRA训练中最重要的环节,占训练成功的70%以上,核心流程为确定训练集主题→收集图片→图片预处理→图片分类与标注,每个步骤都有严格的标准和技巧,需认真执行。

4.2.1 确定训练集主题:贴合训练目标,特征明确

训练集主题需与训练目标完全一致,核心特征明确,避免主题模糊。例如:

  • 训练目标为“个人绘画风格的LoRA模型”,训练集主题为“本人创作的100张插画,均为日系动漫风格,色彩偏清新,笔触细腻”;
  • 训练目标为“原创角色(小舞)的LoRA模型”,训练集主题为“原创角色小舞的80张图片,均为该角色的不同动作、角度、场景,角色特征为粉色长发、兔耳发饰、红色舞裙”。
4.2.2 收集图片:渠道与质量标准
  1. 图片收集渠道:优先选择自己创作的图片(版权清晰,无侵权风险),其次可选择免费商用图片库(如Pixabay、Pexels、Unsplash)、AI生成的优质图片(需确认无版权限制),避免使用有版权保护的图片,防止侵权。
  2. 图片质量标准:这是训练集准备的核心,所有图片需满足以下标准,不符合的图片一律剔除:
    • 分辨率:不低于512512,建议768768/1024*1024,保证图片有足够的细节;
    • 清晰度:画面清晰,无模糊、噪点、水印、文字,避免模型学习到无关元素;
    • 特征明确:每张图片都具备训练目标的核心特征,无偏离主题的图片;
    • 格式统一:均为JPG/PNG格式,避免其他格式导致数据加载失败;
    • 无畸形/瑕疵:人物/元素比例正常,无畸形、破碎、色彩杂乱等问题。
4.2.3 图片预处理:统一规格,优化质量

收集到的图片需要进行预处理,统一规格,优化质量,让模型能更高效地学习特征,预处理工具建议使用Photoshop/GIMP/醒图,核心预处理步骤为:

  1. 统一尺寸:将所有图片的分辨率统一为512512/768768(根据硬件显存调整,显存小则选择512*512),裁剪时保证核心特征在画面中央,避免裁剪掉关键元素。
  2. 去除无关元素:使用修图工具去除图片中的水印、文字、噪点、模糊区域,若图片中有无关元素(如多余的人物、道具),也需进行裁剪或修除。
  3. 统一色彩与亮度:若训练集图片的色彩、亮度差异较大,可进行轻微调整,让整体色调保持统一,避免模型学习到杂乱的色彩特征,但无需过度调整,保留一定的色彩变体。
  4. 图片压缩:将预处理后的图片进行轻量压缩,保证文件大小在1-5M之间,避免文件过大导致训练时数据加载缓慢,压缩时需保证画面质量无明显损失。
4.2.4 图片分类与标注:提升模型学习效率

图片预处理完成后,需进行简单的分类与标注,核心目的是让模型更清晰地识别特征,提升学习效率,新手可采用简单标注法,无需复杂的专业标注:

  1. 分类:将训练集图片按动作/角度/场景进行简单分类,如“正面角度”“侧面角度”“静态动作”“动态动作”“室内场景”“室外场景”,分类后可将图片放入不同的文件夹,便于后续训练时按批次加载。
  2. 标注:为每张图片添加简单的文本标注,标注内容为图片的核心特征,如“古风女性角色,粉色襦裙,手持油纸伞,荷塘场景,正面角度”,标注文本可直接命名为图片文件名,让模型在训练时能将图像特征与文本特征结合学习,提升模型的文本理解能力。

4.3 第二步:训练参数设置——适配硬件与训练目标

训练集准备完成后,进入SD WebUI的LoRA插件进行训练参数设置,参数设置是LoRA训练的核心技术环节,直接影响训练效果和训练效率,新手无需死记硬背参数,只需根据自身硬件条件训练目标进行针对性调整,本教程提供通用参数模板,新手可在此基础上微调,同时讲解核心参数的含义与调整逻辑。

4.3.1 核心参数含义与调整逻辑

首先明确LoRA训练的核心参数,理解每个参数的含义,才能根据实际情况调整,核心参数包括训练分辨率、批次大小、学习率、训练轮数、保存步数、网络维度,具体含义与调整逻辑如下:

  1. 训练分辨率:与训练集图片的分辨率一致,建议512512/768768,显存小则选择512*512,避免显存不足。
  2. 批次大小(Batch Size):每次训练加载的图片数量,显存小则设置为1-2,显存大则设置为4-8,批次大小过大会导致显存不足,过小则训练效率低。
  3. 学习率:模型学习特征的速度,核心调整参数,建议范围1e-4 ~ 5e-4(即0.0001 ~ 0.0005),学习率过高会导致模型过拟合,学习率过低会导致模型学习不充分,训练风格建议选择1e-4 ~ 2e-4,训练角色建议选择3e-4 ~ 5e-4。
  4. 训练轮数(Epoch):模型遍历训练集的次数,建议范围3 ~ 10,训练集数量少则增加轮数,训练集数量多则减少轮数,新手建议先设置为3-5轮,测试效果后再调整。
  5. 保存步数:训练过程中保存模型的步数,建议设置为200 ~ 500步,保存多个模型版本,便于后续选择效果最好的版本,避免单次训练失败导致前功尽弃。
  6. 网络维度(Rank):LoRA模型的特征学习维度,建议范围8 ~ 64,维度越高,模型学习的特征越精细,但训练难度越大,显存要求越高,新手建议设置为16-32,兼顾效果与硬件要求。
4.3.2 通用参数模板(新手首选)

结合当下主流的入门级/进阶级硬件,提供通用LoRA训练参数模板,适配大部分训练目标(风格/角色/元素),新手可直接使用,后续再根据测试效果微调:

参数名称 入门级硬件(3060 12G) 进阶级硬件(4070 Ti 12G/3090 24G)
训练分辨率 512*512 768*768
批次大小 1 4-8
学习率 2e-4(0.0002) 3e-4(0.0003)
训练轮数 3-5 5-8
保存步数 200 300-500
网络维度 16 32
优化器 AdamW AdamW
训练集加载方式 按顺序加载 随机加载
4.3.3 参数设置实操步骤
  1. 打开SD WebUI,进入“LoRA Trainer”插件界面,点击“训练集设置”,选择预处理后的训练集图片文件夹,确认图片格式为JPG/PNG,加载成功后会显示图片数量。
  2. 在“参数设置”栏中,按上述通用参数模板设置核心参数,根据自身硬件条件选择对应数值。
  3. 在“模型保存设置”栏中,设置模型保存路径(建议选择SSD硬盘),设置模型名称(如“我的古风风格LoRA_v1”),选择保存格式(safetensors,兼容性最强)。
  4. 在“主模型选择”栏中,选择克莱因模型(或其他基础主模型),确认主模型加载成功。
  5. 检查所有参数设置,确认无误后,点击“开始训练”,插件会自动开始LoRA训练,界面会显示训练进度、显存占用、剩余时间等信息。

4.4 第三步:模型训练与监控——及时避坑,保证训练质量

点击开始训练后,进入模型训练阶段,训练时间根据硬件条件、训练集数量、训练轮数而定,入门级硬件训练100张图片/3轮,大约需要30-60分钟,进阶级硬件则需要15-30分钟,训练过程中需实时监控,及时发现并解决问题,避免训练失败或模型效果不佳。

4.4.1 训练过程核心监控点
  1. 显存占用监控:界面会实时显示显存占用情况,若出现“显存不足”提示,立即停止训练,降低训练分辨率、批次大小等参数,再重新开始。
  2. 训练进度监控:查看训练轮数和步数是否正常推进,若出现进度停滞,检查训练集图片是否损坏、路径是否有误,或关闭其他后台程序,释放系统资源。
  3. 损失值(Loss)监控:损失值是衡量模型学习效果的核心指标,界面会显示实时损失值,损失值逐步下降且趋于稳定,说明模型学习效果良好;若损失值突然飙升、持续不变或波动过大,说明训练集或参数存在问题,需立即停止训练,排查原因。
4.4.2 训练过程常见问题与解决方法
  1. 显存不足:最常见的问题,解决方法为降低训练分辨率(如从768768降至512512)、降低批次大小(如从4降至1)、关闭高清修复等额外功能、释放后台系统资源。
  2. 损失值飙升/波动过大:原因可能是学习率过高、训练集特征混乱、图片质量不佳,解决方法为降低学习率(如从3e-4降至2e-4)、重新筛选训练集(剔除特征模糊、质量不佳的图片)、统一训练集特征。
  3. 训练进度停滞:原因可能是图片文件损坏、路径有误、工具卡顿,解决方法为检查训练集图片是否能正常打开、确认图片存放路径无误、重启SD WebUI和LoRA插件。
  4. 模型保存失败:原因可能是保存路径无写入权限、硬盘空间不足,解决方法为更换保存路径(如桌面/SSD硬盘)、清理硬盘空间,保证至少有10G以上的可用空间。

4.5 第四步:模型测试与优化——多次迭代,打造优质模型

训练完成后,插件会在指定路径生成多个LoRA模型版本(按保存步数划分),接下来需要对模型进行测试,验证训练效果,根据测试问题进行优化,采用“测试→排查问题→调整训练集/参数→重新训练”的多次迭代方式,打造优质的LoRA模型,这是LoRA训练的最后一步,也是让模型效果达到最佳的关键。

4.5.1 LoRA模型测试实操步骤
  1. 导入LoRA模型:将训练生成的LoRA模型文件(safetensors格式)放入SD WebUI的models/Lora文件夹,重启SD WebUI,在“LoRA”标签页中加载该模型。
  2. 设置测试参数:在“文生图”标签页中,选择基础主模型(与训练时一致,如克莱因模型),设置分辨率、采样步数、CFG缩放等基础参数,与模型使用的基础参数一致。
  3. 撰写测试提示词:撰写贴合训练目标的测试提示词,提示词应包含训练集的核心特征,同时加入一定的创意性描述,测试模型的特征学习能力创意拓展能力,避免使用训练集中的原提示词,防止测试结果失真。
  4. 生成测试图片:点击生成,生成3-5张测试图片,查看图片效果,核心验证以下几个点:
    • 模型是否学习到核心特征(如个人风格、角色形象、专属元素);
    • 生成的图片是否存在过拟合(即与训练集图片高度相似,无创意拓展);
    • 图片是否存在畸形、模糊、细节丢失等问题;
    • 模型对提示词的理解能力是否正常,是否能根据提示词调整画面元素。
4.5.2 常见测试问题与优化方案

测试后若发现模型效果不佳,需针对性排查问题并给出优化方案,常见问题与优化方案如下:

  1. 模型未学习到核心特征:生成的图片无训练目标的特征,原因是训练集特征不明确、学习率过低、训练轮数不足,优化方案为重新筛选训练集(强化核心特征)、适当提高学习率、增加训练轮数。
  2. 模型过拟合:生成的图片与训练集图片高度相似,无创意拓展,原因是训练集变体不足、学习率过高、训练轮数过多,优化方案为为训练集添加更多变体图片、降低学习率、减少训练轮数。
  3. 图片细节丢失/畸形:生成的图片细节不足、人物/元素比例失调,原因是训练集图片质量不佳、训练分辨率过低、网络维度设置过低,优化方案为重新预处理训练集(提升图片质量)、适当提高训练分辨率、增加网络维度。
  4. 模型风格偏移:生成的图片特征与训练目标存在偏差,原因是训练集中混入无关特征的图片、参数设置混乱,优化方案为剔除训练集中的无关图片、重新设置参数,采用轻量训练再次迭代。
4.5.3 模型最终导出与保存

经过多次测试与优化后,选择效果最佳的LoRA模型版本,进行最终导出与保存,核心注意事项:

  1. 保存模型源文件(safetensors格式),做好备份,防止文件丢失;
  2. 为模型添加说明文档,记录训练目标、训练集信息、参数设置、适用场景、提示词技巧等,方便后续使用和分享;
  3. 若需要分享模型,可将模型文件与说明文档一起打包,标注模型的使用权限和版权信息。

五、核心实操三:开源与闭源模型的组合应用+流沙任务系统使用

5.1 开源与闭源模型的组合应用技巧:兼顾效率与独特性

如前文所述,开源与闭源模型并非对立,而是互补共存,专业创作者在实际创作中,建议采用组合应用的方式,充分发挥二者的优势,兼顾创作效率和内容独特性,本教程分享3种主流的组合应用模式,适配不同的创作场景,可直接落地:

  1. 模式一:闭源出灵感,开源做落地

    • 适用场景:创意构思阶段、灵感匮乏时、商业创作的初稿设计。
    • 实操逻辑:先在闭源模型(如Midjourney、文心一格)中输入简单的提示词,快速生成大量创意灵感图,筛选出符合需求的构图、风格、元素;再将灵感图作为参考图,导入开源模型(如克莱因+自制LoRA模型)的图生图功能,结合专属LoRA模型的特征,进行精细化落地创作,添加个人风格和细节,让最终成果具备独特性。
    • 核心优势:快速获取创意灵感,避免陷入“创意瓶颈”,同时通过开源模型落地,保证内容的独特性和版权清晰。
  2. 模式二:开源做定制,闭源做拓展

    • 适用场景:个性化角色设定、专属风格创作、商业定制化需求。
    • 实操逻辑:先通过开源模型+自制LoRA模型,创作符合定制需求的核心内容(如原创角色、专属场景),保证内容的独特性和定制化;再将核心内容导入闭源模型,利用其强大的延展性和快速生成能力,进行拓展创作(如角色的不同动作、场景的不同角度、内容的不同版本),提升创作效率。
    • 核心优势:满足定制化需求,同时快速完成拓展内容创作,兼顾个性化与效率。
  3. 模式三:轻量创作用闭源,深度创作用开源

    • 适用场景:多平台内容分发、批量出稿、深度原创创作结合的场景。
    • 实操逻辑:对于非商业、轻量、批量的创作需求(如自媒体配图、短视频素材、基础草稿),直接使用闭源模型,快速出稿,提升效率;对于商业、深度、原创的创作需求(如原画创作、产品设计、角色设定),使用开源模型+自制LoRA模型,进行精细化创作,打造高质量、高独特性的内容。
    • 核心优势:根据创作需求灵活选择工具,避免“杀鸡用牛刀”,最大化提升创作效率和成果质量。

5.2 流沙任务系统:AI创作的高效辅助工具

流沙任务系统是当下AI创作领域的实用工具,专为创作者设计,核心功能是任务管理、创意沉淀、生成流程优化,能帮助创作者梳理创作思路、管理创作任务、沉淀创意成果,该系统将于2026年过年期间正式上线,本教程提前讲解其核心功能与使用技巧,助力创作者在系统上线后快速上手,提升AI创作的效率和系统性。

5.2.1 流沙任务系统核心功能
  1. 创作任务管理:支持创建、编辑、删除创作任务,可按创作类型、截止时间、优先级对任务进行分类管理,同时可添加任务备注(如创作需求、提示词、参数设置),让创作思路更清晰,避免任务混乱。
  2. 创意沉淀与收藏:支持收藏AI生成的优质成果、创意灵感图、优质提示词,可按风格、场景、主题进行分类收藏,打造个人创意库,方便后续创作时快速参考,避免灵感流失。
  3. 生成流程模板化:支持将常用的生成流程(如模型选择、参数设置、提示词结构)保存为模板,后续创作时可直接调用模板,无需重复设置参数和撰写提示词,大幅提升创作效率。
  4. 多工具联动:支持与SD WebUI、ComfyUI、Midjourney等主流AI生成工具联动,可直接在系统中调用工具进行生成,生成成果自动同步至系统,实现“一站式创作”。
  5. 成果导出与分享:支持将创作成果按格式导出(如JPG/PNG/PSD),同时支持一键分享至社交平台、创作社区,方便创作者展示成果和交流学习。
5.2.2 流沙任务系统使用技巧
  1. 打造个人专属模板库:将常用的创作流程(如克莱因模型生成角色设定的参数和提示词模板、Flex模型生成大场景的参数和提示词模板)保存为模板,按创作类型分类,后续创作时直接调用,节省大量时间。
  2. 精细化管理创意库:将收藏的创意灵感图、优质提示词按风格(国潮/日系/赛博朋克)、场景(古风/现代/未来)、创作类型(角色/场景/产品) 进行精细化分类,添加标签,方便后续快速搜索和参考。
  3. 任务拆解与分步执行:对于复杂的创作任务(如AI短剧制作、漫画分镜创作),可在系统中将任务拆解为多个子任务(如角色设定、场景绘制、分镜设计),按优先级分步执行,让创作过程更有条理。
  4. 多工具联动高效创作:利用系统的多工具联动功能,在系统中完成创意构思后,直接调用SD WebUI进行精细化生成,生成成果自动同步至系统,再在系统中进行成果管理和导出,实现一站式创作,避免在多个工具之间切换,提升效率。

六、行业实操经验与避坑指南:从新手到专业的进阶之路

6.1 新手常见实操误区与避坑指南

新手在学习AI生成模型和LoRA训练的过程中,容易陷入一些误区,导致创作效果不佳、训练失败,本教程梳理了8个最常见的误区,并给出对应的避坑指南,帮助新手少走弯路:

  1. 误区一:盲目追求大显存显卡,忽视基础操作和提示词撰写。避坑指南:硬件是基础,但技巧才是核心,新手应先从提示词撰写、模型基础操作入手,提升创作能力,再根据需求逐步升级硬件。
  2. 误区二:认为训练集数量越多越好,盲目收集海量低质量图片。避坑指南:LoRA训练的核心是质量而非数量,新手应精选50-200张高质量、特征明确的图片作为训练集,保证训练效果。
  3. 误区三:死记硬背参数,不根据自身硬件和训练目标调整。避坑指南:参数无固定值,核心是适配硬件和训练目标,新手应先理解核心参数的含义,再根据通用模板微调,通过多次测试找到最佳参数。
  4. 误区四:忽略反向提示词,导致生成的画面出现模糊、畸形等问题。避坑指南:反向提示词是提升生成效果的关键,新手应养成填写反向提示词的习惯,固定填写基础反向提示词,再根据创作需求补充。
  5. 误区五:一次训练多个无关特征,导致模型学习混乱。避坑指南:LoRA训练的目标应单一明确,一次只训练一个核心特征(如一种风格、一个角色),避免模型学习混乱。
  6. 误区六:过度依赖AI生成,忽视人工后期优化。避坑指南:AI生成是辅助工具,人工后期优化能让成果更完美,新手应掌握基础的图像编辑技巧,对AI生成的成果进行精细化优化。
  7. 误区七:使用有版权保护的图片作为训练集,存在侵权风险。避坑指南:优先使用自己创作的图片作为训练集,或选择免费商用图片库,避免使用有版权保护的图片,防止侵权。
  8. 误区八:急于求成,期望一次训练就能生成优质模型。避坑指南:LoRA训练是一个多次迭代的过程,新手应保持耐心,采用“轻量训练、多次测试、逐步优化”的方式,打造优质模型。

6.2 行业实操进阶经验:从“会用”到“用好”的关键技巧

  1. 打造个人专属风格体系:专业创作者的核心竞争力是独特的个人风格,建议创作者在熟悉AI生成模型后,结合自身的创作特长,打造个人专属风格体系(如独特的色彩搭配、笔触、构图),并通过LoRA训练将个人风格固化为专属模型,让生成的内容具备高辨识度,拉开与批量化内容的差距。
  2. 建立个人提示词库:在创作过程中,不断收集和优化优质提示词,按风格、场景、创作类型建立个人提示词库,同时记录每个提示词的生成效果和适配模型,后续创作时可快速调用和优化,提升提示词撰写效率。
  3. 关注模型生态的更新与迭代:AI生成模型的发展速度极快,新模型、新工具、新技巧不断涌现,创作者应关注行业动态,及时学习新模型的特性、新工具的使用方法、新的训练技巧,保持自身的竞争力。
  4. 参与创作社区的交流与学习:加入AI创作社区(如Civitai、B站AI创作区、小红书AI设计区),与其他创作者交流经验、分享成果、解答问题,在交流中学习新的技巧和思路,同时也能获得更多的创作灵感。
  5. 兼顾AI生成与人工创作的融合:AI生成是辅助工具,无法替代人工创作的创意和思考,专业创作者应将AI生成与人工创作深度融合,用AI完成重复性、机械性的工作(如草图绘制、元素生成),将更多的时间和精力放在创意构思、精细化设计、情感表达上,让创作成果更有温度和深度。

6.3 商业创作的版权与使用建议

AI生成内容的版权问题是商业创作的核心问题,创作者在进行商业创作时,需重视版权问题,避免侵权风险,本教程给出实用的版权与使用建议

  1. 开源模型创作:优先选择开源模型(如克莱因、Flex、SD)进行商业创作,同时使用自己创作的训练集训练LoRA模型,确保创作成果的版权清晰,无侵权风险。
  2. 闭源模型创作:使用闭源模型(如Midjourney)进行商业创作时,需仔细阅读平台的用户协议,确认商业使用权限,部分平台的商业使用需要缴纳会员费或版权费,需按要求操作。
  3. 成果原创性检测:在将AI生成内容用于商业用途前,可通过原创性检测工具(如百度识图、谷歌识图)检测内容是否与现有内容高度相似,避免出现版权纠纷。
  4. 保留创作过程记录:保存AI生成的创作过程记录(如提示词、参数设置、生成步骤、参考图),若出现版权纠纷,可作为原创性证明。
  5. 结合人工创作提升原创性:对AI生成的内容进行大量的人工后期优化和修改,提升内容的原创性,让创作成果具备独立的版权属性。

七、总结与后续学习方向

7.1 教程核心总结

本教程从AI生成模型的基础认知出发,讲解了克莱因、Flex等主流模型的特性与选择逻辑,完成了硬件、软件的前期配置,详细讲解了模型基础使用、提示词撰写、LoRA训练的全流程实操,分享了开源与闭源模型的组合应用技巧和流沙任务系统的使用方法,最后给出了行业实操经验、避坑指南和商业创作的版权建议,核心要点可总结为3个核心

  1. 基础核心:提示词是AI生成的基础,优质的提示词需具备清晰的逻辑结构,层层递进,让模型精准理解创作需求,同时需根据不同模型的特性进行针对性优化。
  2. 进阶核心:LoRA训练是实现内容差异化的关键,优质的训练集是LoRA训练成功的一半,需遵循“质量优先、特征明确、有变体”的原则,同时根据硬件和训练目标调整参数,采用多次迭代的方式优化模型。
  3. 应用核心:开源与闭源模型的组合应用是提升创作效率和成果质量的关键,创作者应充分发挥二者的优势,兼顾效率与独特性,同时将AI生成与人工创作深度融合,打造有温度、有深度、有辨识度的创作成果。

7.2 后续学习方向

AI生成技术正处于高速发展阶段,创作者在掌握本教程的内容后,可从以下方向继续学习,实现从“新手”到“专业”的进阶:

  1. 模型融合与进阶微调:学习模型融合技术(如SD模型与克莱因模型融合)、进阶微调技术(如DreamBooth、Textual Inversion),打造更个性化、更高性能的模型。
  2. 多模态AI生成:学习文本、图像、音频、视频的多模态AI生成技术,如AI短剧制作、AI动漫生成、AI音频配图,拓展创作领域。
  3. AI生成与专业设计工具的联动:学习AI生成模型与Photoshop、Illustrator、Blender等专业设计工具的联动使用,实现AI生成与专业设计的深度融合。
  4. AI创作商业化落地:探索AI创作的商业化落地路径,如AI设计接单、AI内容创作、AI模型定制,将AI创作能力转化为实际收益。

后记

AI生成模型并非替代创作者的工具,而是赋能创作者的“创意助手”,它能大幅降低创作门槛、提升生产效率,为创作者提供全新的创意灵感,但最终的创意构思、情感表达、风格打造,仍需要创作者的人工思考和打磨。希望本教程能帮助广大创作者掌握AI生成模型的核心实操技巧,在AI时代的创作浪潮中,找到属于自己的创作方向,将

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐