20天从零实现:基于Qwen2.5-3B + LoRA微调的自研本地SD Prompt生成器 已开源求指正
摘要:本文介绍了一个基于Qwen2.5-3b-Raw模型的本地化SDPrompt生成器开发过程。作者为解决AI绘图提示词编写耗时的问题,在12GB显存的5070ti笔记本上部署Ubuntu系统,尝试了多种模型方案,最终选择3b模型进行微调。通过560条训练JSON数据,在alpha=64、loss=0.47时构建出可用的提示词生成器。项目已开源,展示了中英文提示词生成效果,并计划开发3.0版本改进
这是一个基于本地部署的Qwen2.5-3b-Raw模型的本地化SD Prompt生成器研究,本人二本非科班学生,利用云端大模型进行代码编写而成,本人仅提供架构方向引导和控制决策,作为初学者项目目前尚有许多不足,恳求请多包容并希望得到指导.......
寒假闲来无事想接触接触AI绘图领域看看能不能画几张美图来赚点生活费,无意中了解到在Linux系统下性能开销会有所降低,于是手动在本地的5070ti笔电上部署了Ubuntu双系统,在使用comfyUI的sdxl绘图模型期间,深感正负提示词的编写不易,往往想画出无毛糙高质感的图片光想并填写提示词就得花掉10分钟甚至更多的时间,尝试利用云端大模型时发现风格难以固定,适用sdxl clip编码器中的75token片区限制的能力较差,每次调试时也极具耗费心力。由此,我产生了本地部署个sd prompt生成器的想法,并通过云端大模型的代码编写能力逐步推进。
在推进伊始时,我根据本地的12GB显存限制选择了qwen2.5-7b-instruct模型,但在通过脚本限制规范其输出时发觉7b频繁出现添词,输出占位符甚至拒绝输出的情况,我通过网络了解到构建LoRA微调可以有效减少幻觉的产生,于是我利用了云端大模型编写了560条训练JSON,但效果不佳,且时常出现爆显存的状况,于是我重新选择了qwen2.5-3b-raw模型,我意识到这只是个语义蒸馏的过程,并不需要高精度模型的支撑,我由此得以正常开展对3b微调,我利用数学随机组合的方式生成的JSON有效覆盖了绝大多数场景,最终在alpha=64,loss=0.47的情况下搞定。现在这个模型在Blackwell架构(RTX 50系列)上利用BF16稀疏Tensor Core,能把推理压到2-7秒,还针对VAE/U-Net做了词权优化。
项目已开源:https://github.com/LianHe-BI/Basic-Qwen-3B-SD-Prompt-SOUL-ARCHITECT-v2.0-DEMO
里面有完整中文README、一键Conda环境包(百度网盘+MD5校验)、.core权重文件、WebUI界面。想具体了解的朋友可以看一看,同时我希望各位大佬能给予相关指正,本人感激不尽,目前已经尝试拆解sdxl的生成逻辑并在开发3.0版本,3.0的基础构想如下:
用户输入:6分日常构思 4分奇幻荒诞(训练时由flash模型自行想象)
中文意境构思→在正负面形成结束后自然概括(暂不计入训练中,防范语义理解错乱)
正面提示:[(前:3或4分地基 中:5或4分牵引 后:2分灵魂) 总token~75]
反面提示:[(前固化矩阵5分 + 后动态演化 5分)总token~50]
利用qwen-plus训练1600条样本,反补本地qwen-3b loss训练跌至0.3~0.4收手
引入历史记录联想索引(未来)
以下是基于该提示词工程的效果示意:
用户输入:雨后黄昏的旧城区金融街,高耸的玻璃幕墙塔楼切割橙紫晚霞,地面湿柏油路反射出无数霓虹倒影与车灯长尾,行人撑伞匆匆,共享单车歪斜停在路边栏杆旁,江面对岸的老建筑群灯火初上,游轮低沉汽笛声从雾中传来,空气混着湿气、尾气和街角咖啡店飘出的焦糖香。
生成结果:
ARCHITECT v2.0 | DEMO | 7.11S
雨后的黄昏旧城金融区高楼反射晚霞余晖,地面上湿滑沥青路面映射出闪烁光影及车辆尾光,行人们撑起遮阳伞匆忙行走,单车随意停放于人行道边,对岸老建筑亮起了灯光,远处驶来的游船发出闷哑鸣笛声响,在浓雾缭绕之中隐约可见街头咖啡馆散发出来的焦糖香味,整体氛围温馨舒适但细节有待改善
POSITIVE PROMPT (RAW PHOTO)
Rainy, Afternoon, Golden Hour, Cityscape, Tower Reflections, Wet Asphalt Roads, Reflecting Lights And Car Trails, Umbrellas, Bicycle Shelves, Street Art, Dusk Glow, Rustic Buildings On Opposite Bank, Fog Rolling Over Water, Cruise Ship Sounds, Coffee Shop Fragrance, Tranquility, Comfortable, Soothing, Peaceful, Warmth, cinematic lighting, depth of field, high fidelity, texture details, ray traced shadows, global illumination, photorealistic, raw photo style, film grain
NEGATIVE PROMPT
Dirty, Polluted Air, Broken Glass, Graffiti Pollution, Incomplete Views, Disrupted Urban Layout, Unsafe Pedestrian Environment, Unorganized Bike Parking, blurry, low quality, distorted, ugly, watermark, text, lowres, monochrome, cartoon, illustration

用户输入:午后老街骑楼长廊,人潮涌过斑驳灰白柱子,墙上贴满小广告与外卖二维码,竹竿晾衣绳横七竖八拉过二楼阳台,滴水T恤和牛仔裤随风轻晃,街边肠粉摊热气腾腾,阿婆竹夹翻动晶莹米浆,旁边凉茶玻璃柜冰块叮当,头顶电线缠绕如蛛网,远处高楼影子斜切老街,空气混着酱油香、凉茶苦味和摩托尾气。
生成结果:
ARCHITECT v2.0 | DEMO | 6.00S
午后老街的骑楼下充满活力,斑驳的灰色柱子间人流穿梭,墙壁上粘满了小广告和外卖二维码;一楼的竹竿吊床横七坚八地挂在二层阳台上,湿透的衣服在微风吹拂下轻轻飘扬;街头的小吃摊冒着热气,婆婆用竹签搅拌出晶莹细腻的米浆;隔壁的凉茶店玻璃橱窗中冰块碰撞声清脆悦耳;天花板上的电线纵横交错如同蜘蛛网般延伸;远方高楼投下的阴影切割了古老的街道,空气中弥漫着咸鱼香味、清凉饮料的味道以及摩托车废气的气息。
POSITIVE PROMPT (RAW PHOTO)
Relaxing, Charming Streetscape, Old Buildings, Vibrant Atmosphere, Human Activity, Colorful Posters, Street Food Aroma, Cool Breeze, Local Flavors, Unique Architecture, cinematic lighting, depth of field, high fidelity, texture details, ray traced shadows, global illumination, photorealistic, raw photo style, film grain
NEGATIVE PROMPT
Cluttered Sidewalks, Outdated Infrastructure, Pollution, Neglected Public Spaces, Safety Concerns, Negative Urban Development Trends., blurry, low quality, distorted, ugly, watermark, text, lowres, monochrome, cartoon, illustration

更多推荐

所有评论(0)