一键安装包下载

最近我在折腾 AI 绘图,说实话,心有点累。

之前的 Stable Diffusion 1.5 虽然快,但画质有点跟不上时代了。后来出了 SDXL,画质好了,但速度慢了一截。前阵子大家都在推 Flux,我也跟风去试了一下,结果差点把我的老电脑干冒烟。Flux 那个模型确实强,但对显卡要求太高了,动不动就要 16G、24G 显存,生成一张图得等好久,风扇呼呼转,听着都心疼。

我就想找个折中的方案:画质要比 SD1.5 好,速度要快,关键是——别太吃配置。我的显卡只有 8G,得能跑得动才行。

昨天在逛 HuggingFace 的时候,看到一个新的模型叫 Z-Image-Turbo。看介绍是阿里通义团队开源的。我抱着试一试的心态下下来跑了一下,结果有点出乎意料。

今天就跟大伙聊聊这个模型,顺便把怎么安装、怎么避坑都写出来。我不是什么技术大牛,就是个爱折腾的普通用户,这篇文章主要记录我这两天的使用感受。
在这里插入图片描述

什么是 Z-Image-Turbo?我为啥换用它

简单说,这就是个画图的模型,跟咱们平时用的 Midjourney 或者 Stable Diffusion 是一类东西。

它最大的卖点就是“小”和“快”。

现在很多开源模型都在拼参数量,什么 12B(120亿参数)、24B,参数越大,模型越聪明,但也越笨重。Z-Image-Turbo 这个模型只有 6B(60亿参数)。

一开始我以为参数小了画质肯定不行,但我实际跑下来发现,它在效率和质量之间找了个很奇怪的平衡点。

我选择它的几个理由:

  1. 真的快:官方说生成一张图只要 1 秒。我本地实测,虽然没到 1 秒那么夸张(可能我电脑配置还是不够好),但基本上 2-3 秒就能出一张高清图。这就意味着我可以实时看到结果,不用像以前那样,输入完提示词,去倒杯水回来还在转圈。
  2. 不挑食:它对中文理解能力很好。以前用国外的模型,必须得用英文写提示词,有时候还得用翻译软件。这个模型是国内阿里团队做的,这方面有先天优势,直接输中文,它能听懂。
  3. 写字能力强:这是最让我意外的。以前让 AI 在图里画个招牌、写个字,出来的都是乱码。这个模型能比较准确地把汉字印在图片里,这一点后面我会细说。
  4. 自由度高:很多模型为了安全加了太多限制,稍微一点复杂的动作或者人体结构就不让画。这个模型指令遵循能力很强,只要你描述清楚,它基本都能按你的意思画出来,不会莫名其妙拒绝你。

核心功能体验

这两天我主要试了下面这几个功能,感觉是它区别于其他模型的地方。

1. 中文图文生成

我试了一个提示词:“一个穿着汉服的女孩,站在挂着‘元宵快乐’灯笼的街道上”。

如果用 SDXL,大概率灯笼上的字是鬼画符。用 Z-Image-Turbo 跑了几次,有那么两三次字是完全写对的,就算偶尔写错,笔画结构也是汉字的样子,稍微修一下就能用。这对做电商海报或者做封面图的人来说,省了不少事。

2. 亚洲人脸特化

玩过 AI 绘画的都知道,国外的模型画亚洲人,总有一股“刻板印象”的味道,比如眯眯眼或者颧骨很高。

毕竟是国内团队做的模型,Z-Image-Turbo 生成的亚洲面孔比较符合咱们的审美。皮肤质感保留得不错,不会磨皮磨得像塑料人,光影感也挺真实。不用特意去挂什么 LoRA(微调模型),直出的人像照片就能发朋友圈。

在这里插入图片描述

3. 低显存运行

我的显卡是 RTX 3070,8G 显存。跑 Flux 的时候,经常爆显存报错。

跑这个 Z-Image-Turbo,显存占用很稳,基本维持在 6G 左右,后台还能开个浏览器查资料。官方分了三个版本:Turbo、Base 和 Edit。

  • Turbo 版:就是我主推的这个,速度极快,适合快速出图找灵感。
  • Base 版:画质更好一点,但稍微慢点,适合最后出大图。
  • Edit 版:这个好像是专门用来改图的,比如给图里的人换件衣服,但我还没玩明白。

咱们日常玩,下 Turbo 版就够了。

安装使用注意点(新手避坑指南)

这部分是重头戏。官方虽然说了有部署方案,但对于咱们这种还要查教程的人来说,坑还是不少的。我是用的 ComfyUI 来运行的。

第一步:准备 ComfyUI

如果你电脑里还没有 ComfyUI,建议去 Github 上搜一下 “ComfyUI Portable”,下载那个解压即用的版本。别去折腾 Python 环境配置了,容易把自己绕晕。

第二步:下载模型

一键安装包下载

去 HuggingFace 搜 Z-Image-Turbo

你需要下载的文件通常是一个以 .safetensors 结尾的大文件。把这个文件下载下来,放到 ComfyUI 目录下的 models/checkpoints 文件夹里。

注意:这个模型大概有好几个 G,下载的时候找个网好的地方,或者用下载工具。

第三步:搭建工作流(Workflow)

这里是最容易卡住的地方。Z-Image-Turbo 的工作流和普通的 SD1.5 不太一样。

  1. 加载器:普通的 CheckpointLoaderSimple 可能不一定好使。如果报错,去 ComfyUI 的管理器(Manager)里搜一下有没有对应的 Z-Image 或者 Wanx 的加载节点。
  2. 分辨率设置:这个模型虽然只有 6B,但它训练的时候用的分辨率比较高。建议把 Empty Latent Image 的宽高设置在 1024x1024,或者 768x1024。如果设太小(比如 512x512),画出来的人脸可能会崩。
  3. 步数(Steps):因为是 Turbo 模型,步数千万别设太高!普通的模型我们习惯设 20 步或者 30 步。这个 Z-Image-Turbo,设 4 到 8 步 就足够了。设多了不仅慢,画面反而会烂掉,出现很多噪点。
  4. CFG Scale:这个参数控制 AI 听话的程度。Turbo 模型一般不需要太高的 CFG,设置在 1.0 到 2.0 之间就行。这点跟传统模型区别很大,传统模型一般是 7.0。设错了你会发现图是糊的。

第四步:关于报错

我在运行的时候遇到过一个报错,提示缺少什么 fp8。后来查了一下,是因为我的 torch 版本太低了。

如果你也遇到类似的问题,去 ComfyUI 的 update 脚本那里点一下更新,把内核更新到最新版通常就能解决。

还有就是,虽然它说 8G 能跑,但如果你还要同时挂好几个 ControlNet(控制网),显存还是会吃紧的。建议先只跑文生图,跑通了再加别的。

与其他同类软件对比

光说好没用,拉出来溜溜。我根据我自己的体验,做了一个简单的对比表。我不搞那些复杂的数据测试,就说主观感受。

维度 Z-Image-Turbo Flux (Dev/Schnell) Stable Diffusion 1.5 Midjourney V6
显存要求 (8G 畅玩) 极高 (建议 16G+) 极低 (4G 都能凑合) 无 (云端运行)
生成速度 极快 (秒级) 慢 (要排队)
中文理解 优秀 (原生支持) 差 (需翻译) 差 (完全不懂) 一般 (需翻译)
文字生成 (中文可写) 优 (英文强) 无 (鬼画符) 优 (英文强)
真实感 (照片级) 极高 一般 (需配合大模型) 极高
上手难度 中 (需部署) 难 (需搞定硬件) 易 (充钱就行)
费用 免费开源 免费开源 免费开源 昂贵订阅制

对比总结:

  • 如果你是不差钱的土豪,直接用 Midjourney,除了贵没毛病。
  • 如果你显卡是 4090,那 Flux 肯定是目前的画质天花板。
  • 如果你像我一样,显卡普通(3060/3070/4060级别),又想玩高质量的本地出图,还想图里带点汉字,那 Z-Image-Turbo 是目前最好的选择,没有之一。
  • SD1.5 虽然资源多,但现在看生成的图,总有一种“AI 味”,就是那种油腻腻的感觉,Z-Image-Turbo 生成的图这方面要干净很多。

在这里插入图片描述

碎碎念

其实开源社区更新得太快了,可能下个月又有新模型出来吊打这个。但现阶段,Z-Image-Turbo 确实解决了我很多痛点。

以前为了画一张满意的图,我要调试半天提示词,还要等待漫长的渲染。现在这种“秒出图”的感觉,真的会改变你的创作习惯。你可以飞快地尝试几十种构图、几十种光影,哪个好用哪个。

还有一个小技巧分享给大家:写提示词的时候,虽然它支持中文,但我发现如果你把重要的主体词放在最前面,效果会更好。比如你想画个美女,先把“漂亮的中国女性”放在开头,然后再写背景啊、衣服啊这些。

如果你也是 8G 显存党,真心建议去下个试试。别被那些大模型的参数吓到了,适合自己电脑的才是最好的。

要是安装过程中遇到啥报错,或者生成的图是一片黑,大概率是 VAE 没挂对,或者是步数设太高了,回头检查一下我上面写的参数设置。

这玩意目前还在更新,听说后面那个 Edit 版本会加入更强的局部重绘功能,到时候如果好用,我再来写一篇。

就这样,我去跑图了。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐