通义千问qwen_3_4b-fp8.safetensors模型的使用教程及下载地址分享搭配z-image-turbo快速生图教程

为了搞清它到底是不是真的这么猛，我花了一个晚上把模型拉下来，并塞进自己的 ComfyUI 流程里，顺便搭上最近火得不行的。身为一个常年折腾本地 AI 模型的前端工程师，我一直都在寻找一种既轻量又能跑得飞快的模型方案。下面我就把整个体验、配置方式、模型信息，还有下载方式全部整理出来，方便你们也能轻松复现。的性能，说这玩意解码速度快得离谱，还特别适合做本地生成式工作流。特别是放进绘图管线里的时候，速度

weixin_41961749

348人浏览 · 2025-12-03 16:20:48

weixin_41961749 · 2025-12-03 16:20:48 发布

通义千问qwen_3_4b-fp8.safetensors模型的使用教程及下载地址分享

标签：通义千问、本地大模型、Qwen3、ComfyUI生图、AI绘图、z-image-turbo、FP8模型、模型分享、AI加速
在这里插入图片描述

身为一个常年折腾本地 AI 模型的前端工程师，我一直都在寻找一种既轻量又能跑得飞快的模型方案。前段时间刷到不少人在讨论 qwen_3_4b-fp8 的性能，说这玩意解码速度快得离谱，还特别适合做本地生成式工作流。

为了搞清它到底是不是真的这么猛，我花了一个晚上把模型拉下来，并塞进自己的 ComfyUI 流程里，顺便搭上最近火得不行的 z-image-turbo，结果实际跑下来比我预期还要爽。

下面我就把整个体验、配置方式、模型信息，还有下载方式全部整理出来，方便你们也能轻松复现。

先放qwen_3_4b-fp8.safetensors下载地址:
https://pan.quark.cn/s/dbf9a4a9f32c
z-image-turbo-fp8模型下载地址:
https://pan.quark.cn/s/731f89698ff9

一、为什么选 Qwen3-4B-FP8？（4B 竟然这么快）

如果你电脑显存不算大，但又想玩本地大模型推理，那么 4B 体量的 FP8 版本真的很香：

🌟 亮点总结（但不是最终结论）

体积极小：FP8 比 FP16、BF16 轻多了
解码速度极快：本地实时感强
能力在同尺寸模型里非常能打
配合 ComfyUI + z-image-turbo，能实现“快速文生图”流程

特别是放进绘图管线里的时候，速度快到基本没有任何等待焦虑。

二、模型文件信息（含 safetensors 版本）

本次分享的模型文件：

qwen_3_4b-fp8.safetensors

格式为 safetensors，加载更安全，也更适合放到本地推理流程里。

三、如何在 ComfyUI 中使用？（含 z-image-turbo 搭配方法）

我这次的流程主要围绕：

ComfyUI + z-image-turbo + Qwen3-4B-FP8

大致结构如下：

加载 Qwen3 模型（fp8）
使用 Custom Nodes 中的文本模型加载节点
z-image-turbo 负责图像生成核心加速
Qwen3 负责 prompt 组织、场景理解或需求扩写
最终进入绘图节点生成结果

整个过程并不复杂，真正的关键点只有两个：

关键点 1：模型路径要绝对正确

将 qwen_3_4b-fp8.safetensors 放到：

ComfyUI\models\text_encoders

或你的自定义目录（只要在节点里能正确引用即可）。

关键点 2：建议搭配 Turbo 流程

如果你使用：

z-image-turbo（极快）
SD Turbo 系模型
FastFlux / LCM / Hyper-SD

都可以让整条链路速度进一步提升。

实际体验下来：

4B FP8 + z-image-turbo 的 prompt 解读速度
真的比 13B、33B 那些巨型模型跑图更爽。

四、实际速度体验（我本机数据）

我的配置：

RTX 4060 单卡
8G 显存
Windows + ComfyUI

Qwen3-4B-FP8 加载速度：约 1 秒
ComfyUI 中 prompt 解读：完全不卡顿
z-image-turbo 出图速度：约 1.5~2 秒一张

整个体验非常顺畅。

五、模型下载地址

在这里插入图片描述

链接：https://pan.quark.cn/s/dbf9a4a9f32c
https://pan.quark.cn/s/dbf9a4a9f32c

你只需要下载 qwen_3_4b-fp8.safetensors 放到 ComfyUI 的模型目录就能直接使用。

六、结语：这小模型太能打了

这波实测结束，我得说一句：

4B + FP8 + safetensors + Turbo 工作流 = 本地推理性价比天花板

如果你正在找一个轻量又够强的模型来做

Prompt 生成
场景扩写
本地文生图辅助
超高速工作流

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

免费毕业论文工具推荐：9个AI神器一键生成，查重率直降50%！

cover

抢先了解 DeepSeek V3.2：DSA 稀疏注意力突破，推理比肩 GPT-5

C/C++ 析构函数创建与释放的特点、差异及与 Java 的对比

声明方式自动调用：对象生命周期结束时（如离开作用域、delete 操作）。释放资源：常用于释放 new 分配的内存、关闭文件等。C++ 析构函数：作用域自动调用，资源显式释放，RAII 保安全。Java 靠 GC，非内存要手动。

所有评论(0)

查看更多评论

weixin_41961749

@weixin_41961749

已为社区贡献14条内容