32GB显存老显卡横评多款30B参数级别本地大模型之运行速度篇

xianrenge666

613人浏览 · 2026-05-25 10:36:16

xianrenge666 · 2026-05-25 10:36:16 发布

上篇文章初步整理了V100显卡加载运行Qwen3.6-27B的较全面体验过程(加载运行模型、生成速度、智力、agentic等)，详细内容请看：

32GB显存老显卡V100跑最新小型开源大模型Qwen3.6-27B体验全过程

接下来，我准备从运行速度、能力评分、实战项目三个方面进行全面的评测对比这些30B参数级别开源大模型，然后跟各位同步分享其中的过程，如有不当更优之处还请不吝赐教！

先从大模型的运行速度开始。

本文内容关注目前开源领域最热门的几款30B级别大模型的运行速度方面，观察指标主要有不同上下文时的预填充prefill、生成速度decoding。这些速度指标可直观辅助选择满足我们自己场景要求的大模型，具体参与的大模型有：

Qwen3.6-27B(Q4_K_M/Q6_K)
Qwen3.6-35B-A3B(Q4_K_M)
gemma-4-31B-it(Q4_K_M/IQ4_XS)
gemma-4-26B-A4B(Q4_K_M/IQ4_XS)
GLM-4.7-Flash(Q4_K_M)

其中，Qwen3.6-27B和Qwen3.6-35B-A3B这两个主角是近期最热门的个人本地部署的国产大模型，分别是dense和moe架构模型。

gemma-4-31B和gemma-4-26B-A4B这两个谷歌出品的开源模型热度也很高，另外IQ4_XS量化版本是应上篇文章的网友反馈加入测试的。

最后还选择了GLM-4.7-Flash，是因为最近GLM-5/GLM-5.1这代大模型相对来说太顶了，所以就把前一代30B激活3B参数的MOE架构模型也加入评测。

测试说明

测试时，每个量化的大模型，都会请求6个完全一致的中文prompt(文本分别长度分别为1000,5000,10000,20000,40000,80000)，用来模拟不同长度的上下文。

相同文本经过不同厂商的tokenizer处理后获得的tokens也不尽相同，国产的两个模型token效率即压缩比会略高于国外谷歌gemma模型。

这样发送给大模型后，就可以统计各个模型的预填充prefill速度和token生成速度decoding(t/s)，即tokens/s

不同厂商大模型在不同长度的输入文本字符数下token量和效率如下：

因为这里测试的为中文prompt，所以国产大模型token效率都会高一些，可以用更少量的token去表达同样长度的中文内容，对于中文占绝大多数的日常交流来说是有一定优势的。

测试环境

运行框架：llama.cpp n9113

显卡设备：V100 32GB

注：Lm studio和llama.cpp本质都差不多，因为习惯命令行操作，这里就用llama.cpp来进行测试

llama.cpp的主要参数：

--ctx-size：50000+ # 上下文长度，dense模型要低一些

--gpu-layers：99 # 所有层都加载到gpu

--no-mmap # 模型就不映射到系统内存了

结果分析

经过全面测试，数据较多，先看看主要指标，再细分对比。

先看大致结果，下面统计了各模型各量化精度的预填充和生成速度平均值：

可以从上图看出dense稠密模型的速度确实要低很多，预填充速度一般都是10倍于生成速度。

下面进行较为详细的对比分析。

同等量化精度下(Q4_K_M)，各个模型的预填充速度prefill

两个稠密模型毫无疑问速度被Moe架构模型拉开，gemma-4-31B在很少的输入文本数下暂时领先了Qwen3.6-27B，但毕竟因为多了4B左右的参数，在输入文本增加后预填充速度落后近10%左右。多数模型会在几千不到1万个文本字符时，预填充速度达到峰值，glm-4.7-falsh除外。

同等量化精度下(Q4_K_M)，各个模型的token生成速度decoding

生成速度方面，还是稠密模型明显会慢很多，而且整体上都是随着上文的增加，生成速度逐步变慢。

GLM-4.7-FLASH特色

结合此图和上面的几张图可以看出，GLM-4.7-FLASH这个模型随着上文的增加，速度下降很快几乎呈线性衰减了。这种特性应该是使用了大模型比较原始的注意力机制，没上更强更高效的注意力优化方法，如有其他具体原因可以在评论区留言讨论下。

同等量化位数的不同量化方法对比(Q4_K_M VS IQ4_XS)

整体上智能模式的IQ4_XS量化方法都会比传统Q4_K_M慢一些，只不过gemma-4-31B-it-IQ4_XS也下降的太明显了。

这些都是我个人测试的，如有出入或错误之处还请告知。

但是理论上，IQ4_XS量化的模型在能力上会稍优于Q4_K_M量化的，后面总结下测试这方面的对比。

不同量化精度对比

Qwen3.6-27B的不同量化版本Q4_K_M vs Q6_K，Q6_K的预填充和生成速度都下降11%左右。

总结一下

稠密模型的prefill和decoding速度慢于Moe架构模型3-4倍，预填充速度大约是生成速度的10倍左右，量化强度精度低整体上也是要快些的，此外IQ4_XS这种智能量化方法会比Q4_K_M稍慢点。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Apache Groovy：JVM 平台上的多范式编程语言

Apache Groovy是JVM平台的多范式编程语言，由Apache维护，具有5,446颗Star。它结合动态语言灵活性与静态类型严谨性，兼容Java生态，支持脚本编程、DSL构建、元编程和函数式编程。要求JDK17+，使用Gradle构建，提供IDE支持。采用Apache 2.0协议，由JetBrains和YourKit赞助。

2048 AI社区

一文读懂企业AI四阶段演进：从存文档到懂业务，理清智能化路线

从单纯存放文件的文档时代，到能够自主决策的认知智能时代，企业 AI 的四次演进，本质是 AI 与业务融合不断加深的过程。判断企业当前所处阶段，找准进阶方向，是每一位业务人员推进数智化转型的必备认知。当下，AIGC 内容生成已经成为行业基础能力，以向量空间 JBoltAI 为代表的 AIGS 技术范式，正在推动企业 AI 从 "工具应用" 走向 "体系重塑"。无论是尚在搭建文档与知识库的传统企业，还