上篇文章初步整理了V100显卡加载运行Qwen3.6-27B的较全面体验过程(加载运行模型、生成速度、智力、agentic等),详细内容请看:

32GB显存老显卡V100跑最新小型开源大模型Qwen3.6-27B体验全过程

接下来,我准备从运行速度、能力评分、实战项目三个方面进行全面的评测对比这些30B参数级别开源大模型,然后跟各位同步分享其中的过程,如有不当更优之处还请不吝赐教!

先从大模型的运行速度开始。

本文内容关注目前开源领域最热门的几款30B级别大模型的运行速度方面,观察指标主要有不同上下文时的预填充prefill、生成速度decoding。这些速度指标可直观辅助选择满足我们自己场景要求的大模型,具体参与的大模型有:

  • Qwen3.6-27B(Q4_K_M/Q6_K)
  • Qwen3.6-35B-A3B(Q4_K_M)
  • gemma-4-31B-it(Q4_K_M/IQ4_XS)
  • gemma-4-26B-A4B(Q4_K_M/IQ4_XS)
  • GLM-4.7-Flash(Q4_K_M)

其中,Qwen3.6-27B和Qwen3.6-35B-A3B这两个主角是近期最热门的个人本地部署的国产大模型,分别是dense和moe架构模型。

gemma-4-31B和gemma-4-26B-A4B这两个谷歌出品的开源模型热度也很高,另外IQ4_XS量化版本是应上篇文章的网友反馈加入测试的。

最后还选择了GLM-4.7-Flash,是因为最近GLM-5/GLM-5.1这代大模型相对来说太顶了,所以就把前一代30B激活3B参数的MOE架构模型也加入评测。

测试说明

测试时,每个量化的大模型,都会请求6个完全一致的中文prompt(文本分别长度分别为1000,5000,10000,20000,40000,80000),用来模拟不同长度的上下文。

相同文本经过不同厂商的tokenizer处理后获得的tokens也不尽相同,国产的两个模型token效率即压缩比会略高于国外谷歌gemma模型。

这样发送给大模型后,就可以统计各个模型的预填充prefill速度和token生成速度decoding(t/s),即tokens/s

不同厂商大模型在不同长度的输入文本字符数下token量和效率如下:

因为这里测试的为中文prompt,所以国产大模型token效率都会高一些,可以用更少量的token去表达同样长度的中文内容,对于中文占绝大多数的日常交流来说是有一定优势的。

测试环境

运行框架:llama.cpp n9113

显卡设备:V100 32GB

注:Lm studio和llama.cpp本质都差不多,因为习惯命令行操作,这里就用llama.cpp来进行测试

llama.cpp的主要参数:

--ctx-size:50000+ # 上下文长度,dense模型要低一些

--gpu-layers:99  # 所有层都加载到gpu

--no-mmap  # 模型就不映射到系统内存了

结果分析

经过全面测试,数据较多,先看看主要指标,再细分对比。

先看大致结果,下面统计了各模型各量化精度的预填充和生成速度平均值:

可以从上图看出dense稠密模型的速度确实要低很多,预填充速度一般都是10倍于生成速度。

下面进行较为详细的对比分析。

同等量化精度下(Q4_K_M),各个模型的预填充速度prefill

两个稠密模型毫无疑问速度被Moe架构模型拉开,gemma-4-31B在很少的输入文本数下暂时领先了Qwen3.6-27B,但毕竟因为多了4B左右的参数,在输入文本增加后预填充速度落后近10%左右。多数模型会在几千不到1万个文本字符时,预填充速度达到峰值,glm-4.7-falsh除外。

同等量化精度下(Q4_K_M),各个模型的token生成速度decoding

生成速度方面,还是稠密模型明显会慢很多,而且整体上都是随着上文的增加,生成速度逐步变慢。

GLM-4.7-FLASH特色

结合此图和上面的几张图可以看出,GLM-4.7-FLASH这个模型随着上文的增加,速度下降很快几乎呈线性衰减了。这种特性应该是使用了大模型比较原始的注意力机制,没上更强更高效的注意力优化方法,如有其他具体原因可以在评论区留言讨论下。

同等量化位数的不同量化方法对比(Q4_K_M VS IQ4_XS)

整体上智能模式的IQ4_XS量化方法都会比传统Q4_K_M慢一些,只不过gemma-4-31B-it-IQ4_XS也下降的太明显了。

这些都是我个人测试的,如有出入或错误之处还请告知。

但是理论上,IQ4_XS量化的模型在能力上会稍优于Q4_K_M量化的,后面总结下测试这方面的对比。

不同量化精度对比

Qwen3.6-27B的不同量化版本Q4_K_M vs Q6_K,Q6_K的预填充和生成速度都下降11%左右。

总结一下

稠密模型的prefill和decoding速度慢于Moe架构模型3-4倍,预填充速度大约是生成速度的10倍左右,量化强度精度低整体上也是要快些的,此外IQ4_XS这种智能量化方法会比Q4_K_M稍慢点。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐