GLM-4.7-Flash评测：30B级别最强模型，API免费，本地部署指南！

智谱AI发布GLM-4.7-Flash模型，定位30B参数级别最强轻量模型。该模型继承了GLM-4.7的核心能力，在编程、推理和创作方面表现优异，特别适合本地部署。主要亮点包括：免费API支持（1并发）、多框架部署支持(vLLM/SGLang等)、与主流编程Agent深度集成。相比百亿参数大模型，30B级别的GLM-4.7-Flash在消费级硬件上即可运行，为开发者提供了高性能与低成本兼顾的新选择

小涂Ss

399人浏览 · 2026-01-22 08:45:00

小涂Ss · 2026-01-22 08:45:00 发布

GLM-4.7 发布不久后，智谱又放了个大招——GLM-4.7-Flash 正式登场了！

我最喜欢的就是 3xB 级别的模型，小巧精悍，劳模 Qwen3-32B，依然是我诸多应用的基模。

GLM-4.7-Flash 号称 30B 级别模型的新标杆，它在高性能与高效能之间取得了漂亮的平衡，是轻量级部署的理想之选。

GLM-4.7 快速回顾

在聊 Flash 之前，先简单回顾一下大哥 GLM-4.7 的能力，毕竟 Flash 继承了它的核心基因。

下图是 GLM-4.7 与 GPT-5、GPT-5.1-High、Claude Sonnet 4.5、Gemini 3.0 Pro、DeepSeek-V3.2、Kimi K2 Thinking 等模型在 17 个基准测试（包括 8 个推理、5 个编程、3 个 Agent 任务）上的对比：

GLM-4.7 Benchmark 性能对比

GLM-4.7 相比前代 GLM-4.6 有这几个重要提升：

1. 编程能力全面升级

基准测试	得分	提升幅度
SWE-bench	73.8%	+5.8%
SWE-bench Multilingual	66.7%	+12.9%
Terminal Bench 2.0	41%	+16.5%
τ²-Bench（工具调用）	84.7	开源 SOTA
BrowseComp（网页浏览）	67	-

这个提升幅度，说实话相当可观。特别是多语言编程和终端任务这块，进步明显。在 Code Arena（专业编程评测系统）上，GLM-4.7 在开源模型和国产模型中排名第一，甚至超越了 GPT-5.2。

2. "三思后行"机制

GLM-4.7 引入了 Interleaved Thinking（交织思考） 和 Preserved Thinking（保留思考）：

交织思考：每次响应和工具调用之前都先"想一想"，提升指令遵循和生成质量
保留思考：在多轮对话中自动保留之前的推理过程，不用每次重新推导，减少信息丢失
轮级思考：可以按需开关——简单任务关掉降延迟，复杂任务打开提精度

这套机制特别适合长链条的 Agent 任务，稳定性大幅提升。

GLM-4.7 Thinking 机制

3. 前端生成质量飞跃

这个我之前测过 GLM-4.6V-Flash 的前端还原能力，已经很惊艳了。GLM-4.7 在这方面更进一步：

网页生成更干净、更现代
PPT、海报的排版更精准

4. 推理能力暴涨

HLE（人类最后考试）基准测试：42.8%，比 GLM-4.6 提升了 12.4 个百分点！这个提升幅度堪称夸张。

GLM-4.7-Flash：30B 级别的效率之王

好，回顾完大哥，我们来聊聊今天的主角。

官方给 GLM-4.7-Flash 的定位很清晰：

As the strongest model in the 30B class, GLM-4.7-Flash offers a new option for lightweight deployment that balances performance and efficiency.

翻译一下：30B 级别最强模型，轻量部署新选择，性能与效率双丰收。

这个定位我觉得很实在。不是每个人都有 A100/H100 集群，不是每个场景都需要百 B 级别的大模型。很多时候，一个 30B 级别、能在消费级显卡上跑起来的模型，才是真正的生产力工具。

模型规格：

属性	规格
模型名称	GLM-4.7-Flash
参数量	30B-A3B（MoE 架构）
精度	BF16
最低配置	H100 x 1
推荐配置	H100 x 2（可用满 128K 上下文）

适用场景：

本地编程辅助
智能代理（Agent）开发
创意写作
翻译任务
长文本处理
角色扮演

基本上，GLM-4.7 能干的活，Flash 都能接。只不过是"旗舰"和"高配"的区别。

API 价格：免费！

这可能是最香的部分了。

看看官方定价：

模型	价格
GLM-4.7-Flash	免费（1 并发）
GLM-4.7-FlashX	高速且经济

你没看错，GLM-4.7-Flash 的 API 是免费的！虽然限制了 1 个并发，但对于个人开发者、学习者来说，这简直是天大的福利。

想要更高并发？可以选择 GLM-4.7-FlashX，价格依然很友好。

本地部署

如果你更喜欢把模型跑在自己的机器上，GLM-4.7-Flash 也支持本地部署。

模型权重获取：

平台	链接
HuggingFace	https://huggingface.co/zai-org/GLM-4.7-Flash
ModelScope	https://modelscope.cn/models/ZhipuAI/GLM-4.7-Flash

支持的推理框架：

vLLM（模型代码[1]）
SGLang（模型代码[2]）
Transformers（模型代码[3]）

其他硬件支持：

华为昇腾 A3：可通过 xLLM[4] 进行部署
AMD GPU：参考 AMD GPU 部署指南[5]

vLLM 部署

首先安装依赖：

pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightlypip install git+https://github.com/huggingface/transformers.git

启动服务：

注意：目前 vLLM 和 SGLang 只在 main 分支支持 GLM-4.7-Flash，需要安装最新版本。

SGLang 部署

苹果量化版也来了

https://lmstudio.ai/models/zai-org/glm-4.7-flash

4-bit 版只有 17GB

https://huggingface.co/lmstudio-community/GLM-4.7-Flash-MLX-4bit/tree/main

调用 API

如果你选择使用官方 API，glm-4.7-flash 免费

这里是快速开始代码：

Python SDK:

from zai import ZaiClientclient = ZaiClient(api_key="your-api-key")response = client.chat.completions.create(    model="glm-4.7-flash",    messages=[        {"role": "user", "content": "帮我写一个 Python 函数，计算斐波那契数列的第 n 项"},    ],    thinking={"type": "enabled"},    max_tokens=4096,    temperature=1.0,)print(response.choices[0].message)

cURL：

curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \  -H "Content-Type: application/json" \  -H "Authorization: Bearer your-api-key" \  -d '{    "model": "glm-4.7-flash",    "messages": [      {"role": "user", "content": "你好"}    ],    "thinking": {"type": "enabled"},    "max_tokens": 4096,    "temperature": 1.0  }'