106 B 参数(仅 12 B 激活)、128 K 上下文、MIT 许可证、双模式混合推理

立即体验模型
国产开源大模型已经从「能用」迈向「好用」。Zhipu AI 的新系列 GLM-4.5 把推理、编码与多工具调用整合到一张模型里,而 GLM-4.5-Air 则用稀疏 MoE 结构,把总参数压到 106 B、激活参数压到 12 B,既保留 128 K 超长上下文,也能在 4 × A100 / 2 × H100 的配置上流畅运行,覆盖从云到本地部署的全景需求。

它继承了“思考模式(复杂推理+工具使用)+即时模式(快速回应)”的混合推理范式,官方权威基准表现排到第 6 位,且已在 Hugging Face 与 GitCode 镜像上以 MIT 许可证完全开源。
立即体验模型

为何关注 GLM-4.5-Air?

核心指标 解释 用户价值
106 B 总参 / 12 B 激活 稀疏 MoE,推理显存压力 ≈ 70 B 级稠密模型 部署成本更低
128 K 上下文 约 20 万汉字 / 10 万行代码 长文档、长代码一次喂完
双模式 Hybrid Reasoning thinking / non-thinking 精准推理 ↔ 极速响应 自由切换
MIT 开源 允许商业二次开发 私有化、本地部署无版权顾虑

五大热门应用场景

场景方向 典型需求 热门关键词示例
企业级 RAG 知识助手 解析 100 K+ 行政法规、金融年报、医疗指南并回答专业问答 “长文档大模型检索生成”“RAG 私有部署”
本地化 AI 编程助手 在 50 K+ 代码仓库完成补全、重构、单测生成 “AI 代码补全”“GLM-4.5 编程助手”
多轮智能客服 / 工单自动化 凭借函数调用 API,自动查询库存、生成工单、跟进物流 “Agentic AI 客服”“函数调用大模型”
报表与数据分析 Copilot “思考模式”读入 10 万行 CSV,自动生成洞见与可视化脚本 “AI 数据分析助手”
教育陪伴式导师 128 K 记录整个学期对话,持续跟踪知识薄弱点 “AI 学习伴侣”“个性化辅导大模型”

落地要点
1. 结合向量数据库(Milvus / Qdrant)解决知识检索
2. 使用 vLLM / SGLang 加速推理,节省 30-50 % 显存
3. 在工具链侧启用标准 OpenAI-function 调用协议,快速嫁接现有业务系统

快速上手示例

from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
    "zai-org/GLM-4.5-Air",                       # GitCode 镜像亦可:
    trust_remote_code=True                       # https://ai.gitcode.com/hf_mirrors/zai-org/GLM-4.5-Air
)
tok = AutoTokenizer.from_pretrained("zai-org/GLM-4.5-Air")

prompt = "请用 200 字总结《公司法》最新修订要点,并列出 3 条合规建议:"
out = model.generate(**tok(prompt, return_tensors="pt"), max_new_tokens=400)
print(tok.decode(out[0], skip_special_tokens=True))

Tips:思考模式可通过在 system prompt 中加入 mode=think 切换;生产环境推荐 vLLM + Flash-Attention-2。

未来优化方向

1.	FP8 推理:官方已放出 FP8 权重,单张 HGX B100 也能跑 128 K 长上下文。
2.	LoRA 微调:在 8-bit + QLoRA 下,百卡小时级成本即可完成领域适配。
3.	多模态扩展:Together AI API 已支持图片输入,预计社区很快会放出视觉 Adapter。 

GLM-4.5-Air 把「高性能」与「可落地」之间的矛盾拉到新的平衡点:在不牺牲 128 K 上下文和混合推理能力的前提下,将成本降到中型 GPU 集群可承受的级别。对于想在私有环境里快速验证 Agent 场景、又受限于预算的团队,它提供了一条几乎“开箱即用”的路径。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐