GLM-4.5-Air:一款面向 Agent 时代的“轻旗舰”开源大模型
摘要:智谱AI推出开源大模型GLM-4.5-Air,采用稀疏MoE结构(106B总参数/12B激活参数),支持128K上下文和双模式推理(思考/即时模式),在Hugging Face和GitCode以MIT协议开源。该模型在4×A100/2×H100配置上可流畅运行,适用于长文档处理、代码生成、智能客服等场景,并支持函数调用API和本地化部署。其低显存需求(相当于70B稠密模型)和开源特性,为企业
106 B 参数(仅 12 B 激活)、128 K 上下文、MIT 许可证、双模式混合推理
立即体验模型
国产开源大模型已经从「能用」迈向「好用」。Zhipu AI 的新系列 GLM-4.5 把推理、编码与多工具调用整合到一张模型里,而 GLM-4.5-Air 则用稀疏 MoE 结构,把总参数压到 106 B、激活参数压到 12 B,既保留 128 K 超长上下文,也能在 4 × A100 / 2 × H100 的配置上流畅运行,覆盖从云到本地部署的全景需求。
它继承了“思考模式(复杂推理+工具使用)+即时模式(快速回应)”的混合推理范式,官方权威基准表现排到第 6 位,且已在 Hugging Face 与 GitCode 镜像上以 MIT 许可证完全开源。
立即体验模型
为何关注 GLM-4.5-Air?
核心指标 | 解释 | 用户价值 |
---|---|---|
106 B 总参 / 12 B 激活 | 稀疏 MoE,推理显存压力 ≈ 70 B 级稠密模型 | 部署成本更低 |
128 K 上下文 | 约 20 万汉字 / 10 万行代码 | 长文档、长代码一次喂完 |
双模式 Hybrid Reasoning | thinking / non-thinking | 精准推理 ↔ 极速响应 自由切换 |
MIT 开源 | 允许商业二次开发 | 私有化、本地部署无版权顾虑 |
五大热门应用场景
场景方向 | 典型需求 | 热门关键词示例 |
---|---|---|
企业级 RAG 知识助手 | 解析 100 K+ 行政法规、金融年报、医疗指南并回答专业问答 | “长文档大模型检索生成”“RAG 私有部署” |
本地化 AI 编程助手 | 在 50 K+ 代码仓库完成补全、重构、单测生成 | “AI 代码补全”“GLM-4.5 编程助手” |
多轮智能客服 / 工单自动化 | 凭借函数调用 API,自动查询库存、生成工单、跟进物流 | “Agentic AI 客服”“函数调用大模型” |
报表与数据分析 | Copilot “思考模式”读入 10 万行 CSV,自动生成洞见与可视化脚本 | “AI 数据分析助手” |
教育陪伴式导师 | 128 K 记录整个学期对话,持续跟踪知识薄弱点 | “AI 学习伴侣”“个性化辅导大模型” |
落地要点
1. 结合向量数据库(Milvus / Qdrant)解决知识检索
2. 使用 vLLM / SGLang 加速推理,节省 30-50 % 显存
3. 在工具链侧启用标准 OpenAI-function 调用协议,快速嫁接现有业务系统
快速上手示例
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"zai-org/GLM-4.5-Air", # GitCode 镜像亦可:
trust_remote_code=True # https://ai.gitcode.com/hf_mirrors/zai-org/GLM-4.5-Air
)
tok = AutoTokenizer.from_pretrained("zai-org/GLM-4.5-Air")
prompt = "请用 200 字总结《公司法》最新修订要点,并列出 3 条合规建议:"
out = model.generate(**tok(prompt, return_tensors="pt"), max_new_tokens=400)
print(tok.decode(out[0], skip_special_tokens=True))
Tips:思考模式可通过在 system prompt 中加入 mode=think 切换;生产环境推荐 vLLM + Flash-Attention-2。
未来优化方向
1. FP8 推理:官方已放出 FP8 权重,单张 HGX B100 也能跑 128 K 长上下文。
2. LoRA 微调:在 8-bit + QLoRA 下,百卡小时级成本即可完成领域适配。
3. 多模态扩展:Together AI API 已支持图片输入,预计社区很快会放出视觉 Adapter。 
GLM-4.5-Air 把「高性能」与「可落地」之间的矛盾拉到新的平衡点:在不牺牲 128 K 上下文和混合推理能力的前提下,将成本降到中型 GPU 集群可承受的级别。对于想在私有环境里快速验证 Agent 场景、又受限于预算的团队,它提供了一条几乎“开箱即用”的路径。
更多推荐
所有评论(0)