代码能力碾压全场!GLM-4.7登顶LiveCodeBench,73.8%通过率刷新开源天花板
在z.ai平台,GLM-4.7作为“决策大脑”,负责理解用户意图、规划任务流程,并协同调度GLM-4V(视觉)、ASR(语音识别)、TTS(语音合成)等多模态能力,实现统一的多模态任务规划与协作。GLM-4.7支持约200K的输入上下文和128K的输出长度,这一特性对于处理长文档、分析大型代码库和执行多步骤的复杂任务至关重要,为Agent的“长链路执行”提供了可能。在z.ai平台,GLM-4.7作
📝 一、引言:从“对话”到“执行”的跃迁
1.1 大模型进入“工程化 Agent”阶段
2025年,大语言模型(LLM)的竞争焦点已从单纯的对话质量,转向了复杂任务执行与工程化落地能力。市场更关注模型能否真正“把活干完”,尤其是在软件工程、数据分析、自动化办公等场景中,模型需要能够理解需求、拆解任务、调用工具并修正错误,直至任务完成。
1.2 GLM-4.7 的定位
GLM-4.7 正是智谱AI在这一背景下推出的新一代旗舰模型,于2025年12月23日发布并开源。它并非简单的参数升级,而是一次面向“Agentic Coding”和“复杂推理”的系统性跃迁,旨在将模型从“答得对”推向“做得完”。
- 核心目标:强化编码、长程任务规划与工具协同能力。
- 技术基石:引入“交织式思考”、“保留式思考”等可控推理机制。
- 能力拓展:提升前端审美与UI生成能力,支持多模态任务规划。
1.3 文章结构概览
本文将围绕GLM-4.7展开,深入探讨其技术架构、能力评测、推理机制、Agent应用、部署实践及产业影响,旨在为读者提供一个全面、深入的理解框架。
📊 二、GLM-4.7 概览:定位、发布与生态
2.1 基本信息
- 发布方:智谱AI(Zhipu AI),源于清华大学技术成果转化。
- 发布时间:2025年12月23日。
- 模型类型:通用大语言模型,重点强化编程与推理能力。
- 模型架构:基于Transformer的混合专家(MoE)架构,总参数约400B,激活参数约20B–30B。
- 上下文窗口:支持约200K输入tokens和128K输出tokens。
2.2 发布与开源
GLM-4.7在发布当日即通过BigModel.cn开放API,并上线z.ai全栈开发模式的Skills模块。其开源策略迅速获得了全球开发者的积极响应,在Hugging Face全球趋势榜上登顶,并被Vercel、Kilo Code、Cline等多个海内外平台宣布接入。
2.3 智谱AI与GLM家族
智谱AI自2019年成立以来,始终专注于通用人工智能(AGI)研究。GLM-4.7是其GLM-4系列的重要升级,标志着该系列从通用对话模型向“工程化Agent基石模型”的演进。2026年1月8日,智谱AI在香港联交所主板上市(股票代码:2513),GLM-4.7被视为其技术实力的关键体现。
2.4 生态与产业支持
GLM-4.7的快速发展得益于完善的生态系统和产业支持。其架构已适配40余款国产芯片,并与北京市公共算力平台等合作,为模型训练提供了坚实基础。
🏗️ 三、技术架构:为Agent而生的MoE设计
3.1 整体架构:GLM家族的延续与演进
GLM-4.7延续了GLM系列的自回归Transformer架构,并针对编程和推理任务进行了深度优化。其核心是混合专家(MoE)架构,通过门控网络将输入分配给不同的“专家”子网络,在保持强大能力的同时有效控制了推理成本。
3.2 上下文与输出能力:支持长链路Agent
GLM-4.7支持约200K的输入上下文和128K的输出长度,这一特性对于处理长文档、分析大型代码库和执行多步骤的复杂任务至关重要,为Agent的“长链路执行”提供了可能。
3.3 模态策略:文本核心,多模态协同
GLM-4.7定位为文本大模型,其强大的视觉理解能力主要由GLM-4V系列模型承担。在z.ai平台,GLM-4.7作为“决策大脑”,负责理解用户意图、规划任务流程,并协同调度GLM-4V(视觉)、ASR(语音识别)、TTS(语音合成)等多模态能力,实现统一的多模态任务规划与协作。
3.4 训练范式:从“预训练+微调”到“强化学习工程化”
GLM-4.7的训练不仅依赖于大规模的预训练和指令微调,更引入了基于可验证奖励的强化学习(RLVR)框架Slime。该框架将任务执行、结果验证、奖励计算和策略更新整合成一条自动化的工程流水线,持续打磨模型在复杂任务中的表现。
📈 四、能力评测:代码、推理与工具的全面领先
4.1 编码能力:开源模型的佼佼者
GLM-4.7在多个权威编码基准测试中表现卓越,被誉为“国产开源编程天花板”。
- SWE-bench-Verified:得分73.8%,位列开源第一,超越GPT-5.1 High和Claude Sonnet 4.5。
- LiveCodeBench V6:得分84.9分,刷新开源SOTA纪录,超越Claude Sonnet 4.5。
- Code Arena:在百万用户盲测中位列开源第一、国产第一,综合表现超越GPT-5.2。
4.2 推理与数学能力:逼近顶尖闭源模型
GLM-4.7在数学和复杂推理方面同样表现出色,在多项高难度测试中达到或接近顶尖水平。
- HLE (Humanity’s Last Exam):得分42.8%,较上一代提升41%,超越GPT-5.1 High。
- GPQA-Diamond:得分85.7%,与Gemini 3 Pro等顶级闭源模型相当。
- 数学竞赛:在AIME 2025、HMMT等竞赛基准上取得高分,展现了强大的形式推理能力。
4.3 工具调用与Agent能力:交互式任务新标杆
GLM-4.7在工具调用和多步交互任务中表现突出,是构建高效Agent的关键。
- τ²-Bench:交互式工具调用评测得分87.4分,刷新开源SOTA纪录。
- BrowseComp:网页浏览与信息检索任务得分显著提升,在复杂网页操作场景中表现优异。
4.4 综合智能榜单:开源与国产双料第一
在Artificial Analysis Intelligence Index榜单中,GLM-4.7以68分的综合成绩位列全球第六,同时在开源模型和国产模型分类中均排名第一,超越了Claude 4.5 Sonnet、Grok 4等国际知名模型。
4.5 前端审美与UI生成:从“能用”到“好用”
GLM-4.7在前端代码生成和UI设计方面取得了显著进步,能够生成观感更佳的网页和PPT。
- PPT 16:9适配率:从52%跃升至91%。
- 网页布局:结构更干净,组件层级更清晰,审美显著提升。
🧠 五、推理机制:交织、保留与轮级的思考模式
5.1 从“黑箱生成”到“可控推理”
GLM-4.7将“思考过程”作为模型输出的一部分进行显式建模,通过“先思考,再行动”的模式,显著提升了复杂任务的稳定性和可控性。
5.2 交织式思考 (Interleaved Thinking)
在每次生成回答或调用工具前,模型都会先生成一段推理轨迹(Thought Trace),用于规划、验证和反思。这一机制有效减少了“幻觉调用”和参数错误。
5.3 保留式思考 (Preserved Thinking)
在多轮对话的复杂任务中,模型会自动保留之前的思考模块,避免重复推理,确保长程任务的一致性和效率。
5.4 轮级思考 (Turn-level Thinking)
用户可以根据任务的复杂度,按“轮”控制模型的推理开销。简单任务可关闭思考模式以降低延迟和成本,复杂任务则开启思考模式以确保质量。
5.5 思考模式对比
| 思考模式 | 核心机制 | 主要优势 | 适用场景 |
|---|---|---|---|
| 交织式思考 | 在每次行动前生成推理轨迹 | 减少错误调用,提升规划质量 | 所有需要推理的任务 |
| 保留式思考 | 跨多轮对话保留思考结果 | 避免重复推理,保障长程一致性 | 长周期复杂工程任务 |
| 轮级思考 | 按对话轮次控制推理开关 | 灵活平衡性能与成本 | 混合复杂度的工作流 |
5.6 对Agent工作流的影响
这些思考模式使GLM-4.7能够胜任复杂的Agent工作流,如多步工具调用、长程规划和自我修正,真正从“聊天机器人”进化为“任务执行者”。
🤖 六、Agent应用:从编码到多模态协同
6.1 Agentic Coding:从0到1与从1到100
GLM-4.7在“Agentic Coding”场景中表现卓越,能够胜任从零构建项目和在现有工程中迭代优化的全流程任务。
- 0到1:项目初始化
能够根据自然语言需求,端到端生成完整可运行的前后端项目,包括代码、配置和文档。 - 1到100:工程迭代
能够理解现有代码库,完成Bug修复、功能扩展、代码重构和性能优化等任务。
6.2 多模态Agent:统一规划与协同
在z.ai平台,GLM-4.7作为“总指挥”,能够理解包含文本、图像、语音的多模态指令,并协同调度视觉、语音等多种能力,完成跨模态的复杂任务。
6.3 移动端Agent:AutoGLM 2.0
智谱的AutoGLM 2.0应用了GLM-4.7的Agent能力,通过“API+GUI”混合模式,能在移动设备上执行长达40步的复杂操作,如自动查询攻略、比价下单等,已覆盖约8000万台终端。
6.4 行业应用案例
GLM-4.7正被广泛应用于电商、金融、工业等多个行业,用于构建智能客服、自动化测试、代码审计等Agent应用,有效提升了业务效率和质量。
⚙️ 七、部署与实践:从云端API到本地部署
7.1 云端API调用
开发者可通过智谱AI的BigModel.cn平台或z.ai全栈开发模式调用GLM-4.7。其API接口兼容OpenAI格式,并支持通过extra_body参数精细控制思考模式等高级功能。
7.2 本地与私有化部署
GLM-4.7支持通过vLLM、SGLang等主流推理框架进行本地或私有化部署,便于企业在自有环境中使用。
-
vLLM部署示例:
bash
vllm serve zai-org/GLM-4.7-FP8
–tensor-parallel-size 8
–tool-call-parser glm47
–reasoning-parser glm45
–enable-auto-tool-choice
–served-model-name glm-4.7-fp8 -
SGLang部署示例:
bash
python3 -m sglang.launch_server
–model-path zai-org/GLM-4.7-FP8
–tp-size 8
–tool-call-parser glm47
–reasoning-parser glm45
–speculative-algorithm EAGLE
–speculative-num-steps 3
–speculative-eagle-topk 1
–speculative-num-draft-tokens 4
–mem-fraction-static 0.8
–served-model-name glm-4.7-fp8
–host 0.0.0.0
–port 8000 -
开启保留式思考模式 (SGLang):
json
{
“chat_template_kwargs”: {
“enable_thinking”: true,
“clear_thinking”: false
}
}
7.3 提示词工程建议
为充分发挥GLM-4.7的能力,建议根据具体任务调整参数:
- 复杂Agent任务:
temperature: 0.7top-p: 1.0max_new_tokens: 16384- 开启保留式思考模式
- 一般对话/写作:
temperature: 1.0top-p: 0.95max_new_tokens: 131072
🌐 八、产业影响:国产大模型的崛起
8.1 技术实力:跻身全球第一梯队
GLM-4.7在多个国际权威评测中取得开源与国产双料第一的成绩,标志着中国大模型技术已跻身全球第一梯队,具备了与国际顶尖模型同台竞技的实力。
8.2 产业生态:推动AI工程化落地
GLM-4.7的开源和广泛应用,正在推动AI从“实验室Demo”走向“生产级应用”。其高性价比的API服务和强大的Agent能力,为中小企业提供了低成本、高效率的智能化转型方案。
8.3 国产化与自主可控
GLM-4.7已适配40余款国产芯片,并在国产算力平台上完成训练,为我国在AI领域实现技术自主可控奠定了坚实基础。
🚀 九、未来展望:通往AGI之路
9.1 技术演进方向
- 更强的通用推理能力:在数学、逻辑等领域实现更深层次的突破。
- 更高效的推理机制:在保证质量的同时,降低长链路思考的成本。
- 更深度的多模态融合:实现文本、图像、语音、视频等信息的无缝理解与生成。
- 更智能的Agent生态:构建更自主、更可靠的Agent协作框架。
9.2 应用深化与普及
GLM-4.7将推动AI Agent在更多行业和应用场景中的普及,从软件开发、办公自动化,到智能制造、智慧城市,深刻改变人机协作的方式。
9.3 挑战与思考
- 算力与成本:如何进一步降低模型训练和推理的成本。
- 安全与伦理:如何确保模型的行为符合安全规范和法律法规。
- 人才与教育:如何培养更多具备AI素养的复合型人才。
更多推荐


所有评论(0)