📝 一、引言:从“对话”到“执行”的跃迁

1.1 大模型进入“工程化 Agent”阶段

2025年,大语言模型(LLM)的竞争焦点已从单纯的对话质量,转向了复杂任务执行工程化落地能力。市场更关注模型能否真正“把活干完”,尤其是在软件工程、数据分析、自动化办公等场景中,模型需要能够理解需求、拆解任务、调用工具并修正错误,直至任务完成。

1.2 GLM-4.7 的定位

GLM-4.7 正是智谱AI在这一背景下推出的新一代旗舰模型,于2025年12月23日发布并开源。它并非简单的参数升级,而是一次面向“Agentic Coding”和“复杂推理”的系统性跃迁,旨在将模型从“答得对”推向“做得完”。

  • 核心目标:强化编码、长程任务规划与工具协同能力。
  • 技术基石:引入“交织式思考”、“保留式思考”等可控推理机制。
  • 能力拓展:提升前端审美与UI生成能力,支持多模态任务规划。
1.3 文章结构概览

本文将围绕GLM-4.7展开,深入探讨其技术架构、能力评测、推理机制、Agent应用、部署实践及产业影响,旨在为读者提供一个全面、深入的理解框架。


📊 二、GLM-4.7 概览:定位、发布与生态

2.1 基本信息
  • 发布方:智谱AI(Zhipu AI),源于清华大学技术成果转化。
  • 发布时间:2025年12月23日。
  • 模型类型:通用大语言模型,重点强化编程与推理能力。
  • 模型架构:基于Transformer的混合专家(MoE)架构,总参数约400B,激活参数约20B–30B。
  • 上下文窗口:支持约200K输入tokens和128K输出tokens。
2.2 发布与开源

GLM-4.7在发布当日即通过BigModel.cn开放API,并上线z.ai全栈开发模式的Skills模块。其开源策略迅速获得了全球开发者的积极响应,在Hugging Face全球趋势榜上登顶,并被Vercel、Kilo Code、Cline等多个海内外平台宣布接入。

2.3 智谱AI与GLM家族

智谱AI自2019年成立以来,始终专注于通用人工智能(AGI)研究。GLM-4.7是其GLM-4系列的重要升级,标志着该系列从通用对话模型向“工程化Agent基石模型”的演进。2026年1月8日,智谱AI在香港联交所主板上市(股票代码:2513),GLM-4.7被视为其技术实力的关键体现。

2.4 生态与产业支持

GLM-4.7的快速发展得益于完善的生态系统和产业支持。其架构已适配40余款国产芯片,并与北京市公共算力平台等合作,为模型训练提供了坚实基础。


🏗️ 三、技术架构:为Agent而生的MoE设计

3.1 整体架构:GLM家族的延续与演进

GLM-4.7延续了GLM系列的自回归Transformer架构,并针对编程和推理任务进行了深度优化。其核心是混合专家(MoE)架构,通过门控网络将输入分配给不同的“专家”子网络,在保持强大能力的同时有效控制了推理成本。

3.2 上下文与输出能力:支持长链路Agent

GLM-4.7支持约200K的输入上下文和128K的输出长度,这一特性对于处理长文档、分析大型代码库和执行多步骤的复杂任务至关重要,为Agent的“长链路执行”提供了可能。

3.3 模态策略:文本核心,多模态协同

GLM-4.7定位为文本大模型,其强大的视觉理解能力主要由GLM-4V系列模型承担。在z.ai平台,GLM-4.7作为“决策大脑”,负责理解用户意图、规划任务流程,并协同调度GLM-4V(视觉)、ASR(语音识别)、TTS(语音合成)等多模态能力,实现统一的多模态任务规划与协作。

3.4 训练范式:从“预训练+微调”到“强化学习工程化”

GLM-4.7的训练不仅依赖于大规模的预训练和指令微调,更引入了基于可验证奖励的强化学习(RLVR)框架Slime。该框架将任务执行、结果验证、奖励计算和策略更新整合成一条自动化的工程流水线,持续打磨模型在复杂任务中的表现。


📈 四、能力评测:代码、推理与工具的全面领先

4.1 编码能力:开源模型的佼佼者

GLM-4.7在多个权威编码基准测试中表现卓越,被誉为“国产开源编程天花板”。

  • SWE-bench-Verified:得分73.8%,位列开源第一,超越GPT-5.1 High和Claude Sonnet 4.5。
  • LiveCodeBench V6:得分84.9分,刷新开源SOTA纪录,超越Claude Sonnet 4.5。
  • Code Arena:在百万用户盲测中位列开源第一、国产第一,综合表现超越GPT-5.2。
4.2 推理与数学能力:逼近顶尖闭源模型

GLM-4.7在数学和复杂推理方面同样表现出色,在多项高难度测试中达到或接近顶尖水平。

  • HLE (Humanity’s Last Exam):得分42.8%,较上一代提升41%,超越GPT-5.1 High。
  • GPQA-Diamond:得分85.7%,与Gemini 3 Pro等顶级闭源模型相当。
  • 数学竞赛:在AIME 2025、HMMT等竞赛基准上取得高分,展现了强大的形式推理能力。
4.3 工具调用与Agent能力:交互式任务新标杆

GLM-4.7在工具调用和多步交互任务中表现突出,是构建高效Agent的关键。

  • τ²-Bench:交互式工具调用评测得分87.4分,刷新开源SOTA纪录。
  • BrowseComp:网页浏览与信息检索任务得分显著提升,在复杂网页操作场景中表现优异。
4.4 综合智能榜单:开源与国产双料第一

在Artificial Analysis Intelligence Index榜单中,GLM-4.7以68分的综合成绩位列全球第六,同时在开源模型和国产模型分类中均排名第一,超越了Claude 4.5 Sonnet、Grok 4等国际知名模型。

4.5 前端审美与UI生成:从“能用”到“好用”

GLM-4.7在前端代码生成和UI设计方面取得了显著进步,能够生成观感更佳的网页和PPT。

  • PPT 16:9适配率:从52%跃升至91%。
  • 网页布局:结构更干净,组件层级更清晰,审美显著提升。

🧠 五、推理机制:交织、保留与轮级的思考模式

5.1 从“黑箱生成”到“可控推理”

GLM-4.7将“思考过程”作为模型输出的一部分进行显式建模,通过“先思考,再行动”的模式,显著提升了复杂任务的稳定性和可控性。

5.2 交织式思考 (Interleaved Thinking)

在每次生成回答或调用工具前,模型都会先生成一段推理轨迹(Thought Trace),用于规划、验证和反思。这一机制有效减少了“幻觉调用”和参数错误。

5.3 保留式思考 (Preserved Thinking)

在多轮对话的复杂任务中,模型会自动保留之前的思考模块,避免重复推理,确保长程任务的一致性和效率。

5.4 轮级思考 (Turn-level Thinking)

用户可以根据任务的复杂度,按“轮”控制模型的推理开销。简单任务可关闭思考模式以降低延迟和成本,复杂任务则开启思考模式以确保质量。

5.5 思考模式对比
思考模式 核心机制 主要优势 适用场景
交织式思考 在每次行动前生成推理轨迹 减少错误调用,提升规划质量 所有需要推理的任务
保留式思考 跨多轮对话保留思考结果 避免重复推理,保障长程一致性 长周期复杂工程任务
轮级思考 按对话轮次控制推理开关 灵活平衡性能与成本 混合复杂度的工作流
5.6 对Agent工作流的影响

这些思考模式使GLM-4.7能够胜任复杂的Agent工作流,如多步工具调用、长程规划和自我修正,真正从“聊天机器人”进化为“任务执行者”。


🤖 六、Agent应用:从编码到多模态协同

6.1 Agentic Coding:从0到1与从1到100

GLM-4.7在“Agentic Coding”场景中表现卓越,能够胜任从零构建项目和在现有工程中迭代优化的全流程任务。

  • 0到1:项目初始化
    能够根据自然语言需求,端到端生成完整可运行的前后端项目,包括代码、配置和文档。
  • 1到100:工程迭代
    能够理解现有代码库,完成Bug修复、功能扩展、代码重构和性能优化等任务。
6.2 多模态Agent:统一规划与协同

在z.ai平台,GLM-4.7作为“总指挥”,能够理解包含文本、图像、语音的多模态指令,并协同调度视觉、语音等多种能力,完成跨模态的复杂任务。

6.3 移动端Agent:AutoGLM 2.0

智谱的AutoGLM 2.0应用了GLM-4.7的Agent能力,通过“API+GUI”混合模式,能在移动设备上执行长达40步的复杂操作,如自动查询攻略、比价下单等,已覆盖约8000万台终端。

6.4 行业应用案例

GLM-4.7正被广泛应用于电商、金融、工业等多个行业,用于构建智能客服、自动化测试、代码审计等Agent应用,有效提升了业务效率和质量。


⚙️ 七、部署与实践:从云端API到本地部署

7.1 云端API调用

开发者可通过智谱AI的BigModel.cn平台或z.ai全栈开发模式调用GLM-4.7。其API接口兼容OpenAI格式,并支持通过extra_body参数精细控制思考模式等高级功能。

7.2 本地与私有化部署

GLM-4.7支持通过vLLM、SGLang等主流推理框架进行本地或私有化部署,便于企业在自有环境中使用。

  • vLLM部署示例
    bash
    vllm serve zai-org/GLM-4.7-FP8
    –tensor-parallel-size 8
    –tool-call-parser glm47
    –reasoning-parser glm45
    –enable-auto-tool-choice
    –served-model-name glm-4.7-fp8

  • SGLang部署示例
    bash
    python3 -m sglang.launch_server
    –model-path zai-org/GLM-4.7-FP8
    –tp-size 8
    –tool-call-parser glm47
    –reasoning-parser glm45
    –speculative-algorithm EAGLE
    –speculative-num-steps 3
    –speculative-eagle-topk 1
    –speculative-num-draft-tokens 4
    –mem-fraction-static 0.8
    –served-model-name glm-4.7-fp8
    –host 0.0.0.0
    –port 8000

  • 开启保留式思考模式 (SGLang)
    json
    {
    “chat_template_kwargs”: {
    “enable_thinking”: true,
    “clear_thinking”: false
    }
    }

7.3 提示词工程建议

为充分发挥GLM-4.7的能力,建议根据具体任务调整参数:

  • 复杂Agent任务
    • temperature: 0.7
    • top-p: 1.0
    • max_new_tokens: 16384
    • 开启保留式思考模式
  • 一般对话/写作
    • temperature: 1.0
    • top-p: 0.95
    • max_new_tokens: 131072

🌐 八、产业影响:国产大模型的崛起

8.1 技术实力:跻身全球第一梯队

GLM-4.7在多个国际权威评测中取得开源与国产双料第一的成绩,标志着中国大模型技术已跻身全球第一梯队,具备了与国际顶尖模型同台竞技的实力。

8.2 产业生态:推动AI工程化落地

GLM-4.7的开源和广泛应用,正在推动AI从“实验室Demo”走向“生产级应用”。其高性价比的API服务和强大的Agent能力,为中小企业提供了低成本、高效率的智能化转型方案。

8.3 国产化与自主可控

GLM-4.7已适配40余款国产芯片,并在国产算力平台上完成训练,为我国在AI领域实现技术自主可控奠定了坚实基础。


🚀 九、未来展望:通往AGI之路

9.1 技术演进方向
  • 更强的通用推理能力:在数学、逻辑等领域实现更深层次的突破。
  • 更高效的推理机制:在保证质量的同时,降低长链路思考的成本。
  • 更深度的多模态融合:实现文本、图像、语音、视频等信息的无缝理解与生成。
  • 更智能的Agent生态:构建更自主、更可靠的Agent协作框架。
9.2 应用深化与普及

GLM-4.7将推动AI Agent在更多行业和应用场景中的普及,从软件开发、办公自动化,到智能制造、智慧城市,深刻改变人机协作的方式。

9.3 挑战与思考
  • 算力与成本:如何进一步降低模型训练和推理的成本。
  • 安全与伦理:如何确保模型的行为符合安全规范和法律法规。
  • 人才与教育:如何培养更多具备AI素养的复合型人才。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐