12月22日,智谱AI发布了GLM-4.7。这不只是常规版本更新,而是一个信号——开源模型在编程、推理和工具调用等关键能力上有了显著进展。

图片

距离GPT 5.2发布仅20天,GLM-4.7就随之而来。官方公布的测试数据显示,这个版本在编程、推理与智能体三个维度取得了新的进展,并在多项国际基准测试中位居前列。对国内开发者而言,这意味着一个编程效率更高、成本更可控的AI编程伙伴。LiveCodeBench v6、GPQA-Diamond、HLE、SWE-bench Verified等8项权威基准测试中的性能表现,对标GPT-5.1、Claude Sonnet 4.5、DeepSeek-V3.2等国际顶尖模型。

图片

编码能力:从追赶到齐驾

编程一直是GLM系列的主打方向,GLM-4.7在这一领域表现尤为抢眼。

官方测试数据显示,GLM-4.7在多项权威基准测试中取得显著成绩。在Code Arena(全球百万用户参与的盲测编码系统)中,GLM-4.7的排名位居开源模型前列。在SWE-Bench Verified上,GLM-4.7达到73.8%的分数;在LiveCodeBench V6获得84.9%,处于行业较高水平。对真实工业场景更有参考意义的SWE-bench Multilingual上,GLM-4.7达到66.7%(相比前代提升12.9%);Terminal Bench 2.0达到41%(提升16.5%)。

这些数据体现了什么?GLM-4.7可以在Claude Code、Cursor、Cline等主流编程框架中适配,支持"先思考、再行动"的工作机制,在复杂编程任务上稳定性有所改善。开发者感受到的,是多语言编码效率提升了——前端开发、后端架构、算法实现,GLM-4.7都能给出有参考价值的建议。

图片

思考模式进化:灵活的性能与成本平衡

除了编程能力,GLM-4.7在思考模式上也有了新的核处理配置。官方引入了三种思考模式:交错式、保留式和轮级思考。

交错式思考让模型在应答前会先思考。保留式思考在多轮对话中自动保留思考块,降低成本。轮级思考则允许你按需打开——简单任务可关闭thinking模式降低延迟,复杂任务才打开以提升准确性。

这个设计的妙处在于,开发者可根据场景灵活调整模型的思考深度,在性能和成本间找到平衡。在实际编程任务测试中,GLM-4.7相比前代在稳定性与交付性上都有改善。

推理与工具调用:开源模型的能力扩展

推理能力是衡量大模型智能水平的重要指标,GLM-4.7在这一领域的进步很显著。

在"人类最后的考试"(Human-Level Exam)的基准测试中,GLM-4.7获得42.8%的成绩,相比前代GLM-4.6提升显著。工具调用能力也表现出色。在BrowseComp网页任务评测中,GLM-4.7获得67.5分;在τ²-Bench交互式工具调用评测中实现87.4分的成绩。这说明GLM-4.7能通过调用外部工具(如API、数据库、搜索引擎)来完成复杂任务。

在综合任务执行上,GLM-4.7展现出强大的任务拆解能力。官方案例中,GLM-4.7能独立完成高交互的小游戏代码(如植物大战僵尸、水果忍者),并能一次性给出完整、可运行的代码。

前端审美与设计提升

除了编程性能,GLM-4.7在视觉设计上也有了显著进步。

模型增强了对视觉代码的理解。在前端设计中,GLM-4.7对UI设计规范的理解更细致,在布局结构、配色和辅助样式上提供更优易的方案。用户反馈表示样式调整耗时减少了。

这个进步在办公创作中最为明显。PPT 16:9适配率从前版本的52%提升至91%,生成结果基本可以直接使用。海报设计的排版与配色也更加灵活。这对初创团队和个人创业者而言是实实在在的效率提升。

生态与获取:开发者的全方位支持

GLM-4.7并非单纯的模型升级,而是完整的生态升级。

GLM-4.7已通过BigModel.cn提供API,并在z.ai全栈开发模式中上线Skills模块。这个模块内置了智谱多模态全家桶(GLM-4.6V、GLM-ASR、GLM-TTS等),支持多模态任务的统一规划与协作,帮助开发者构建交互更丰富的应用。

对于有商业需求的开发者,GLM Coding Plan已更新为GLM-4.7。这个订阅计划在性能、速度与价格方面获得用户认可。Claude Code全面支持思考模式,复杂任务执行更稳定;内置搜索与网页读取,形成信息获取到代码落地的闭环;架构设计与指令遵循更强。

此外,全球开发者社区的反馈也相当积极。TRAE中国版已集成GLM-4.7;YouWare等编码产品都反馈GLM-4.7在前端设计美学、复杂功能完成度上有改善。

与国际模型的对比

GLM-4.7的发布避免不了与国际顶尖模型的对标。GLM-4.7与OpenAI GPT-5.2、Anthropic Claude之间存在明显的优劣势。

GLM-4.7的优势在于编程能力和开源生态。代码生成的稳定性,以及作为开源模型的可控性,这些对希望自主部署、掌握数据隐私、降低长期成本的企业而言很有吸引力。

需要承认的是,在超长上下文和多模态能力方面,GLM-4.7与Gemini 3 Pro相比存在差距。Gemini 3 Pro拥有更大的上下文窗口。GPT-5.2在多模态能力上也更全面。

不过在编程和推理为核心的场景中,GLM-4.7的价值已经相当明显。国产AI企业通过GLM-4.7这样的产品,展现了在通用大模型竞争中的能力。对用户的启示

GLM-4.7的发布带来了几个值得思考的现象。

开源模型与闭源模型的差距在缩小。这不是说开源已经完全追平,而是在特定领域(如编程),开源模型已经能展现竞争力。这对整个AI生态是好事——更多选择意味着用户有更大的议价权。

国产AI的国际竞争力正在提升。虽然起步较晚,但智谱、字节等企业通过持续投入和迭代,已经能在国际舞台上展现实力。

对开发者而言,这是好消息。更多优质的开源模型,意味着有更灵活的技术选择;更激烈的竞争,推动了整个行业的进步。

对有长期编程需求的团队,GLM-4.7可以考虑一试。对关注国产AI进展的观察者,GLM-4.7是值得关注的产品进展。

图片

社区地址

OpenCSG社区:https://opencsg.com/models/zai-org/GLM-4.7

hf社区:https://huggingface.co/zai-org/GLM-4.7

关于 OpenCSG

OpenCSG 是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps是人工智能领域的一种AI原生方法论,由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

图片

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐