[特殊字符]开源编程新王诞生，对标Claude Sonnet 4.5？实测GLM-4.7：Coding和Agentic能力直逼Gemini 3和Claude 4.5

折腾了一圈下来，说说我的真实感受：GLM-4.7的前端能力确实不错，从简单的SVG动画到复杂的3D游戏都能一次跑通，代码组织能力和工程实现能力在开源模型里算是第一梯队。工具调用稳定，iOS原生开发也能应付，综合编程能力比上一代有明显提升。当然，基准测试里那些"超越GPT-5.1"、"领先Claude Sonnet 4.5"的说法，还是要打个问号。毕竟基准测试和实际使用场景差异很大，而且不同任务表现

AI超元域

438人浏览 · 2025-12-23 19:15:57

AI超元域 · 2025-12-23 19:15:57 发布

昨天凌晨，智谱AI悄悄放了个大招——发布了最新的开源大模型GLM-4.7。

🔥🔥🔥本篇笔记所对应的视频：https://www.bilibili.com/video/BV1UTBKBxESA/

说"悄悄"是因为这年头新模型实在太多，大家早就审美疲劳了。但这款模型有点不一样，358B参数的MoE架构，关键是MIT开源协议——这意味着你拿去商用都没问题。

光看参数和协议没意思，模型好不好用，还得实测才知道。我花了几个小时把这款模型从简单到复杂折腾了一遍，下面跟大家聊聊真实的使用感受。

先说说官方给的成绩单

在看实测之前，简单过一下官方公布的基准测试数据。

数学竞赛这一项，GLM-4.7拿了95.7分，直接超过了GPT-5.1。代码能力方面，超过了DeepSeek 3.2和Claude Sonnet 4.5。科学推理、复杂推理这几个维度，基本都是同样的结果——比DeepSeek 3.2强，跟Claude Sonnet 4.5打得有来有回，部分指标还有明显优势。

当然，基准测试这东西，大家心里都清楚，参考价值有限。真正好不好用，还是得拉出来遛遛。

第一轮：前端能力试水

一句话生成太阳系动画

先从简单的开始。我在官方网页版输入了一句话："用SVG生成模拟太阳系的动画"。

结果确实让我有点意外。它不仅画出了八大行星围绕太阳公转的动画，而且动画相当流畅。放大之后能看到行星的运行轨迹，月球绕着地球转，土星还带着光环。

就这么简单的一句提示词，能出这个效果，前端基础能力是过关的。

冒泡排序可视化

接下来加点难度。我让它创建一个冒泡算法的动画演示，要求画面里有12颗大小不同的小行星，还有一艘指挥舰来执行排序操作。

这个任务其实挺考验综合能力的——算法理解、前端实现、动画设计、交互逻辑，缺一不可。

最终效果：点击开始后，指挥舰会在小行星上方移动，发现左侧的小行星比右侧大，就执行交换。整个过程有状态提示，显示"正在比较"或"正在交换"，运行全程没有报错。

到这里，基本的前端+算法能力算是验证通过了。

3D恐龙狩猎游戏

然后是真正的硬菜——让它从零开发一个3D风格的恐龙狩猎游戏。

要求挺复杂的：玩家操控一辆装有机枪的皮卡车，用鼠标瞄准射击恐龙，键盘控制车辆移动。场景要有侏罗纪风格，原始森林、高大植物、岩石、河流、火山，还要有雾气效果。

坦白讲，发出这个提示词的时候，我没抱太大期望。这种需求涉及3D图形渲染、物理碰撞检测、AI行为系统、多模态交互，一般的模型做出来要么跑不起来，要么就是一堆报错。

结果出乎意料——游戏真的能玩。皮卡车可以用键盘控制移动，鼠标瞄准射击。远处会刷新恐龙，小型恐龙两三枪就倒，大型恐龙要多打几枪。开枪后恐龙还会逃跑，打死后尸体会消失。远处能看到山脉和雾气效果，游戏结束后会显示得分。

能一次跑通这么复杂的游戏项目，说明它对大规模代码组织和系统性工程实现的能力确实不弱。

数学推导动画

接着测试了数学能力。让它创建一个演示圆面积公式推导过程的交互动画。

这个任务的难点在于把抽象的数学概念变成直观的视觉呈现。需要理解极限思想，还要把圆切割、重排成近似长方形的过程用动画展示出来。

最终效果很不错。可以设置切割数量，比如切成64份，然后看着这64个扇形被分开、重组成一个近似的长方形，高是半径r，底边是πr。下面还有文字解释切割原理、重排原理、极限思想，公式推导一目了然。

这种把复杂概念可视化的能力，在教育场景下应该挺有价值的。

PPT自动生成

最后试了一下让它根据网页内容自动生成PPT。给了一个GLM-4.7的官方介绍链接，让它直接做成演示文稿。

生成的PPT有模型介绍、核心特性、基准测试数据、三大思考模式、使用方法、产品优势等内容，还自动配了代码截图和数据图表。

作为一键生成的初稿，效果算是及格线以上，拿来稍作修改就能用。

第二轮：Claude Code接入测试

前端能力测完了，接下来试试在Claude Code中调用这款模型，测试它的工具调用能力和复杂编程能力。

配置方法

接入方式很简单，三条命令搞定：设置Base URL、API Key、模型ID。海外用户可以通过z.ai平台获取API，国内用户用BigModel平台。

启动Claude Code后，模型ID显示为GLM-4.7，说明接入成功。

浏览器自动化测试

这部分使用了谷歌官方的Chrome DevTools MCP来测试浏览器自动化能力。

任务是：访问我的博客，点击进入前三篇文章，提取内容，然后改写成适合发X（原Twitter）的短文案。

整个过程看着它自动打开浏览器，点击第一篇博客、返回首页、点击第二篇、返回、点击第三篇，然后提取内容进行改写。最终输出了三篇带emoji表情和标签的X Post，运行速度也挺快。

工具调用能力没问题。

终极测试：iOS原生APP开发

压轴的是一个难度拉满的任务——开发一款iOS原生背单词APP。

要求支持iOS 17+、Swift 5.9、SwiftUI、SwiftData、Swift Charts等技术栈。功能包括：首页展示学习进度、单词卡片支持正反面3D翻转动画、练习测试模块、学习进度统计图表、设置模块等。

先用Xcode初始化一个空项目，然后在Claude Code中执行init命令生成CLAUDE.md文件，让它理解项目结构。接着进入计划模式，粘贴完整需求，让它制定开发计划并执行。

等了大概十多分钟，它完成了开发。然后我又让它把显示语言改成中文。

在Xcode中运行，编译成功。测试结果：可以滑动卡片切换单词，点击翻转查看中文释义，点击"已掌握"后自动切换下一个单词，有每日目标显示，练习和进度模块也能正常使用。

唯一没实现的是设置功能，不过让它继续补充应该问题不大。

能在十几分钟内完成一个功能相对完整的iOS原生应用，这个复杂编程能力确实有点东西。

几个值得关注的特性

除了实测体验，GLM-4.7还有几个设计上的亮点值得一提：

三种思考模式。Interleaved Thinking是在每次响应和工具调用前先思考；Preserved Thinking是在多轮对话中保留之前的思考过程，不用每次从头推导；Turn-level Thinking是支持按轮次控制是否启用思考，简单问题关掉思考降低延迟，复杂任务打开提高准确性。

这种设计对长链路、多步骤的Agent任务应该挺有帮助，能减少信息丢失和前后不一致的问题。

上下文和输出限制。200K的上下文窗口，128K的最大输出长度，做复杂项目的时候不太容易撑爆。

开源友好。权重在HuggingFace和ModelScope都能下载，支持vLLM和SGLang本地部署，MIT协议商用无压力。