[特殊字符]开源编程新王诞生,对标Claude Sonnet 4.5?实测GLM-4.7:Coding和Agentic能力直逼Gemini 3和Claude 4.5
折腾了一圈下来,说说我的真实感受:GLM-4.7的前端能力确实不错,从简单的SVG动画到复杂的3D游戏都能一次跑通,代码组织能力和工程实现能力在开源模型里算是第一梯队。工具调用稳定,iOS原生开发也能应付,综合编程能力比上一代有明显提升。当然,基准测试里那些"超越GPT-5.1"、"领先Claude Sonnet 4.5"的说法,还是要打个问号。毕竟基准测试和实际使用场景差异很大,而且不同任务表现
昨天凌晨,智谱AI悄悄放了个大招——发布了最新的开源大模型GLM-4.7。
🔥🔥🔥本篇笔记所对应的视频:https://www.bilibili.com/video/BV1UTBKBxESA/
说"悄悄"是因为这年头新模型实在太多,大家早就审美疲劳了。但这款模型有点不一样,358B参数的MoE架构,关键是MIT开源协议——这意味着你拿去商用都没问题。
光看参数和协议没意思,模型好不好用,还得实测才知道。我花了几个小时把这款模型从简单到复杂折腾了一遍,下面跟大家聊聊真实的使用感受。
先说说官方给的成绩单
在看实测之前,简单过一下官方公布的基准测试数据。
数学竞赛这一项,GLM-4.7拿了95.7分,直接超过了GPT-5.1。代码能力方面,超过了DeepSeek 3.2和Claude Sonnet 4.5。科学推理、复杂推理这几个维度,基本都是同样的结果——比DeepSeek 3.2强,跟Claude Sonnet 4.5打得有来有回,部分指标还有明显优势。
当然,基准测试这东西,大家心里都清楚,参考价值有限。真正好不好用,还是得拉出来遛遛。
第一轮:前端能力试水
一句话生成太阳系动画
先从简单的开始。我在官方网页版输入了一句话:"用SVG生成模拟太阳系的动画"。
结果确实让我有点意外。它不仅画出了八大行星围绕太阳公转的动画,而且动画相当流畅。放大之后能看到行星的运行轨迹,月球绕着地球转,土星还带着光环。
就这么简单的一句提示词,能出这个效果,前端基础能力是过关的。
冒泡排序可视化
接下来加点难度。我让它创建一个冒泡算法的动画演示,要求画面里有12颗大小不同的小行星,还有一艘指挥舰来执行排序操作。
这个任务其实挺考验综合能力的——算法理解、前端实现、动画设计、交互逻辑,缺一不可。
最终效果:点击开始后,指挥舰会在小行星上方移动,发现左侧的小行星比右侧大,就执行交换。整个过程有状态提示,显示"正在比较"或"正在交换",运行全程没有报错。
到这里,基本的前端+算法能力算是验证通过了。
3D恐龙狩猎游戏
然后是真正的硬菜——让它从零开发一个3D风格的恐龙狩猎游戏。
要求挺复杂的:玩家操控一辆装有机枪的皮卡车,用鼠标瞄准射击恐龙,键盘控制车辆移动。场景要有侏罗纪风格,原始森林、高大植物、岩石、河流、火山,还要有雾气效果。
坦白讲,发出这个提示词的时候,我没抱太大期望。这种需求涉及3D图形渲染、物理碰撞检测、AI行为系统、多模态交互,一般的模型做出来要么跑不起来,要么就是一堆报错。
结果出乎意料——游戏真的能玩。皮卡车可以用键盘控制移动,鼠标瞄准射击。远处会刷新恐龙,小型恐龙两三枪就倒,大型恐龙要多打几枪。开枪后恐龙还会逃跑,打死后尸体会消失。远处能看到山脉和雾气效果,游戏结束后会显示得分。
能一次跑通这么复杂的游戏项目,说明它对大规模代码组织和系统性工程实现的能力确实不弱。
数学推导动画
接着测试了数学能力。让它创建一个演示圆面积公式推导过程的交互动画。
这个任务的难点在于把抽象的数学概念变成直观的视觉呈现。需要理解极限思想,还要把圆切割、重排成近似长方形的过程用动画展示出来。
最终效果很不错。可以设置切割数量,比如切成64份,然后看着这64个扇形被分开、重组成一个近似的长方形,高是半径r,底边是πr。下面还有文字解释切割原理、重排原理、极限思想,公式推导一目了然。
这种把复杂概念可视化的能力,在教育场景下应该挺有价值的。
PPT自动生成
最后试了一下让它根据网页内容自动生成PPT。给了一个GLM-4.7的官方介绍链接,让它直接做成演示文稿。
生成的PPT有模型介绍、核心特性、基准测试数据、三大思考模式、使用方法、产品优势等内容,还自动配了代码截图和数据图表。
作为一键生成的初稿,效果算是及格线以上,拿来稍作修改就能用。
第二轮:Claude Code接入测试
前端能力测完了,接下来试试在Claude Code中调用这款模型,测试它的工具调用能力和复杂编程能力。
配置方法
接入方式很简单,三条命令搞定:设置Base URL、API Key、模型ID。海外用户可以通过z.ai平台获取API,国内用户用BigModel平台。
启动Claude Code后,模型ID显示为GLM-4.7,说明接入成功。
浏览器自动化测试
这部分使用了谷歌官方的Chrome DevTools MCP来测试浏览器自动化能力。
任务是:访问我的博客,点击进入前三篇文章,提取内容,然后改写成适合发X(原Twitter)的短文案。
整个过程看着它自动打开浏览器,点击第一篇博客、返回首页、点击第二篇、返回、点击第三篇,然后提取内容进行改写。最终输出了三篇带emoji表情和标签的X Post,运行速度也挺快。
工具调用能力没问题。
终极测试:iOS原生APP开发
压轴的是一个难度拉满的任务——开发一款iOS原生背单词APP。
要求支持iOS 17+、Swift 5.9、SwiftUI、SwiftData、Swift Charts等技术栈。功能包括:首页展示学习进度、单词卡片支持正反面3D翻转动画、练习测试模块、学习进度统计图表、设置模块等。
先用Xcode初始化一个空项目,然后在Claude Code中执行init命令生成CLAUDE.md文件,让它理解项目结构。接着进入计划模式,粘贴完整需求,让它制定开发计划并执行。
等了大概十多分钟,它完成了开发。然后我又让它把显示语言改成中文。
在Xcode中运行,编译成功。测试结果:可以滑动卡片切换单词,点击翻转查看中文释义,点击"已掌握"后自动切换下一个单词,有每日目标显示,练习和进度模块也能正常使用。
唯一没实现的是设置功能,不过让它继续补充应该问题不大。
能在十几分钟内完成一个功能相对完整的iOS原生应用,这个复杂编程能力确实有点东西。
几个值得关注的特性
除了实测体验,GLM-4.7还有几个设计上的亮点值得一提:
三种思考模式。Interleaved Thinking是在每次响应和工具调用前先思考;Preserved Thinking是在多轮对话中保留之前的思考过程,不用每次从头推导;Turn-level Thinking是支持按轮次控制是否启用思考,简单问题关掉思考降低延迟,复杂任务打开提高准确性。
这种设计对长链路、多步骤的Agent任务应该挺有帮助,能减少信息丢失和前后不一致的问题。
上下文和输出限制。200K的上下文窗口,128K的最大输出长度,做复杂项目的时候不太容易撑爆。
开源友好。权重在HuggingFace和ModelScope都能下载,支持vLLM和SGLang本地部署,MIT协议商用无压力。
总结
折腾了一圈下来,说说我的真实感受:
GLM-4.7的前端能力确实不错,从简单的SVG动画到复杂的3D游戏都能一次跑通,代码组织能力和工程实现能力在开源模型里算是第一梯队。工具调用稳定,iOS原生开发也能应付,综合编程能力比上一代有明显提升。
当然,基准测试里那些"超越GPT-5.1"、"领先Claude Sonnet 4.5"的说法,还是要打个问号。毕竟基准测试和实际使用场景差异很大,而且不同任务表现可能差别也不小。
但不管怎么说,作为一款MIT协议的开源模型,能做到这个水平,对开发者来说是个好消息。毕竟有竞争才有进步,开源生态越卷,大家的选择就越多。
想试试的可以去z.ai(海外)或BigModel平台(国内)体验网页版,也可以在Claude Code里通过API调用。本地部署的话,HuggingFace上有权重可以下载。
更多推荐



所有评论(0)