[实战评测]GLM Coding Plan + GLM-4.6V

cairy

3475人浏览 · 2025-12-14 20:30:56

cairy · 2025-12-14 20:30:56 发布

前言

正文开始前，容我先唠叨几句。

重度使用 GLM Coding Plan 快一个季度了，它彻底改变了我的编程生涯。以前总担心年纪大了写不动代码，现在好了——搭配国内顶尖大模型 GLM-4.6，再配上性价比爆表的 GLM Coding Plan，我感觉能一直 Coding 到退休！

目前，国内其他大模型厂商还在按 Token 收费，而智谱是真的敢为人先：直接按 Prompt 次数计费——无论上下文多长、Token 多少，一次提问就是一次，彻底解决开发者后顾之忧。全年不到 200 块，就能拥有一个“万能编程导师”，这还不赶紧冲？

🚀 速来拼好模，智谱 GLM Coding 超值订阅，邀你一起薅羊毛！Claude Code、Cline 等 10+ 大编程工具无缝支持，“码力”全开，越拼越爽！立即开拼，享限时惊喜价！

链接：https://www.bigmodel.cn/claude-code?ic=YAE08BE9BV

GLM-4.6V 信息汇总

GLM-4.6V 系列包含两个主要版本：GLM-4.6V（106B-A12B）和 GLM-4.6V-Flash（9B），它们在能力、应用场景和部署方式上有明显区别。以下是它们各自的核心能力与适用场景总结：

GLM-4.6V（106B-A12B）——高性能云端大模型

核心能力：

高精度多模态理解：在视觉理解（图像、视频、图文混合）方面达到同参数规模的 SOTA（State-of-the-Art）水平。
超长上下文支持：训练上下文窗口达 128K tokens，可处理超长文档、多文件、长视频等复杂输入。
原生 Function Call（函数调用）能力：可自主调用外部工具/API，实现任务自动化（如分析财报、生成前端代码等）。
专用 MCP 工具支持：针对8大类用户场景（如内容创作、编程、办公等）提供专用工具接口，模型可自动选择最匹配的工具。
强大的内容生成能力：
- 图文混排创作：根据一句话提示，自动生成带配图的完整文章。
- 长文档/多文档分析：如对比分析四家公司的120页财报。
- 视频理解与拉片：能解析23分钟视频，提取核心观点、分镜结构、生成提示词。
- 网页前端复刻：上传网页截图，自动生成 HTML/CSS/JS 代码，还原页面布局（不含复杂动画）。

适用场景：

云端部署、高性能计算集群
企业级应用（如智能客服、内容生产、数据分析）
对精度、上下文长度、多模态融合要求高的任务

使用方式：

通过 API 调用（输入1元/百万 tokens，输出3元/百万 tokens）

GLM-4.6V-Flash（9B）——轻量高效本地模型

核心能力：

具备 GLM-4.6V 的核心多模态能力（图像理解、图文生成、视频分析、Function Call 等），但模型规模更小。
低延迟、低资源消耗，适合边缘设备或本地部署。
同样支持图文混排、视频理解、网页复刻等功能，但处理复杂度和精度略低于大模型。

适用场景：

本地 PC / 移动端部署
对响应速度要求高、但算力有限的场景（如个人开发者、小团队）
快速原型验证、轻量级自动化任务

使用方式：

免费开放使用（可通过智谱官网 https://chat.z.ai 体验）
支持本地集成（适合嵌入到桌面或移动端应用）

总结对比

能力/特性	GLM-4.6V（106B）	GLM-4.6V-Flash（9B）
模型规模	106B（A12B架构）	9B
上下文长度	128K tokens	128K tokens（推理支持）
多模态能力	SOTA 级别	良好，略有缩水
Function Call	原生支持，自动工具调用	支持
部署方式	云端/API/自部署	本地/轻量部署
成本	API收费（低价）	免费
适用对象	企业、高要求开发者	个人、小团队、快速试用

GLM-4.6V MCP

官方文档

https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server

一键安装方式

claude mcp add -s user zai-mcp-server --env Z_AI_API_KEY=your_api_key -- npx -y "@z_ai/mcp-server"

调用额度

调用额度还是有限制的，以月度为单位

Lite 套餐：联网搜索 MCP 和网页读取 MCP 每月合计 1 百次，达到上限后当月无法调用；视觉理解 MCP 共享套餐的 5 小时最大 prompt 资源池，达到上限后会在 5 小时周期后恢复额度。
Pro 套餐：联网搜索 MCP 和网页读取 MCP 每月合计 1 千次，达到上限后当月无法调用；视觉理解 MCP 共享套餐的 5 小时最大 prompt 资源池，达到上限后会在 5 小时周期后恢复额度。
Max 套餐：联网搜索 MCP 和网页读取 MCP 每月合计 4 千次，达到上限后当月无法调用；视觉理解 MCP 共享套餐的 5 小时最大 prompt 资源池，达到上限后会在 5 小时周期后恢复额度。

支持的工具

ui_to_artifact

将 UI 截图转换为代码、提示词、设计规范或自然语言描述，覆盖从前端落地到生成式设计提示的全流程

extract_text_from_screenshot

使用先进的 OCR 能力从截图中提取和识别文字。专门用于代码、终端输出、文档和通用文本的提取

diagnose_error_screenshot

解析错误弹窗、堆栈和日志截图，给出定位与修复建议

understand_technical_diagram

针对架构图、流程图、UML、ER 图等技术图纸生成结构化解读

analyze_data_visualization

阅读仪表盘、统计图表，提炼趋势、异常与业务要点

ui_diff_check

对比两张 UI 截图，识别视觉差异和实现偏差。专门用于 UI 质量保证和设计到实现的验证

image_analysis

通用图像理解能力，适配未被专项工具覆盖的视觉内容

video_analysis

支持 MP4/MOV/M4V(限制本地最大8M) 等格式的视频场景解析，抓取关键帧、事件与要点

Coding Plan +GLM-4.6V MCP实战

从效果图到代码

为了提高难度，我们不提供原始网站，我们从google image找一张看板大图，让他来复现看看

ui_to_artifact

直接使用工具名称触发调用GLM-4.6V，直接让出设计稿，再根据设计稿来实现各个模块

触发成功，这个就是大模型掉大模型的好处，他根据自然语言帮我们提取了专业的prompt，给GLM 4.6V

"Extract comprehensive design specifications for this cross-border e-commerce operations dashboard, including layout structure, data visualization components, color scheme, typography, and all UI elements.:

第一次分析完后，自动触发第二次分析

整轮耗时3分钟左右，输出了详细的设计方案(配色方案/字体规范/间距系统/阴影与边框)、组件详细说明("组件详细说明"、布局规范、交互模式、实现注意事项(网页前端框架)

开始复刻

第一个版本效果，还是跟原图有点小差距，但是功能上基本都有了，我们再用GLM-4.6V的ui_diff_check工具调调优一次

ui_diff_check 纠偏最终实现效果跟设计草图一样

上另外一个工具GLM V4.6 ui_diff_check工具，让大模型继续干活

开始干活了，找到了9个差异点

干完活了，很有信心

emm... 更好看了一些了，但是跟设计草图还是不一致

自然语言描述，告知差异

直接用自然语言描述，让大模型自己调用工具找差异

每次优化完都很乐观，但确实有改进

好像，跑偏了.....又仔细看了下原图，发现了视觉大模型发现了我们没有发现的细节，其实原图也是几个模块拼接在一起的，只是肉眼不认真看发现不了，这轮改的可以，但是颜色不行，我们再来一轮

颜色优化，收工

最终效果，100分，可以打100分，肯定不是模型问题，是自己用的方式不正确

查彩票有没有中奖

这个需要多个MCP配合

调用第二个工具

查询具体规则

感人，11月9日买的一张彩票一直没有去核对有没有中奖，喜提6元大奖

经营情况分析

以理想的运营利利润图标为例

进一步总结下

财报解读

财报解读这种工作其实比较适合web界面交互，上传文档，不断调整prompt进行提问追问。

放在Coding Plan中使用，优势在于，可以便捷整理成markdown文档

调用本地工具转换成了图片

最后结果

从UI草图到Android App

从网上随便找了个3个页面的草图设计，我们来验证两个工具的应用，ui_to_artifact/diagnose_error_screenshot

分析草图，输出方案

@1.png 根据设计草图，帮我实现下Android程序

分析结果

约束下生成UI，实现跳转

只要帮我实现代码，并且完成不同界面的UI跳转就好，应用逻辑细节可以后续再处理

理解到位，剩下就是自动生成代码，不断纠错的过程

新建构建脚本

新建一个build.sh脚本，实现构建/安装(adb install -r )/apk运行

构建加速

``` distributionUrl=https\://services.gradle.org/distributions/gradle-8.2-bin.zip``` 替换成腾讯云镜像地址

第一版本效果验收

咦，跟草图有点不一样

重新修正

@1.png ui_to_artifact 重新分析下草图

第二版本效果验收

第三版本上色

第二个版本已经跟草图基本一致了，布局都非常好，还差点色彩，我让大模型继续润色

功能正常，新功能优化，现在界面底色都是白色的，请对界面颜色进行重新优化，让人看起来更加舒服

颜色问题分析结论

看效果，审美上来了，但还可以继续优化

第四个版本UI风格优化

配色OK，首页的上面2个标签有些字体看不见了（字体颜色问题），第二个页面，看起来都是文字贴上去，没有分割感，看起来有点难受，你可以调用adb 截图分析

终版效果，非常满意

总结

2025年，堪称码农生产力革命元年——AI以前所未有的速度重构开发范式：从智能编码助手到端到端系统生成，从自然语言驱动调试到多模态协同设计，曾经繁复的工程细节正被抽象为高阶意图。短短数年，我们从“写代码”迈向“描述需求”，从“调试错误”转向“引导智能”。这不仅是工具的进化，更是人机协作边界的重塑。站在浪潮之巅，唯有持续学习，方能在AI赋能的新生产力时代保持领先。

在AI时代，技术人亟需主动调整航向——与其在重复性编码中内卷，不如将重心转向更高价值的创造性工作。AI已能高效完成样板代码、单元测试、文档生成甚至基础系统搭建，这恰恰为我们腾出了宝贵的时间与认知带宽。我们应当更加专注于架构设计的前瞻性与可扩展性，深入理解业务逻辑的本质与演进路径，敏锐挖掘用户未被言明的痛点与潜在需求。毕竟，再强大的模型也无法替代人类对场景的洞察、对权衡的判断，以及对“为什么做”这一根本问题的回答。善用AI作为杠杆，不是取代思考，而是让我们从“如何做”中解放出来，更聚焦于“做什么”和“为何做”——这才是工程师在智能时代不可替代的核心竞争力。

最后，由衷感谢智谱、豆包、通义千问（Qwen）、元宝等大模型厂商的开放与担当。正是你们没有设置技术壁垒、没有实施“熔断式”封闭，也没有以高昂的API价格筑起护城河，才让广大开发者能够平等地拥抱智能时代的技术红利。尤其要向智谱致以特别谢意——作为 Coding Plan 的引领者与实践先锋，你们不仅提供了强大、稳定、低成本的代码生成与推理能力，更以开源精神和开发者友好的生态，真正推动了AI与工程实践的深度融合。正因为有你们的坚持与远见，2025年的码农才能站在“智能副驾”的肩膀上，专注创造，高效交付，迈向生产力跃迁的新纪元。

2年的一点感悟与感叹

回望2023年春节，ChatGPT如惊雷般引爆国内技术圈，彼时的认知还带着几分谨慎甚至无奈：“这东西按字收费，价格不菲，用来编程？恐怕不现实。”主流的声音仍是回归基本功——扎实提升自己的编程能力才是王道。然而，转眼已至2025年底，距离下一个春节仅余两月，曾经的判断早已被时代洪流彻底重塑。如今，AI编程不仅可行，而且高效、精准、触手可及。这一认知的颠覆，并非凭空而来，而是中国互联网大厂持续高强度投入、快速迭代的必然结果：智谱、通义、深度求索等团队不断缩小与OpenAI的技术代差，开源社区更是百花齐放——从代码生成到多模态推理，众多国产开源模型在性能上已逼近甚至比肩闭源SOTA水平。更重要的是，这些能力并未被束之高阁，而是以极低门槛迅速融入开发流程，催生出大量面向真实场景的应用创新：从智能调试助手到全栈原型生成，从需求文档自动转系统架构，再到AI驱动的测试与部署闭环。这种变化，不是简单的工具升级，而是一场深刻的生产力范式迁移。它提醒我们：真正的“基本功”，已从“手写每一行代码”转向“驾驭智能、定义问题、整合资源”——唯有主动适应，才能在这场变革中持续领先。

心动了，那就冲一波

链接：https://www.bigmodel.cn/claude-code?ic=YAE08BE9BV