在GLM-5 Agent上用一张图片制作牛马快跑小游戏
GLM-5 的编码工程能力 “刘哔”。
引言
体验一下刚刚开源的GLM-5基础模型的任务拆解和工程完成能力确实能打,用一张图片尝试跑了一个小游戏,全程托管,效果还行。
一、GLM-5 核心
GLM-5 是智谱(Zhipu AI)于2026年2月正式发布的新一代开源旗舰级基础大模型,标志着大模型技术从“辅助写代码”的氛围编程(Vibe Coding)时代,迈向“自主完成复杂工程任务”的智能体工程(Agentic Engineering)时代。
开源地址:https://github.com/zai-org/GLM-5
该模型在智能体(Agent)、推理与编程(ARC)能力上实现全面跃升,尤其擅长处理端到端的软件工程挑战,在真实开发场景中的使用体验已接近业界顶尖闭源模型 Claude Opus 4.5。模型能力测评在开源文档中也有详细对比。
其核心突破主要体现在以下四个方面:
-
- 更高效的模型架构:引入DSA稀疏注意力机制
GLM-5采用DeepSeek Sparse Attention(DSA)技术,能够根据输入内容动态分配注意力资源,避免对所有词元进行均等计算,从而大幅降低推理和训练成本。这一机制在保持长上下文(最高支持202K token)和深度推理能力的同时,显著提升了效率。得益于此,模型参数规模扩展至7440亿(744B),训练Token数达28.5万亿,为性能跃升奠定基础。
-
- 更快的训练效率:构建异步强化学习基础设施
智谱开发了名为“Slime”的新型异步强化学习(RL)框架,将任务生成过程与模型参数更新解耦,实现并行化训练。这种方式极大缓解了传统RL中的同步瓶颈,使模型能高效地从大量长程交互轨迹中学习,显著提升后训练迭代速度。
-
- 更强的决策能力:提出异步Agent强化学习算法
GLM-5引入全新的异步Agent RL算法,优化了模型在动态环境下的规划、执行与自我纠错能力。相比前代依赖自蒸馏和结果监督的方式,新算法让模型能从多步骤、长周期的任务中持续进化,真正具备“虚拟工程师”的自主性。
-
- 全面适配国产算力生态
从发布之初,GLM-5就原生支持七大主流国产芯片平台:华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦与燧原,完成从底层内核到上层推理框架的深度优化,推动国产AI基础设施的协同发展。
目前,GLM-5已在Hugging Face与ModelScope平台开源,遵循MIT License,成为开源社区中在编程与Agent能力方面表现最强的模型之一。
二、GLM-5与DeepSeek在模型Agent原生能力上的区别
GLM-5 是一个具备强大智能体工程(Agentic Engineering)能力的基础模型。
可以将其理解为一个“大脑”或“引擎”,它被设计用来驱动、协调和控制多个智能体,完成复杂的、长周期的任务。它本身是智能体系统的核心,但并非智能体的全部。
具体来说:
- GLM-5 是智能体工程的“核心”:它具备了理解复杂目标、自主拆解任务、规划步骤、调用工具、多轮交互和自我修正的能力。这些正是构建智能体系统所需的核心能力。
- GLM-5 能“指挥”智能体:通过其配套的 ZCode 等工具,开发者可以用自然语言描述一个目标(如“开发一个自动售货机管理系统”),GLM-5 会自动拆解任务,并指挥多个子智能体(如代码生成器、调试器、测试器)协同工作,最终完成整个系统工程。
- 它超越了“写代码片段”:与以往模型只能生成一段代码不同,GLM-5 能够处理“端到端”的软件工程任务,例如连续运行数小时、进行数百次工具调用,从零开始构建一个完整的 Game Boy Advance 模拟器。这体现了它作为“系统架构师”的角色,而非一个简单的代码生成工具。
因此,更准确的说法是:GLM-5 是一个能够实现智能体工程的基础模型,它是构建和运行智能体系统的核心驱动力。
那么,DeepSeek不是也有思考能力吗?类似DeepSeek这种推理思考模型不是也能支撑完成Agent吗?与GLM-5有什么区别?
GLM-5 与 DeepSeek 在支持构建智能体系统上的核心区别主要体现在以下几个方面:
-
- 智能体构建的原生支持程度
GLM-5 从架构设计上就深度优化了智能体能力,其核心创新包括异步强化学习框架 Slime 和稀疏注意力机制 DSA,使其在长程任务执行、多步推理和工具调用方面表现尤为突出。例如,GLM-5 可以在 SWE-bench 等复杂工程任务中实现端到端的自主执行,支持从需求分析到代码生成再到测试验证的完整流程。
- 智能体构建的原生支持程度
相比之下,DeepSeek 虽然也支持工具调用和多步推理,但其智能体构建能力更多依赖于外部框架(如 LangChain、AutoGen)的集成,而非模型本身原生支持。这使得 DeepSeek 在构建复杂智能体时可能需要更多的工程适配和代码开发。
-
- 工具调用与执行能力
GLM-5 在工具调用方面具备更强大的原生支持,能够直接输出结构化工具调用指令,并在实际任务中高效执行。例如,GLM-5 可以在真实开发场景中自动调用 API、执行代码解释器并生成可交付的成果。
DeepSeek 同样支持工具调用,但其在实际应用中的执行效率和稳定性可能不如 GLM-5,尤其是在需要高精度和低延迟的场景中。DeepSeek 的工具调用通常需要配合外部工具管理器或 API 接口进行实现。
- 工具调用与执行能力
-
- 任务执行的自主性与闭环能力
GLM-5 构建的智能体具备更强的自主性,能够独立完成从任务规划、执行到反馈评估的闭环流程。例如,GLM-5 Agent 可以在没有人工干预的情况下,自主完成从需求分析到产品上线的全过程。
而 DeepSeek 智能体在任务执行的闭环能力上可能需要更多依赖外部系统或框架来实现任务的自动化管理,其自主性相对较弱。
- 任务执行的自主性与闭环能力
总结:GLM-5模型比 DeepSeek模型 具备更强的自主性 基础原生能力,能够独立完成从任务规划、执行到反馈评估的闭环流程。
这是官方文档对编码能力这块的说明:
三、一张图片一款牛马快跑小游戏
进入体验地址:https://chat.z.ai/
准备一张图片,并输入如下指令:
开发一款小马跑酷游戏,保持图片首页的竖屏风格

喝一杯咖啡的时间过后,任务就完成了。代码可以下载也可以直接部署运行体验。
成果体验地址:https://j1js81svk9n0-d.space.z.ai

总结
GLM-5 的编码工程能力 “刘哔”。
更多推荐



所有评论(0)