智谱 GLM-5 发布，支持OpenClaw，从Vibe coding到智能体工程的跨越

智谱AI正式发布GLM-5大模型，参数规模从355亿扩展到744亿，预训练数据量增至28.5万亿token。该模型集成了DeepSeek稀疏注意力机制，在保持长文本处理能力的同时降低部署成本。GLM-5在编程任务性能上提升20%，能完整完成项目开发全流程，接近ClaudeOpus4.5水平。在VendingBench2测试中，GLM-5模拟经营自动售货机一年获得4432美元收益，展现强大的长期规划

人工智能研究所

639人浏览 · 2026-02-12 09:58:09

人工智能研究所 · 2026-02-12 09:58:09 发布

今晨，我登录智谱 AI 的官方网站，赫然发现 GLM - 5 模型已然正式上线。昨日，我还在探寻 GLM - 5 是否发布，未曾想，此刻官网便已官宣其正式问世。

从数据上看,这次的升级挺猛的:参数规模从上一代的 355 亿扩展到 744 亿,预训练数据量也从 23 万亿个 token 增加到 28.5 万亿个 Futu News。此外，GLM-5 还集成了 DeepSeek 稀疏注意力机制 (DSA)，在显著降低部署成本的同时，依然保持了长时域上下文处理能力。但说实话,这些数字对普通人来说可能没啥感觉。真正让我觉得有意思的是——它能干什么。

不只是写代码,它真的能"完成项目"

你知道那种感觉吗?你跟 AI 说"帮我写个网页",它给你吐一堆代码,然后你还得自己调试、自己部署、自己处理各种 bug。挺烦的对吧?

GLM-5 的思路不太一样。内部评估显示,它在编程任务上的性能相比上一代提升了超过 20%,真实编程体验接近 Claude Opus 4.5 的水平 Futu News。而且它不只是"写代码",它能把整个项目做完——从前端到后端,从调试到优化,甚至能自己跑长时间的复杂任务。

强化学习旨在弥合预训练模型在胜任力和卓越性之间的差距。然而，由于强化学习训练效率低下，将其大规模部署到低层逻辑模型（LLM）中面临挑战。为此，智谱开发了slime，一种新型的异步强化学习基础设施，它显著提高了训练吞吐量和效率，从而能够进行更细粒度的训练后迭代。凭借在训练前和训练后两方面的进步，GLM-5在众多学术基准测试中相比GLM-4.7取得了显著提升，并在推理、编码和智能体任务上取得了全球所有开源模型中的最佳性能，缩小了与前沿模型的差距。

GLM-5 专为复杂系统工程和长周期智能体任务而设计。在智谱内部评估套件 CC-Bench-V2 中，GLM-5 在前端、后端和长周期任务上均显著优于 GLM-4.7，并缩小了与 Claude Opus 4.5 之间的差距。

在衡量长期运营能力的基准测试Vending Bench 2中，GLM-5 在开源模型中排名第一。Vending Bench 2 要求模型模拟自动售货机业务运行一年；GLM-5 的最终账户余额为 4,432 美元，接近 Claude Opus 4.5 的水平，展现出强大的长期规划和资源管理能力。

GLM-5 已在Hugging Face和ModelScope上开源，模型权重以 MIT 许可证发布。GLM-5 也可在开发者平台api.z.ai和BigModel.cn上获取，并兼容 Claude Code 和 OpenClaw。还可以在Z.ai上免费试用。

模拟经营一年的自动售货机生意?它做到了

这里有个特别有意思的测试,叫 Vending Bench 2。简单说,就是让 AI 模型模拟经营一台自动售货机,时间跨度是整整一年。

GLM-5 的最终账户余额达到了 4,432 美元,在开源模型中排名第一,接近 Claude Opus 4.5 的水平 Futu News。这意味着什么?意味着它能做长期规划、资源管理、应对各种突发状况——这些都是真实商业场景里需要的能力。

想象一下,如果有一天你开个小店,AI 能帮你管库存、定价策略、应对淡旺季...那会是什么样子?

技术细节:他们做对了什么?

如果你对技术感兴趣,这里有几个值得关注的点:

稀疏注意力机制
:GLM-5 集成了 DeepSeek 稀疏注意力机制,在降低部署成本的同时保持了长文本处理能力 Futu News。通俗点说,就是"省钱又好用"。
强化学习基础设施 "slime"
:他们开发了一套新的训练系统,能更高效地让模型"学习"——这是为什么 GLM-5 能在推理、编码、智能体任务上表现这么好的原因之一。
开源 + 商用友好
:模型权重以 MIT 许可证发布,意味着你可以免费用,甚至可以商用。这在国内大模型里算是比较良心的。

办公室套装

GLM-4.5 是智谱迈向推理、编码和智能体构建的第一步，使模型能够完成复杂任务。GLM-5 则进一步增强了复杂系统工程和长时域智能体的能力。GLM-5 可以直接将文本或源材料转换为 .docx、.pdf 和 .xlsx 文件——产品需求文档 (PRD)、教案、考试题、电子表格、财务报告、运行表、菜单等等——并以端到端的方式交付即用型文档。

谁适合用 GLM-5?

坦白说,如果你只是偶尔问问"今天吃什么"、"帮我写个小作文",那用 GPT-3.5 或者其他轻量模型就够了。

但如果你是:

程序员
,需要一个真正能帮你干活的"同事"
创业者
,想用 AI 自动化一些业务流程
内容创作者
,需要快速生成专业文档(比如 PRD、财务报告、课程教案)
或者就是喜欢折腾新技术的人

那 GLM-5 值得试试。它现在可以在 Z.ai 上免费体验,也支持 Claude Code 等开发工具。

写在最后:AI 的"打工时代"来了?

最近这段时间,国内大模型的进化速度快得有点吓人。DeepSeek、Kimi、GLM...每家都在拼命往前冲。

但我觉得真正有意思的不是"谁比谁强",而是这些模型开始真正变得实用了。它们不再只是聊天机器人,而是开始成为能完成实际工作的工具——甚至是"同事"。

就像文档开头说的:基础模型正在从"聊天"转向"工作"。

这让我想起很多年前第一次用 Excel 的时候——一开始只是觉得"哦,能算个加减乘除挺好",后来才发现它能做数据透视、自动化报表、甚至用 VBA 写自动化流程。AI 可能也是一样,我们现在看到的,只是个开始。

对了,如果你想试试 GLM-5,可以去 Z.ai 或者他们的开发者平台看看。反正免费,折腾一下也不亏对吧

更多transformer，VIT，swin tranformer
参考头条号：人工智能研究所
v号：人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

亲测GEO优化销售厂家榜单

2048 AI社区

AI应用架构师从0到1：AI虚拟培训系统的需求分析与原型设计

需求分析：不要贪大求全，先解决最痛的1-2个问题（如“个性化路径”“实时反馈”）；原型设计：用最小可行产品验证需求的真实性（比如先做Web端的虚拟场景，再扩展VR）；迭代优化：根据用户反馈调整功能（比如学员觉得反馈太笼统，就优化AI模型的反馈粒度）。作为AI应用架构师，你的价值不是“会用多少AI技术”，而是“能把AI技术转化为解决用户问题的工具”。希望本文能帮你建立从“想法”到“落地”的思维框架，