智谱于 7 月 28 日发布了新一代旗舰模型 GLM-4.5。该系列模型专为智能体 (Agent) 应用设计,目前已在 Hugging Face 和 ModelScope 平台开源,模型权重遵循 MIT License。

本次发布包含两个采用混合专家 (Mixture of Experts, MoE) 架构的模型:

该模型系列的核心价值在于其综合性能、成本效益与开源可及性。

一、综合性能与评测基准

为全面评估模型能力,GLM-4.5 在覆盖推理、代码、科学、智能体等领域的 12 个评测基准上进行了测试。评测集包括 MMLU Pro, AIME 24, SWE-Bench Verified 和 Terminal-Bench 等。

综合评测结果显示,GLM-4.5 的平均分位列全球参评模型的第三位,在开源模型和国产模型中均排名第一。

在具体的逻辑与代码能力测试中,其表现同样突出。例如,面对逻辑题 “明天的前天,是昨天的后天么?”,GLM-4.5 能准确推理出两者分别指代“昨天”与“明天”,是不同的两天。这是一个在部分测试中,连 Claude Sonnet 4 都会出错的问题。

在真实编程场景的测试中,我们让 GLM-4.5 在独立的容器环境中完成 52 个编程开发任务。结果表明,GLM-4.5 相较于其他开源模型,在工具调用可靠性和任务完成度方面表现突出。在多数场景下,它可以作为 Claude-4-Sonnet 的平替方案。

二、技术架构与参数效率

GLM-4.5 的高性能得益于其参数效率。GLM-4.5 的参数量约为 DeepSeek-R1 的 1/2,Kimi-K2 的 1/3,但在多项标准基准测试中表现更优。在代码能力榜单 SWE-bench Verified 上,GLM-4.5 系列位于性能/参数比的帕累托前沿。

模型训练分为多个阶段。首先在 15 万亿 token 的通用语料上进行预训练,随后在 8 万亿 token 的代码、推理与智能体相关语料上进行针对性训练。为支持高效的强化学习训练,智谱开发并开源了强化学习基础设施 Slime。

三、全栈应用生成能力

GLM-4.5 具备从前端到后端的全栈开发能力,能够通过工具调用和自主代码生成来构建可交互的复杂应用。

其实际能力可以通过以下生成案例来展示:

  • Web 应用生成: 开发者仅需输入一句指令,如 “做一个跟B站高度相似的视频网站,可以播放视频、发弹幕”,模型即可生成一个功能完善、可交互的前端界面。
  • 交互式内容: 模型能够生成 HTML 格式的动态内容,例如一个可玩的 Flappy Bird 游戏,或用于解释“梯度消失”等科学概念的交互式可视化图表。
  • 数据处理与报告: 模型可自主搜索资料并整合,生成图文并茂的 PPT 或技术报告,区别于模板套用,它能直接生成基于真实素材的 HTML 图文内

四、成本、速度与开发者接入

GLM-4.5 在性能优化的同时,实现了低成本和高效率。

模型 API 可一键兼容 Claude Code 框架。

智谱官方也为开发者提供了订阅计划,每月 50 元即可无上限调用 GLM-4.5。



资源汇总

我们为开发者整理了以下资源,方便快速上手和集成。

  • 在线体验:
    • https://chat.z.ai/
    • https://chatglm.cn
  • 开源仓库:
    • GitHub: https://github.com/zai-org/GLM-4.5
    • Hugging Face: https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
    • ModelScope: https://modelscope.cn/collections/GLM-45-b8693e2a08984f
  • 技术文档:
    • 技术博客: https://z.ai/blog/glm-4.5
    • API 文档 (国内): https://docs.bigmodel.cn/cn/guide/develop/claude
    • Agent 轨迹: https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐