国产 AI 再放大招！智谱开源 GLM-4.5V，视觉推理能力“屠榜”全球

上个月，智谱开源的冲上 HuggingFace Trending 榜首，累计下载量突破。上周，又推出了旗舰多模态模型和轻量版，技术圈瞬间沸腾。这周，智谱再次扔下“核弹”——基于架构，训练出更强大的视觉推理模型，并且毫不犹豫地。更夸张的是，在中，GLM-4.5V 拿下了。一句话：在开源视觉推理领域，它几乎是无敌的存在。如果说普通的视觉模型只是“看得清”，那 GLM-4.5V 则是“看得懂、想得通、还

霍格沃兹-慕漓

356人浏览 · 2025-09-02 14:24:07

霍格沃兹-慕漓 · 2025-09-02 14:24:07 发布

国产 AI 这两个月的节奏，可以用四个字形容：不讲武德。

上个月，智谱开源的 GLM-4.1V-Thinking 冲上 HuggingFace Trending 榜首，累计下载量突破 13 万次。上周，又推出了旗舰多模态模型 GLM-4.5 和轻量版 GLM-4.5-Air，技术圈瞬间沸腾。

这周，智谱再次扔下“核弹”——基于 GLM-4.5-Air 架构，训练出更强大的视觉推理模型 GLM-4.5V，并且毫不犹豫地 全量开源。

更夸张的是，在 42 个权威多模态榜单 中，GLM-4.5V 拿下了 41 项 SOTA（全球最佳） 。一句话：在开源视觉推理领域，它几乎是无敌的存在。

01 GLM-4.5V 究竟强在哪？

如果说普通的视觉模型只是“看得清”，那 GLM-4.5V 则是“看得懂、想得通、还会自己动手”。

它的三个核心能力，让它不只是个识图工具，而更像一个拥有视觉和常识的大脑：

① 多模态融合推理

能同时理解图像、文字、视频等多种信息，并在一个上下文中推理，这意味着它不仅能识别图片，还能结合文字背景得出更准确的结论。

类比一下，这就像一个工程师看图纸时，不仅看到了线条，还理解了设计目的，并能立即判断可行性。

② 长上下文记忆

可以连续处理数十张图片、几分钟视频或长文档，并保持逻辑一致，不会出现“前一句和后一句不沾边”的问题。这对长流程的任务（比如视频内容分析、长文档解析）非常关键。

③ Grounding 精准定位

不只是说“这是一个猫”，而是能告诉你它在画面中的精确坐标，甚至能直接生成可用的标注文件，让 AI 从“感知”走向“可操作”。

02 模型规格：真正的 100B 级视觉推理猛兽

总参数：106B
激活参数：12B
输入类型：图像 / 文本 / 视频

03 能力覆盖面有多广？

图像推理：场景理解、多图分析、位置识别
视频理解：长视频分镜、事件识别
GUI 任务：前端页面复刻、桌面操作辅助
图表与文档解析：结构化提取、自动标注
Grounding 定位：精准框选视觉元素

简单来说，它既能帮你看懂一份复杂的财报图表，也能复刻一个网页 UI，甚至能像人类助手一样操作电脑界面。

04 桌面助手：多模态能力落地的“利器”

为了让开发者更快上手，智谱还同步开源了 GLM-4.5V 桌面助手，支持：

实时截屏并分析
获取屏幕信息
基于视觉推理执行自动化任务

推荐阅读

黑盒测试方法—等价类划分法

大学毕业后转行软件测试我后悔了

软件测试 | 测试开发 | Android动态权限详解

软件测试的测试方法及测试流程

软件测试 | 测试开发 | Android App 保活服务的配置与禁用

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

从静态到动态：HTML 到 JSP 的“魔法变身”指南（零基础入门）

Agentic AI提示工程可解释性增强：深度剖析方法原理

你有没有过这样的经历？用AI规划旅行时，它突然推荐了一个你从没听说过的酒店，却不告诉你“为什么选它”；用AI写方案时，它删掉了你精心写的段落，却没解释“为什么改”。这些困惑的根源，是Agentic AI的“黑箱性”——它能主动做事，但不会“说清楚怎么做的”。本文的目的，是用提示工程的方法，把Agent的“思考过程”变成“可阅读的说明书”。Agentic AI与传统AI的核心区别提示工程如何连接“用

用虚拟机构建一个服务器（练手）

我询问了AI的意见，包括开源与否，稳定性，以及功能性，最后决定Ubuntu Server ，下载LTS稳定版本的就行，记得是下Ubuntu Server，这个是完全的命令行界面，服务器不需要用到图形界面。下光盘映像文件就行，然后通过virtualBox安装就好。服务器拿到第一件事就是配置网络，不然无法远程访问，也无法下载东西首先要选择连接模式，这个因为我们是虚拟机，所以要在VirtualBox界面

所有评论(0)

查看更多评论

霍格沃兹-慕漓

已为社区贡献29条内容