猫头虎AI分享：GLM-4.6V 开源了！从看懂图片到能自己跑任务的多模态怪兽，终于来了

智谱AI重磅开源GLM-4.6V系列多模态模型，包含106B云端版和9B本地版。该模型突破性地将Function Call原生融入视觉处理，实现图像直接作为工具参数调用，打通"视觉感知-任务理解-工具调用-再理解-决策"全链路。在图文混排、识图购物、前端复刻、长文档理解等场景展现强大能力，支持128k上下文窗口。性能指标在同规模模型中达到SOTA水平，9B轻量版可免费体验。开源

主理人猫头虎微信: Libin9iOak

685人浏览 · 2025-12-09 01:53:30

主理人猫头虎微信: Libin9iOak · 2025-12-09 01:53:30 发布

猫头虎AI分享：GLM-4.6V 开源了！从看懂图片到能自己跑任务的多模态怪兽，终于来了

近期，智谱 AI 又抛来一个重磅更新：GLM-4.6V 系列正式上线并开源！

这一次的更新，说句不夸张的话，是我最近看到的多模态模型里最有“从研究走向真实 Agent”味道的。

本次开源包含两款模型👇

GLM-4.6V（106B-A12B）：云端/集群版本，适合算力豪横的同学
GLM-4.6V-Flash（9B）：轻量小钢炮，本地部署友好，关键是免费

从性能到价格，这代模型可以说是“把门槛按在地上摩擦”：

视觉精度同规模 SOTA
上下文窗口拉到 128k tokens
调用价格直接砍 50%
Flash 小模型直接 免费体验

而最让我眼前一亮的是这一句：

首次将 Function Call 原生融入视觉模型，让图片直接变成工具调用参数。

这是多模态 Agent 真正起飞的信号。

下面就跟着猫头虎来一起扒一扒这只新模型到底多能打👇

文章目录

猫头虎AI分享：GLM-4.6V 开源了！从看懂图片到能自己跑任务的多模态怪兽，终于来了
🐯🦉原生视觉工具调用：从“看见”到“做事”
🐯🦉场景1：自动图文混排，内容创作者狂喜
🐯🦉场景2：识图购物 & 自动比价，真正的导购 Agent
🐯🦉场景3：前端复刻：设计稿 → 代码，一条龙生成
🐯🦉场景4：128k 上下文，超长文档 & 视频理解
🐯🦉同规模 SOTA，多项指标炸裂
🐯🦉开源 & 资源入口（原文全部保留）
- 🔓 开源资源
- ☁️ 在线调用 & 开放平台
🐯🦉 碎碎念：多模态 Agent 真的来了

🐯🦉原生视觉工具调用：从“看见”到“做事”

以往工具调用基本是纯文本世界的事。多模态工具链往往这么走：

图片 → 文字描述 → 工具参数 → 工具结果 → 再把图片结果转描述 → 再推理

中间损耗巨大，也很费工程师头发。

GLM-4.6V 直接砍掉所有中间步骤。

模型架构的理念很简单粗暴：

图像就是参数，工具结果就是上下文。

这意味着：

输入图片、截图、文档页面……都能直接变工具参数
工具返回的图片、图表、网页截图……还能继续被模型“看”、继续推理

也就是说，这模型真正打通了：

视觉感知 → 任务理解 → 工具调用 → 再视觉理解 → 决策输出

这才是真·多模态 Agent。

🐯🦉场景1：自动图文混排，内容创作者狂喜

对我们这种常年做内容的博主来说，这段 demo 看得我热泪盈眶。

GLM-4.6V 能干啥？

直接吃论文、PPT、研报等复杂图文
自动抽取结构化内容
自动为内容选图，甚至直接从原文截关键图
图片还能自动“视觉审核”，过滤无关或丑图
最终输出可直接发公众号/小红书的图文稿

案例：输入主题即可自动生成资讯内容。

🐯🦉场景2：识图购物 & 自动比价，真正的导购 Agent

我看到第二个 demo 时只想说一句：

淘宝逛街时代，结束了。

GLM-4.6V 能自动完成：

看街拍图 → 识别你要“搜同款”
自动调用 image_search 在多平台找货
对不同平台的内容做清洗、对齐、过滤
自动生成一张 Markdown 导购表格
包含：平台、价格、缩略图、匹配度、差异说明、购买链接

案例：搜同款、比价、自动生成清单。

这已经不是简单的“给你推荐”，
这是一个懂你、会看图、能比价、能决策的购物助理。

🐯🦉场景3：前端复刻：设计稿 → 代码，一条龙生成

对于前端朋友来说，这代模型的更新非常致命：

上传截图，自动识别布局、组件、配色
产出 HTML / CSS / JS，几乎像素级还原
支持视觉交互修改
你框出一个按钮说：“往左移一点，改深蓝”，
它自动定位代码并修改

案例：前端复刻与多轮修改。

我自己试了下 Flash 版，惊到我了：
小模型也能用，非常丝滑。

🐯🦉场景4：128k 上下文，超长文档 & 视频理解

128k tokens 是一种什么概念？

150 页报告
200 页 PPT
一小时视频

全部一次塞进去。

🐯🦉同规模 SOTA，多项指标炸裂

GLM-4.6V 在 30+ 多模态基准上全面测过，整体拉满：

GLM-4.6V-Flash（9B） > Qwen3-VL-8B
GLM-4.6V（106B-A12B）≈ Qwen3-VL-235B（2x 参数）

直接上图👇

🐯🦉开源 & 资源入口（原文全部保留）

如果你是开发者，下面这部分你会非常喜欢：

🔓 开源资源

GitHub：https://github.com/zai-org/GLM-V
Hugging Face：https://huggingface.co/collections/zai-org/glm-46v
魔搭社区：https://modelscope.cn/collections/GLM-46V-37fabc27818446

支持的推理框架包括：

SGLang
vLLM
transformers
xLLM

可部署在 GPU 与多种国产 NPU 上。

☁️ 在线调用 & 开放平台

开放平台：https://docs.bigmodel.cn/cn/guide/models/vlm/glm-4.6v
视觉 MCP 工具：https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server

在线体验入口：

z.ai：选择 GLM-4.6V 即可体验
智谱清言 APP / 网页版：开启“推理模式”就能多模态推理

技术 Blog：z.ai/blog/glm-4.6v

🐯🦉 碎碎念：多模态 Agent 真的来了

这一代更新最大的意义不是“模型更强了”，而是：

多模态 → 原生工具调用 → 能把任务独立完成

这意味着：

📌不是“帮你回答问题”，
而是“帮你做事”。

📌不是“给你建议”，
而是“执行整个任务链路”。

从内容创作，到购物导购，到工程开发，到长文档理解……
GLM-4.6V 正在真正让 AI 从“语言助手”进化为“视觉+行动的 Agent”。

智谱这波多模态开源周，也正式拉开帷幕。
更多模型、更多能力，值得期待。

猫头虎继续盯着，后续继续给你们更新🐯🦉📡

——完——

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

GDN：深度学习时代的图偏差网络异常检测全解析

2048 AI社区

SpringBoot+Vue 养老院管理系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

2048 AI社区

《打造高效算力池：HAMi 探索异构算力调度的最佳实践》— 李孟轩

随着大模型训练与推理规模不断扩大，企业对 GPU、XPU 等异构算力的调度需求变得更复杂、更多样。作为目前业内专注于异构 GPU 资源共享和调度的开源项目，HAMi 在 2.7.0 版本中完成了多项关键升级，并在 2.8.0 版本 Roadmap 中进一步规划了调度性能和 DRA 方向的演进，使 GPU 资源管理从“可用”迈向“更易用、更统一、更高性能”。在本次演讲中，HAMi 核心 mainta