AI核心知识31——大语言模型之Multimodal Understanding（简洁且通俗易懂版）

多模态理解侧重于 AI 的“输入”与“感知”，使其从单一的文本处理进化为能深度解读图、文、声、像背后因果、逻辑与情感的“全能鉴赏家”（如读懂梗图）。与传统识别技术仅能检测物体不同，它能真正理解物理世界发生的故事。其核心通过Embedding 对齐技术，将视觉与语言信号映射至同一向量空间，实现“感官通感”。这一能力在自动驾驶、盲人辅助等场景至关重要。相比生成能力，“理解”是 AI 智能体有效执行任务

LPZH!

383人浏览 · 2025-12-03 19:00:16

LPZH! · 2025-12-03 19:00:16 发布

多模态理解 (Multimodal Understanding) 是多模态技术中侧重于 “输入” 和 “感知” 的那一面。

如果说“多模态生成”是让 AI 当画家（画出一幅画），那么“多模态理解”就是让 AI 当鉴赏家（看懂一幅画，并能评论它）。

它是指 AI 模型不仅能读懂文字，还能真正 “看懂” 图片、 “听懂” 声音、 “看懂” 视频，并理解这些不同媒介背后的深层含义、逻辑关系和情感色彩。

1. 👁️ 核心区别：仅仅是“看见” vs. 真正的“理解”

在多模态理解出现之前，传统的计算机视觉（CV）也能“看见”图片，但层次很浅。

传统 AI (Object Detection)：
- 看一张照片，它说：“检测到：人 (99%)，自行车 (90%)，树 (80%)。”
- 它只知道有什么，不知道在发生什么。
大模型的多模态理解 (Multimodal Understanding)：
- 看同一张照片，它说：“这是一个摔倒的骑行者。虽然没有流血，但他表情痛苦，手捂着膝盖，推测可能受伤了。背景是雨天，路面湿滑可能是事故原因。”
- 这就是理解：它结合了视觉信息（图）和世界知识（大模型的推理能力），读出了因果、情绪和故事。

2. 🧩 经典测试：解释“梗图” (Meme)

要测试一个 AI 是否具备多模态理解能力，最简单的方法就是给它发一张互联网梗图（表情包）。

例子： 一张图，左边是“写论文的我”（骷髅头），右边是“打游戏里的我”（肌肉猛男）。

不懂多模态的 AI：只会识别出“骨骼结构”和“人体肌肉”。
具备多模态理解的 AI：它会笑（如果它会笑的话）。它会解释：“这张图通过对比，讽刺了人们在面对学习和娱乐时截然不同的精力状态。骷髅代表枯竭，猛男代表充满活力。”

只有真正“理解”了图文之间的隐喻关系，才能解释梗图。

3. 🛠️ 它是怎么做到的？（对齐 Alignment）

这就回到了我们之前学的 Embedding（嵌入）。

为了实现理解，科学家训练模型把视觉信号和语言信号映射到同一个向量空间。

模型把“一只毛茸茸的狗的图片”变成向量 A。
模型把“fluffy dog”这个单词变成向量 B。
训练的目标是让 向量 A 和 向量 B 无限接近。

当这种训练达到极致时，AI 看到图片（向量 A），脑子里就自动浮现出了语言描述（向量 B），反之亦然。它实现了感官通感。

4. 🌍 现实中的应用场景

多模态理解让 AI 从“文本处理工具”变成了“全能感知助手”：

场景	任务	AI 的“内心戏” (理解过程)
盲人辅助 (Be My Eyes)	用户拍一下冰箱内部。	“我看到了牛奶、鸡蛋和半个西瓜。牛奶的保质期写着 2023...哎呀，牛奶过期了，我要警告用户。”
自动驾驶	摄像头拍到路边有人举手。	“这不是普通的行人，他穿着交警制服，手势是停止。虽然红绿灯是绿的，但我必须停车。” (结合了视觉与规则理解)
视频摘要	输入一段 1 小时的会议视频。	“不用听全是噪音的音频了。我通过视觉看到了 PPT 翻到了‘年度预算’这一页，同时听到了财务总监在叹气，结论是：今年预算被砍了。”
文档分析	拍一张复杂的报销单据。	“这不只是一堆字。我看懂了表格结构。‘总计’这一栏的数字和上面加起来不对，这张发票有问题。”