AI核心知识29——大语言模型之Multimodality（简洁且通俗易懂版）

多模态AI是大语言模型发展的关键突破，使AI能够同时处理文本、图像、音频和视频等多种数据形式。通过将不同模态数据统一转化为数字序列，模型实现了跨模态理解与生成。典型应用包括图像描述、语音对话、视频生成等。相比传统"拼凑式"多模态方案，原生多模态模型(如GPT-4o)具有端到端处理能力，能保留更多细节信息。多模态技术让AI具备了类似人类的感知能力，正在重塑人机交互方式。

LPZH!

560人浏览 · 2025-12-02 18:04:39

LPZH! · 2025-12-02 18:04:39 发布

多模态（Multimodality） 是大语言模型进化史上最重要的里程碑之一。

如果说之前的 AI 是一个“虽然博学但又聋又瞎的哲学家”（只能读文字、写文字），那么多模态 AI 就意味着这个哲学家长出了眼睛、耳朵和嘴巴。

1. 💡 什么是“模态” (Modality)？

在计算机科学里，“模态”就是指数据的存在形式。

常见的模态有：

文本 (Text)
图像 (Image)
音频 (Audio)
视频 (Video)

多模态大模型 (Multimodal LLM / LMM)，就是指这个 AI 模型不再局限于处理单一的文本，而是能够同时理解、处理和生成多种不同形式的数据。

2. 👁️ 形象的比喻：从“读信”到“视频通话”

单模态模型 (如早期的 GPT-3)：

就像你被关在一个黑屋子里，外界只能通过门缝塞进来小纸条（文字）和你交流。你无法看到外面的世界，只能靠文字描述来想象。
多模态模型 (如 GPT-4o, Gemini 1.5, Claude 3.5 Sonnet)：

就像你走出了黑屋子，或者和外界打通了视频电话。
- 你给他看一张照片，它能看懂（视觉）。
- 你对它说话，它能听懂语气（听觉）。
- 它可以画一张图回应你，或者直接开口说话（生成）。

3. 🛠️ 它是怎么实现的？（统一的语言）

多模态核心是通过Embedding（嵌入/向量化） 来实现的。

在多模态模型眼里，“一张猫的照片” 和 “猫这个单词”，虽然人类看着不一样，但经过数学转换后，它们在模型的向量空间里，指向的是同一个位置。

🧠 技术原理：Token 的大一统

现在的多模态模型把所有东西都切成 Token：

文字切成 Token。

图片切成一个个小方块（Patch），也变成 Token。

声音切成一小段波形，也变成 Token。

对于模型来说，它看到的不再是“图”或“字”，而是一长串数字序列。 这让它能够把图片和文字混在一起“阅读”。

4. 🚀 多模态能干什么？（经典场景）

多模态彻底改变了我们使用 AI 的方式，也就是所谓的 Any-to-Any（任意输入到任意输出）：

模式	场景示例
图生文 (Image-to-Text)	拍照解题：拍一张数学卷子，AI 识别题目并给出解题步骤。冰箱大厨：拍一张冰箱里的食材照片，AI 告诉你今晚能做什么菜。
文生图 (Text-to-Image)	设计辅助：你说“画一只在月球上骑自行车的熊猫”，DALL·E 或 Midjourney 直接生成图片。
文/图生视频 (Text-to-Video)	Sora / Kling：你给一张照片或一段文字，AI 生成一段 60 秒的高清电影镜头。
语音对话 (Speech-to-Speech)	实时翻译：你对着手机说中文，AI 听到后直接用法语说出来，连你的情绪和语调都能模仿（如 GPT-4o 的高级语音模式）。

5. 🧬 “原生多模态” vs. “拼凑多模态”

这是目前业界的一个重要区分：

拼凑多模态 (Pipeline / Glue)：
- 做法：用一个模型把声音转成字，再把字喂给 LLM，LLM 生成字，再用另一个模型把字转成声音。
- 缺点：慢，而且会丢失情感（比如你的笑声、叹气声，转成文字就没了）。
原生多模态 (Native Multimodal)：
- 代表：GPT-4o (Omni), Gemini 1.5 Pro。
- 做法：模型从训练的第一天起，就是看着视频、听着声音长大的。它是一个端到端 (End-to-End) 的模型。
- 优点：极快，而且能听懂你的喘息、犹豫、甚至能看懂你视频背景里的一闪而过的细节。