多模态(Multimodality) 是大语言模型进化史上最重要的里程碑之一。

如果说之前的 AI 是一个“虽然博学但又聋又瞎的哲学家”(只能读文字、写文字),那么多模态 AI 就意味着这个哲学家长出了眼睛、耳朵和嘴巴


1. 💡 什么是“模态” (Modality)?

在计算机科学里,“模态”就是指数据的存在形式。

常见的模态有:

  • 文本 (Text)

  • 图像 (Image)

  • 音频 (Audio)

  • 视频 (Video)

多模态大模型 (Multimodal LLM / LMM),就是指这个 AI 模型不再局限于处理单一的文本,而是能够同时理解、处理和生成多种不同形式的数据。


2. 👁️ 形象的比喻:从“读信”到“视频通话”

  • 单模态模型 (如早期的 GPT-3):

    就像你被关在一个黑屋子里,外界只能通过门缝塞进来小纸条(文字)和你交流。你无法看到外面的世界,只能靠文字描述来想象。

  • 多模态模型 (如 GPT-4o, Gemini 1.5, Claude 3.5 Sonnet):

    就像你走出了黑屋子,或者和外界打通了视频电话。

    • 你给他看一张照片,它能看懂(视觉)。

    • 你对它说话,它能听懂语气(听觉)。

    • 它可以画一张图回应你,或者直接开口说话(生成)。


3. 🛠️ 它是怎么实现的?(统一的语言)

多模态核心是通过Embedding(嵌入/向量化) 来实现的。

在多模态模型眼里,“一张猫的照片”“猫这个单词”,虽然人类看着不一样,但经过数学转换后,它们在模型的向量空间里,指向的是同一个位置

🧠 技术原理:Token 的大一统

现在的多模态模型把所有东西都切成 Token:

  • 文字切成 Token。

  • 图片切成一个个小方块(Patch),也变成 Token。

  • 声音切成一小段波形,也变成 Token。

对于模型来说,它看到的不再是“图”或“字”,而是一长串数字序列。 这让它能够把图片和文字混在一起“阅读”。


4. 🚀 多模态能干什么?(经典场景)

多模态彻底改变了我们使用 AI 的方式,也就是所谓的 Any-to-Any(任意输入到任意输出)

模式 场景示例
图生文 (Image-to-Text)

拍照解题:拍一张数学卷子,AI 识别题目并给出解题步骤。

 

冰箱大厨:拍一张冰箱里的食材照片,AI 告诉你今晚能做什么菜。

文生图 (Text-to-Image) 设计辅助:你说“画一只在月球上骑自行车的熊猫”,DALL·E 或 Midjourney 直接生成图片。
文/图生视频 (Text-to-Video) Sora / Kling:你给一张照片或一段文字,AI 生成一段 60 秒的高清电影镜头。
语音对话 (Speech-to-Speech) 实时翻译:你对着手机说中文,AI 听到后直接用法语说出来,连你的情绪和语调都能模仿(如 GPT-4o 的高级语音模式)。

5. 🧬 “原生多模态” vs. “拼凑多模态”

这是目前业界的一个重要区分:

  1. 拼凑多模态 (Pipeline / Glue)

    • 做法:用一个模型把声音转成字,再把字喂给 LLM,LLM 生成字,再用另一个模型把字转成声音。

    • 缺点:慢,而且会丢失情感(比如你的笑声、叹气声,转成文字就没了)。

  2. 原生多模态 (Native Multimodal)

    • 代表GPT-4o (Omni), Gemini 1.5 Pro

    • 做法:模型从训练的第一天起,就是看着视频、听着声音长大的。它是一个端到端 (End-to-End) 的模型。

    • 优点:极快,而且能听懂你的喘息、犹豫、甚至能看懂你视频背景里的一闪而过的细节。


总结

多模态就是 AI 的感官觉醒。 它打破了数字世界和物理世界的隔阂,让 AI 能够像人类一样,通过看、听、说来感知和交互。

这也是为什么现在我们常说:“以后的 Prompt 不仅仅是提示词,还可以是提示图、提示视频。”

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐