《大模型应用开发 鲍亮,李倩 清华大学出版社》【摘要 书评 试读】- 京东图书

多模态大模型的发展是人工智能技术演进过程中极具代表性的方向之一,其核心在于通过统一架构处理图像、文本、语音、视频等多种模态,实现跨模态的理解、生成与推理任务。该领域的发展大致经历了以下四个阶段:早期特征拼接模型阶段、融合与对齐技术阶段、大规模对比预训练阶段,以及当前迈向通用人工智能的统一多模态大模型阶段。

3.2.1  特征拼接与浅层交互模型阶段

最初的多模态学习方法主要依赖于特征级融合策略,将来自不同模态的表示向量直接拼接(feature concatenation),并输入传统机器学习模型或浅层神经网络进行下游任务建模。该方法在技术上具有实现简单的优点,但在建模过程中通常默认各模态的语义表示是线性可组合的,进而忽视了模态间的深层语义对齐关系。

早期代表性工作包括Ngiam等人[39]提出的多模态自编码器(multimodal deep autoencoder),该模型尝试通过深度网络在语音与视频之间学习共享表示空间,以捕捉模态间的潜在联系。Frome等人则在DeViSE模型[40]中利用CNN提取图像特征,再通过词向量嵌入将文本映射到同一语义空间,从而实现图像的语义分类。

尽管此类方法为跨模态学习奠定了基础,但其在语义建模能力上存在显著局限,尤其是在复杂语境理解与模态间非线性关系建模方面效果不佳。随着任务复杂度和数据规模的增加,该类方法的泛化能力也面临严峻挑战。

3.2.2  融合与对齐阶段

随着深度学习框架的发展,特别是注意力机制(attention)和Transformer架构的广泛应用,多模态学习开始进入融合与对齐阶段。在此阶段,研究者关注的不再仅仅是模态特征的联合建模,而是如何实现模态之间的显式语义对齐与语义交互,从而提升模型在多模态任务中的推理能力。

典型代表包括Xu等人提出的Show, Attend and Tell模型,该模型首次将软性注意力机制引入图像字幕生成任务,使模型能够学习到图像区域与语言描述之间的对齐关系。同样,Bahdanau等人[41]提出的神经机器翻译注意力机制也被迁移到图文任务中,为多模态交互建模提供了强有力的工具。

在结构设计方面,一系列双编码器架构(dual-encoder)模型相继出现,如ViLBERT、LXMERT、UNITER等。这些模型分别使用独立的编码器对视觉和语言模态进行建模,然后通过交叉模态注意力机制实现融合。这一结构显著提升了模型对跨模态语义关系的建模能力,并在视觉问答、图文检索等任务中取得了领先性能。

同时,对比学习也被引入作为模态对齐的重要机制。例如VSE++[42]模型通过最大化图文匹配对之间的相似度并最小化负样本相似度,从而学习模态间的判别表示。这些方法大大推动了跨模态检索、匹配等任务的发展。

3.2.3  大规模预训练阶段

自2021年起,多模态学习进入了以大规模预训练模型为核心的阶段。该阶段的核心范式是在海量图文对上进行对比学习,通过学习统一的模态表示空间实现零样本分类、跨模态检索等任务。

OpenAI发布的CLIP[7]模型是该范式的代表性成果。CLIP利用4亿对图文对,在不依赖人工标签的前提下,通过图像编码器与文本编码器进行对比训练,使得图像和文本在同一语义空间中对齐。CLIP在ImageNet的零样本分类任务中达到与有监督模型相当的性能,极大推动了开放领域视觉理解的发展。

随后,Google提出的ALIGN[8]模型在图文对比训练中采用更轻量的架构,并利用大规模弱标注网页数据,实现了对数十亿图文对的高效训练。这些模型不仅简化了训练流程,而且由于其优秀的语义泛化能力,能够应用于多种下游任务,而无需特定的微调。

这一阶段的标志是:大规模语料+对比学习+结构分离式编码器逐渐成为标准范式,图像与语言模态通过解耦训练在共享空间中完成语义映射,提升了模型的通用性和可迁移性。

3.2.4  通用多模态大模型阶段

在大模型阶段的基础上,研究者进一步探索更高级的通用多模态建模方法,以实现多种模态统一表示与推理架构,构建真正具备类人能力的人工智能系统。当前最前沿的模型主要遵循统一Transformer架构和多任务学习范式,实现图文、语音、视频等多模态数据的统一编码与生成,如图3.8所示。

图3.8  多模态大模型蓬勃发展

Google提出的PaLI[10]模型是一个多任务训练的大型图文预训练模型,其训练语料横跨多语言、多图像任务(如VQA、OCR、图像字幕等),基于Pathways架构支持单模型多任务的联合训练。

DeepMind发布的Flamingo[9]模型在冻结视觉编码器基础上,通过引入跨模态注意力模块(perceiver resampler + gated cross attention)使得预训练语言模型具备强大的few-shot多模态泛化能力。Flamingo可在几次示例演示下即完成图像问答、描述、对话等任务。

OpenAI于2023年发布的GPT-4V(GPT-4 with Vision)[43],将图像理解能力引入GPT-4框架,在自然语言输入接口上扩展为“图文混合输入”,使得模型能够对图片、图表、截图等进行分析推理并用自然语言输出结果,代表着语言模型主导下的多模态通用智能系统初具雏形。

Google DeepMind于2023年底发布的Gemini[12]模型是继Flamingo后在多模态方向上进一步推进的代表性通用模型。Gemini在架构上延续了Pathways系列的可扩展训练机制,并进一步融合ViT与语言主干模型,通过跨模态注意力桥接不同模态语义表示,显著提升了模型的推理一致性与任务泛化能力。在图像问答、图文生成、图表解析等多个benchmark上,Gemini系列模型均表现出与GPT-4V相当或更优的性能。

这一阶段的核心特征包括:

  • 架构统一:从双塔结构向单塔结构过渡,使用统一Transformer编码不同模态;
  • 语义对齐内建:模态融合与对齐机制作为结构固有组成部分;
  • 任务泛化:以自然语言为中介实现跨任务通用推理,支持零样本学习、多轮交互等;
  • 通用性增强:成为一个可以处理任意输入(图像、文本、语音等)和任意任务(描述、问答、检索等)的AI引擎。

随着模态扩展(如3D、音频、动作捕捉数据)和推理能力增强,通用多模态大模型正成为迈向人工通用智能(AGI)的关键路径。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐