多模态大语言模型的爆发式增长源于核心技术架构与训练方法的系统性进化。文章深入剖析了建模范式(从外部集成到原生统一)、视觉编码器设计(从单一特征到解耦表示)、语言模型骨干网络(主流LLM骨干的选择与适配)、模态对齐机制(从线性投影到MoE连接器)、生成范式(自回归到流模型)以及训练方法(两阶段训练到多阶段渐进式训练)的演进脉络。这些技术的革新为多模态大语言模型的强大能力奠定了基础,读者可从中揭示其背后的“第一性原理”。


多模态大语言模型在2025年的爆发式增长其根源在于核心技术架构与训练方法的系统性进化。研究者们不再满足于简单地将不同模态的模块进行拼接而是从更根本的层面思考如何构建一个高效、统一且可扩展的智能系统。本文将深入剖析支撑这一轮技术浪潮的关键技术系统梳理其从早期探索到当前最前沿的演进脉络。我们将重点探讨五大核心主题:建模范式的演进、视觉编码器的设计、模态对齐机制、生成范式的革命以及训练方法的创新。为读者揭示现代多模态大语言模型强大能力背后的“第一性原理”。

一、建模范式的演进**:**从外部集成到原生统一

多模态大语言模型的架构演进本质上是关于如何组织和协调不同模态信息处理流程的探索。回顾其发展历程我们可以清晰地看到一条从“外部专家集成”到“模块化联合建模”再到最终“端到端统一建模”的演进路径。这条路径反映了研究界对于模态融合深度和模型通用性不断提升的追求。

1、外部专家集成建模(Pre-2023)**:LLM作为大脑”**协调器

在多模态指令微调技术成熟之前一种简单而直接的思路是利用大型语言模型(LLM)作为中央“大脑”通过调用各种现成的、成熟的单模态“专家模型”(如视觉问答模型、图像生成模型)来协同完成复杂的多模态任务。这一范式的代表性工作是Visual ChatGPT和HuggingGPT。

Visual ChatGPT的核心机制是围绕一个基于聊天的界面将用户的多模态指令(如“帮我把这张图里的猫P掉然后生成一张狗的图片”)分解为多个子任务。然后LLM会根据其对任务的理解生成调用不同视觉基础模型(Visual Foundation Models,VFMs)的代码或指令并整合它们的输出来完成用户的最终请求。

**表:**外部专家集成建模范式分析

尽管存在明显局限外部专家集成范式在当时起到了重要的承上启下的作用。它首次展示了将LLM的通用推理能力应用于复杂多模态任务的巨大潜力为后续更深度的融合建模提供了宝贵的思路启示。然而其固有的浅层交互模式决定了它只能是一种过渡方案。

**2、模块化联合建模(2023-2024)****:寻找最佳连接”**方式

随着LLaVA等工作的成功研究界迅速转向探索如何在单一模型内部更好地连接视觉编码器和LLM。这一“模块化联合建模”阶段的核心议题是设计一个高效的“适配器”或“连接器”在冻结大部分主干网络参数的同时实现高质量的模态对齐。根据连接方式的不同这一范式又可以细分为“提示中介建模”和“混合接口建模”。

A. 提示中介建模(Prompt-mediated Modeling)

这类方法的核心思想是将视觉信息转化为一种特殊的“软提示”(Soft Prompt)并将其插入到LLM的输入层。LLM在处理文本时会同时“看到”这些代表了图像内容的软提示从而实现多模态理解。BLIP-2的Q-Former就是这种范式的典型代表。Q-Former通过一小组可学习的查询向量将视觉编码器输出的大量特征“压缩”成一小段固定长度的软提示既高效又有效。

B. 混合接口建模(Hybrid-interface Modeling)

随着研究的深入研究者们发现仅仅在输入层进行连接可能还不够。混合接口建模则尝试在LLM的更多层次上建立视觉与语言的连接。例如一些工作不仅在输入层注入视觉提示还在LLM的中间层或输出层引入额外的跨模态交互模块。2024年的VITRON和M2-Omni就是这一方向的代表。它们通过在模型的不同深度设置多个“接口”让视觉信息能够更灵活、更深入地参与到LLM的思考过程中。

模块化联合建模是2023年至2024年的主流范式。它在成本和性能之间取得了很好的平衡催生了大量优秀的开源模型。然而这种“外挂”式的连接方式终究不是最理想的解决方案。适配器的设计本身就需要大量的经验和技巧而且冻结的主干网络也限制了模型进行更深层次的跨模态联合优化的可能性。

3、端到端统一建模(2024-2025)**:**迈向原生多模态

追求更彻底的融合与更优雅的架构是技术演进的必然方向。2024年下半年至2025年端到端统一建模(End-to-End Unified Modeling)成为最前沿的探索方向。这一范式的核心目标是构建一个“原生”的多模态模型它不再区分视觉模块或语言模块而是从一开始就在一个统一的架构内处理所有模态的信息。

早期融合的尝试**:**如前文所述Meta的Chameleon是这一方向的先行者。它通过将所有模态都“Token化”实现了在模型最底层的早期融合。这种设计的优点是架构统一、简洁但缺点也同样明显:不同模态的统计特性和信息密度差异巨大(例如图像通常比文本包含更多冗余信息)强行统一处理容易导致次优解。

解耦设计的成熟**:**为了解决早期融合的弊端2025年的Janus提出了精巧的“解耦设计”。它虽然仍在一个统一的LLM框架内但为视觉的理解和生成任务提供了不同的编码路径。这种“分而治之”再“统一处理”的思路被证明是当前实现高性能统一建模的有效路径。

原生全模态的实现**:**最终极的目标是构建一个无需任何特殊设计、能够自然处理所有模态的单一模型。2025年9月发布的Qwen3-Omni在这条道路上迈出了关键一步。它通过在大规模、多样化的多模态数据上进行端到端的联合训练让一个标准的Transformer模型“自然地”学会了处理和关联不同模态信息。这种“大力出奇迹”的思路虽然对数据和算力提出了极高的要求但它所代表的“原生全模态”方向无疑是通往通用人工智能的最有希望的路径之一。

从外部集成到模块化连接再到最终的原生统一建模范式的演进清晰地展示了多模态技术不断追求更深层次融合、更广阔通用性和更优雅架构设计的坚定步伐。正是这一系列架构上的革新为2025年多模态大语言模型的全面爆发奠定了坚实的基础。

二、视觉编码器的设计**:**从单一特征到解耦表示

LLM是多模态模型的“大脑”视觉编码器(Visual Encoder)是其“眼睛”。视觉编码器的核心任务是将输入的图像或视频帧转换为一系列LLM能够理解的特征向量。其设计的优劣直接决定了模型能够从视觉世界中汲取信息的深度和广度。其演进过程反映了研究界对于如何提取更丰富、更灵活、更适应下游任务的视觉表示的持续探索大致经历了从“单一通用特征”到“多分辨率协同”再到“任务导向解耦”的演进路径。

1、传统视觉编码器**:**ViT与CLIP的奠基

现代多模态大语言模型普遍采用基于Vision Transformer(ViT)的架构作为视觉编码器的骨干。ViT的革命性在于它将Transformer架构成功地从NLP领域迁移到了CV领域。

它将图像分割成一系列固定大小的图块(Patches)并将这些图块线性嵌入后像处理单词一样输入到Transformer编码器中。这种设计使得模型能够捕捉图像中的全局依赖关系相比于传统的卷积神经网络(CNNs)具有更好的可扩展性。

在ViT的基础上CLIP的视觉编码器(通常也是ViT架构)通过在海量的图文对数据上进行对比学习获得了强大的语义表征能力。因此冻结的CLIP ViT成为了2023年以来绝大多数模块化多模态模型(如LLaVA、BLIP-2)的首选视觉编码器。使用预训练的CLIP ViT具有两大优势:

强大的语义特征**:**其输出的特征与自然语言在语义上深度对齐极大地降低了后续模态对齐的难度。

训练效率高**:**由于其参数被冻结在多模态训练阶段无需更新显著节省了计算资源。

然而标准的CLIP ViT也存在其固有的局限性:它通常在较低的分辨率(如224x224或336x336)下进行预训练这导致其在处理需要高分辨率细节的任务(如OCR、细粒度识别)时表现不佳。

2、高分辨率处理**:**应对细节挑战

为了解决低分辨率带来的信息损失问题研究者们探索了多种策略来让模型“看清”图像的细节。一个直接的方法是直接提高ViT的输入分辨率但这会导致图块数量的平方级增长带来巨大的计算和内存开销。因此更精巧的设计应运而生。

以Mini-Gemini为代表的工作提出了一种双编码器(Dual Encoder)或多分辨率(Multi-resolution)的策略。

它在保留原有低分辨率CLIP ViT的同时额外增加了一个处理高分辨率图像块的编码器。在处理图像时模型首先用低分辨率编码器获取全局上下文信息然后可以根据需要将图像中的特定区域(或整个图像)以更高的分辨率输入给第二个编码器以获取局部细节。这种“全局概览+局部详查”的机制在不显著增加整体计算成本的前提下有效地提升了模型处理高分辨率细节的能力。

3、解耦视觉编码**:**Janus的革命性设计

2024年底最重要的架构创新之一便是Janus提出的解耦视觉编码(Decoupled Visual Encoding)。这一设计的核心洞察在于不同的下游任务对视觉特征的需求是不同的。

理解任务(如VQA)需要的是抽象的、高级的语义信息。

生成任务(如文生图)需要的是具体的、低级的像素细节。

传统的单一编码器试图用一套特征来满足两种截然不同的需求这本质上是一种“妥协”。而Janus则通过其双路径设计彻底解决了这一矛盾:

理解路径**:**沿用CLIP ViT输出紧凑的、富含语义的特征向量专门服务于理解任务。

生成路径**:**采用一个类似于VQ-GAN的视觉分词器(Visual Tokenizer)将图像无损地重建为离散的视觉Token序列。这个序列保留了图像的所有像素级信息专门服务于生成任务。

这种解耦设计带来了巨大的优势**:**两条路径可以被独立优化使得模型的理解和生成能力不再相互掣肘从而在各自的领域都能达到更高的性能。这一思想迅速成为2025年高性能统一模型的设计标准标志着视觉编码器设计从“一刀切”走向了“因材施教”的精细化阶段。

4、像素级编码**:**VITRON的统一表示

与Janus的“解耦”思想相对应另一条技术路线则追求极致的“统一”。VITRON提出的像素级编码(Pixel-level Encoding)就是其中的代表。它尝试将所有与视觉相关的任务无论是高级理解还是低级处理都统一到像素级别的表示上。

VITRON的设计使得模型不仅能输出描述图像的文本(理解)还能直接输出修改后的图像像素(编辑)或分割掩码(分割)。这种端到端的像素级生成能力使得模型在图像编辑、修复和分割等任务上展现出传统MLLM难以企及的精确控制力。虽然这种设计的计算成本相对较高但它为构建全能的“Photoshop AI”提供了可能代表了视觉编码器在通用性和任务广度上的一个重要探索方向。

不同视觉编码器设计范式对比

从单一的CLIP ViT到应对高分辨率挑战的多编码器再到为不同任务量身定制的解耦路径以及追求极致统一的像素级表示视觉编码器的演进之路清晰地反映了多模态模型对视觉信息日益增长的精细化、多样化和专业化需求。一个设计精良的视觉编码器是模型通往更强大、更通用多模态智能的坚实基石。

三、语言模型骨干网络**:多模态智能的思考中枢”**

在多模态大语言模型(MLLM)的架构中大型语言模型(LLM)扮演着无可替代的“思考中枢”角色。它负责接收来自不同模态编码器的信息并进行高级的语义理解、逻辑推理、指令遵循和内容生成。LLM骨干网络的性能直接决定了整个多模态系统的智能上限。因此选择一个强大且合适的LLM骨干并对其进行有效的多模态适配是构建高性能MLLM的关键步骤。

1、主流LLM骨干的选择**:**开源社区的赋能

2023年以来开源LLM的蓬勃发展极大地推动了多模态研究的进程。研究者们得以站在巨人的肩膀上将精力更聚焦于多模态的特定挑战而非从零开始训练一个庞大的语言模型。当前主流的开源MLLM主要围绕以下几个系列的LLM进行构建:

**LLaMA系列(Meta AI)****:**从LLaMA到LLaMA 2再到LLaMA 3,Meta发布的系列模型以其卓越的性能、庞大的社区支持和相对开放的许可证成为了构建MLLM的“黄金标准”。绝大多数有影响力的开源MLLM包括LLaVA、Janus、VITA-1.5等都采用了LLaMA系列作为其语言骨干。这形成了一个强大的生态系统相关的研究和改进可以方便地相互借鉴。

**Phi系列(Microsoft)****:**Phi系列特别是Phi-3以其“小模型、大能力”(Small Language Models,SLMs)的特点受到了广泛关注。它们通过在高质量、经过精心筛选的“教科书级别”数据上进行训练在相对较小的参数规模(如3.8B)下达到了与更大模型相媲美的性能。对于追求在端侧设备或资源受限环境中部署的多模态应用而言Phi系列是一个极具吸引力的选择。

**DeepSeek系列(DeepSeek AI)****:**DeepSeek-LLM和DeepSeek-Coder等模型以其强大的代码生成和数学推理能力而闻名。对于那些需要处理包含大量代码、公式或需要严谨逻辑推理的专业领域多模态任务(如科学文献理解、UI设计自动化)而言采用DeepSeek系列作为骨干网络可能带来独特的优势。

**Qwen系列(Alibaba)****:**从Qwen到Qwen2再到2025年的Qwen3阿里巴巴的Qwen系列模型以其强大的多语言能力和持续的全模态扩展而著称。特别是Qwen3-Omni其语言骨干从设计之初就考虑了与多种模态的深度协同是原生全模态模型的重要代表。

2、参数规模的影响**:**越大越好但需权衡

与纯文本LLM类似MLLM的性能也与其语言骨干的参数规模显著相关。通常来说更大的模型(如70B级别)在处理复杂指令、进行深度推理和生成高质量内容方面要优于较小的模型(如7B或13B级别)。许多前沿的MLLM研究为了追求更高的性能上限都会选择最大规模的开源LLM作为实验基础。

然而“越大越好”并非没有代价。巨大的模型尺寸带来了高昂的训练和推理成本限制了其在现实世界中的广泛部署。因此如何在模型性能和部署效率之间做出权衡是所有MLLM研究者和开发者必须面对的问题。这也催生了模型量化(Quantization)、知识蒸馏(Knowledge Distillation)等一系列模型压缩和加速技术在多模态领域的应用。

3、架构的微调与适配

尽管现代MLLM倾向于“冻结”LLM骨干的大部分参数以节省训练成本但为了更好地整合多模态信息一些微小的架构调整仍然是必要的。

词嵌入空间的扩展**:**LLM原始的词嵌入空间只包含文本Token。为了让LLM能够“看到”视觉Token需要将视觉编码器输出的特征向量投影到与文本Token相同的维度并将其视为一种特殊的“视觉词汇”添加到LLM的输入序列中。

注意力机制的调整**:**在处理包含视觉Token的混合序列时LLM的自注意力机制(Self-Attention)能够自然地学习文本与视觉、视觉与视觉之间的复杂关联。在某些设计中研究者还会引入额外的跨注意力模块以更显式地加强模态间的交互。

位置编码的扩展**:**对于需要处理多张图像或视频帧的输入如何设计有效的位置编码以告知LLM不同图像或帧的空间/时间关系是一个重要且开放的研究问题。例如需要让模型理解一张图片在另一张的“左边”或者一个视频帧在另一个的“之前”。

总而言之LLM作为多模态系统的“思考中枢”其选择和适配是整个系统设计的重中之重。开源LLM的繁荣为MLLM的快速发展提供了坚实的基础而如何在不同规模、不同特性的LLM骨干之间做出选择并对其进行精巧的多模态适配将持续是推动该领域向前发展的关键技术环节。

四、模态对齐机制**:**搭建跨模态沟通的桥梁

视觉编码器和LLM骨干是两个独立的“王国”模态对齐机制(Modality Alignment Mechanism)是连接这两个王国的“桥梁”。它的核心任务是将来自不同模态(如视觉)的特征信息高效、准确地转换为LLM能够理解和处理的“语言”。对齐机制设计的优劣直接关系到信息在跨模态传递过程中的保真度和有效性。其演进过程是从简单的线性投影到精巧的查询压缩再到更具适应性的专家混合网络体现了对更高对齐质量和效率的不懈追求。

1、线性投影层**:**最简单的连接

在早期的探索中最简单直接的对齐方法是使用一个或多个线性投影层(Linear Projection Layer)。其作用是将视觉编码器输出的特征向量(例如CLIP ViT输出的特征维度通常是1024或768)通过一个可训练的权重矩阵直接映射到与LLM词嵌入向量相同的维度(例如LLaMA的词嵌入维度是4096)。

这种方法的优点是极其简单、计算成本低。在LLaVA的第一阶段预训练中就是通过训练一个简单的线性投影层实现了视觉特征与语言模型初步的语义对齐。然而其缺点也同样明显:

信息瓶颈**:**一个简单的线性变换可能难以捕捉视觉特征与语言语义之间复杂的非线性关系。

长度不匹配**:**视觉编码器通常会为一张图片生成数百个特征向量(每个对应一个图像块)而LLM在处理长序列时会面临巨大的计算压力。如何将这些大量的视觉特征有效地呈现给LLM是一个挑战。

2、Q-Former架构**:**高效的查询压缩

为了解决上述挑战BLIP-2提出了革命性的Q-Former(Querying Transformer)架构。Q-Former可以被看作是一个精巧的“信息压缩器”和“转换器”它在冻结的视觉编码器和冻结的LLM之间扮演了关键的桥梁角色。

Q-Former的核心机制是引入了一小组(例如32个)可学习的查询向量(Learnable Queries)。这些查询向量通过一个专属的Transformer网络与来自视觉编码器的海量图像块特征进行交互(通过交叉注意力机制)。在这个过程中查询向量被训练来“主动地”从图像中提取与特定文本描述最相关的视觉信息。最终这些“吸收”了关键视觉信息的查询向量其输出的特征就被作为软提示输入给LLM。

Q-Former的优势是多方面的:

高效压缩**:**无论原始图像编码器输出多少特征Q-Former总能将其压缩为一小段固定长度(如32个)的序列极大地减轻了后续LLM的处理负担。

强大的对齐能力**:**通过专门的预训练任务(如图像-文本对比学习、图像-文本匹配、图像引导的文本生成)Q-Former能够学习到高质量的、蕴含丰富语义的视觉表示。

灵活性与可扩展性**:**Q-Former的设计是模块化的可以方便地接入任何视觉编码器和LLM具有很强的通用性。

Q-Former的成功使得“冻结主干、只训练适配器”的训练范式成为可能并被后续大量的MLLM工作(如InstructBLIP)所采纳成为模块化联合建模时代最核心的对齐技术。

3、MoE连接器**:**专家网络实现自适应对齐

进入2025年随着模型需要处理的模态和任务越来越多样化研究者们发现单一的、通用的对齐模块可能已不足以应对所有情况。例如理解一张照片所需的视觉特征和理解一张科学图表所需的视觉特征其侧重点可能完全不同。为了实现更具适应性的对齐专家混合网络(Mixture-of-Experts,MoE)的思想被引入到对齐模块的设计中。

ICLR 2025的Oral论文ChartMoE是这一方向的杰出代表。

在处理复杂的图表理解任务时ChartMoE设计了一个MoE连接器。该连接器包含多个并行的“专家网络”(每个专家通常是一个小型的MLP或Transformer)以及一个“门控网络”(Gating Network)。当视觉特征输入时门控网络会根据特征的类型和内容动态地决定将这些特征分配给哪个或哪些专家进行处理并赋予不同的权重。例如一些专家可能擅长处理图表中的文本和数字另一些专家则可能擅长理解图表的结构和布局。

通过这种方式MoE连接器实现了自适应的、任务导向的对齐。它能够根据输入数据的特点动态地组合不同专家的能力从而比单一的连接器获得更精细、更准确的视觉表示。ChartMoE凭借其创新的MoE连接器在多个图表理解基准上取得了超过16%的巨幅性能提升充分证明了这种自适应对齐机制的优越性。

4、全模态对齐的挑战与发现

当模型需要处理的模态从视觉-语言扩展到音频、视频等更多模态时对齐机制面临着新的挑战。一个核心问题是:在统一的语义空间中对齐多种模态是否会因为“模态冲突”而损害各自的性能?

传统的观点认为不同模态的最优表示空间可能存在差异强行将它们对齐可能会导致性能下降。然而2025年的EMOVA模型通过其在视觉-语言-语音三模态上的实验得出了一个令人振奋的发现:精心设计的全模态对齐不仅不会损害性能反而能够产生“增强效应”(Enhancement Effect)。

例如在对齐了语音模态后模型在纯视觉-语言任务上的性能也得到了提升。这可能是因为不同模态的信息可以相互印证、相互补充从而帮助模型学习到更鲁棒、更抽象的通用语义表示。

这一发现为构建更强大的全模态模型注入了强心剂。它表明追求更广泛的模态覆盖不仅是为了扩展模型的功能其本身就是一条通往更深层次智能的有效路径。如何设计能够最大化这种“增强效应”的全模态对齐机制将是未来研究的一个重要方向。

从简单的线性投影到高效的Q-Former再到自适应的MoE连接器模态对齐机制的演进之路是多模态模型不断追求更高效、更精准、更智能的跨模态“沟通”方式的缩影。正是这些日益精巧的“桥梁”让不同模态的信息得以在LLM的“思考中枢”里顺畅地流动、碰撞与融合最终涌现出强大的多模态智能。

五、生成范式的革命**:**追求质量、速度与统一

理解是智能的输入生成就是智能的输出。多模态大语言模型不仅要“看懂”世界更要“创造”世界。生成范式的演进是2024年至2025年多模态技术发展最为活跃、最具突破性的领域之一。这场革命的核心是在追求更高生成质量的同时不断提升生成速度并最终将不同的生成模型统一到一个优雅的框架之下。其演进路径主要围绕着自回归(AR)、扩散(Diffusion)和流(Flow)这三大主流范式展开并最终走向了高效的混合生成。

1、传统生成范式**:**自回归与扩散的权衡

在多模态生成领域长期以来主要由两种范式主导**:**

**自回归模型(Autoregressive Models,AR)****:**这类模型将生成过程视为一个序列决策过程。在图像生成中它们通常先将图像“展平”为一个一维的像素或Token序列然后像生成文本一样逐个像素或逐个Token地进行预测和生成。其优点是架构与语言模型天然统一可以直接利用LLM进行生成。但缺点也十分突出:

速度慢**:**串行的生成方式导致推理速度与图像大小成正比难以用于实时应用。

误差累积**:**生成过程中的一个错误可能会被后续步骤不断放大导致生成的图像在全局结构上出现问题。

单向性**:**只能从左到右、从上到下地生成缺乏灵活性。

**扩散模型(Diffusion Models)****:**自2020年DDPM提出以来扩散模型以其卓越的生成质量和多样性迅速成为高质量图像生成的主流。它通过一个“加噪-去噪”的过程来学习数据的分布。在生成时模型从一个纯噪声图像开始通过数十上百次的迭代去噪逐步恢复出清晰的图像。其优点是生成质量极高能够产生逼真的细节和纹理。但其核心痛点在于:

推理速度极慢**:**多次迭代去噪的过程非常耗时严重限制了其应用场景。

与LLM架构不兼容**:**扩散模型(通常基于U-Net架构)与LLM(基于Transformer架构)在结构上存在差异难以实现完美的统一。

在2024年之前研究者们通常需要在这两种范式之间做出艰难的权衡:要么选择与LLM架构统一但速度慢、质量稍逊的自回归模型要么选择质量高但速度极慢且难以统一的扩散模型。

2、混合生成范式的探索**:**Show-o的启示

为了打破上述僵局2024年的Show-o提出了一种创新的混合生成范式。它巧妙地在同一个Transformer架构内将自回归与离散扩散(Discrete Diffusion)结合起来。其生成过程分为两个阶段:

**全局规划(AR)****:**模型首先以自回归的方式快速生成一个低分辨率的、包含图像全局结构和布局的“草图”或“计划”。

**局部细化(Diffusion)****:**然后模型将这个草图作为条件利用并行的离散扩散过程对草图进行细节的填充和高清化。

这种“先规划后细化”的策略既发挥了自回归模型在把握全局结构上的优势又利用了扩散模型在生成高质量细节上的长处实现了质量与速度的有效平衡。Show-o的探索证明了不同生成范式并非不可调和而是可以协同工作为后续的生成模型发展开辟了新的道路。

3、流模型的崛起**:**JanusFlow与NExT-OMNI的突破

2025年生成范式革命的真正主角是流模型(Flow Models)。流模型旨在学习一个从简单先验分布(如高斯噪声)到复杂数据分布的直接映射函数。相比于扩散模型的多步迭代理想的流模型仅需一步或极少步就能完成高质量的生成从而在理论上拥有巨大的速度优势。

**整流流(Rectified Flow)****:**JanusFlow是将整流流成功应用于大规模多模态生成的开创性工作。整流流通过一种特殊的“重参数化”技巧将复杂的非线性变换路径“拉直”使得模型更容易学习。

JanusFlow提出的“AR + Flow”混合范式在生成时先用AR模型快速生成一个高质量的“起点”然后通过1-8步整流流采样就能达到与数百步扩散模型相媲美的生成质量。这在保持高质量的同时将生成速度提升了数十甚至上百倍。

离散流匹配(Discrete Flow Matching):NExT-OMNI则探索了更前沿的离散流匹配技术。

它将所有模态(文本、图像、音频、视频)都统一为离散的Token序列然后直接学习这些离散Token分布之间的变换流场。这使得模型能够实现“任意模态到任意模态”的生成例如文生图、图生文、文生视频、视频生音频等都在一个统一的流模型框架下得以实现。NExT-OMNI的成功标志着流模型在处理离散数据和实现全模态统一生成方面的巨大潜力。

主流生成范式对比(2025视角)

从自回归与扩散的艰难权衡到混合范式的巧妙融合再到流模型的全面崛起生成范式的革命性演进是2025年多模态技术最激动人心的篇章。流模型以其兼具高质量、高速度和高统一性的巨大潜力正迅速成为下一代生成模型的标准范式为实现更强大、更实时的多模态内容创作奠定了坚实的技术基础。

六、训练方法的创新**:**追求数据效率与能力对齐

拥有了先进的架构如何高效地“教导”这些庞大的模型是决定其最终能力的关键。训练方法(Training Methods)的创新与架构设计本身同等重要。在多模态大语言模型的演进过程中训练方法的核心目标始终围绕着两个方面:提升数据效率(如何用更少、更易获取的数据达到更好的效果)和实现能力对齐(如何让模型真正理解并遵循人类的意图)。其发展脉络是从大规模的无监督预训练到有监督的指令微调再到更精细化的多阶段渐进式训练。

1、两阶段训练范式**:**预训练+ 指令微调

自LLaVA以来一种经典的两阶段训练范式成为了开源社区的主流**:**

第一阶段**:**视觉-语言预训练(Vision-Language Pre-training)

目标**:**实现视觉特征与语言模型在语义层面的初步对齐。

数据**:**通常使用大规模、相对原始的图文对数据如CC3M、LAION等。这些数据包含数十亿的图文对但质量参差不齐。

方法**:**训练一个连接模块(如线性投影层或Q-Former)使其能够将视觉编码器输出的特征映射到LLM的输入空间。训练任务通常是简单的图像-文本匹配或图像引导的文本生成。

关键**:**这一阶段只训练连接模块LLM和视觉编码器的骨干参数通常被冻结因此训练成本相对较低。

第二阶段**:**多模态指令微调(Multimodal Instruction Tuning)

目标**:**教会模型遵循人类的指令进行复杂的、对话式的多模态任务。

数据**:**使用高质量、经过精心构建的指令遵循数据集。这些数据集通常规模不大(数十万到数百万级别)但格式多样覆盖了从简单的图像描述到复杂的多轮视觉推理等各种任务。LLaVA-Instruct-158K是这类数据集的开山之作。

方法**:**在指令数据集上对整个模型(或LLM骨干的大部分参数)进行端到端的有监督微调(Supervised Fine-tuning,SFT)。

关键**:**数据的质量和多样性远比数量更重要。许多工作都致力于如何利用GPT-4等更强大的模型来自动生成更高质量的指令数据。

这一“先对齐后微调”的两阶段范式在成本和效果之间取得了很好的平衡被证明是训练强大的多模态理解模型的有效路径。

2、多阶段渐进式训练**:**VITA-1.5的精细化策略

随着模型需要处理的模态越来越多(如加入语音)以及对实时交互等更高能力的要求简单的两阶段训练可能已不足以实现最优的对齐。为了更精细地协调不同模态的学习过程2025年的VITA-1.5提出了一种多阶段渐进式训练(Multi-stage Progressive Training)策略。

VITA-1.5的训练过程被分解为四个精心设计的阶段层层递进逐步解锁模型的能力**:**

阶段一**:**语言-视觉对齐。与传统方法类似使用大规模图文对数据对齐视觉编码器和LLM。

阶段二**:**语言-音频对齐。在第一阶段的基础上加入音频模态。使用大规模的“音频-文本”对数据(如语音识别数据)训练一个音频编码器与LLM的对齐。

阶段三**:**多模态指令微调。使用包含图像、音频和文本的混合指令数据集对整个模型进行微调教会模型处理图文、声文混合的指令。

阶段四**:**对话能力微调。最后使用真实世界的多模态对话数据进一步提升模型的交互流畅度和上下文理解能力。

这种渐进式的训练策略如同精心设计的课程让模型在每个阶段都聚焦于一个特定的学习目标。它避免了在训练初期就用过于复杂的混合模态数据“淹没”模型从而实现了更稳定、更高效的训练过程。VITA-1.5凭借这一策略成功地在单一模型中高效地整合了视觉和语音两大核心交互模态并实现了出色的实时性能。

3、数据策略的创新**:**从海量噪声到高质量合成

训练方法的创新离不开数据本身的创新。在数据层面一个清晰的趋势是从追求“量”转向追求“质”。

**早期(2022-2023)****:**研究者们主要依赖于从网络上爬取的、未经清洗的数十亿级别的图文对数据(如LAION-5B)。这种“大力出奇迹”的方式虽然有效但也带来了数据偏见、内容不可控等一系列问题。

**中期(2023-2024)****:**随着GPT-4等强大模型的出现数据合成(Data Synthesis)成为主流。研究者们发现利用GPT-4的API可以从少量的人类标注数据出发“生成”出海量、高质量、多样化的指令微调数据。LLaVA-Instruct-158K的成功充分证明了合成数据在激发LLM多模态能力方面的巨大潜力。

**近期(2025)****:**数据策略变得更加精细化。例如ChartMoE为了训练其图表理解能力专门构建了一个包含100万个“图表-表格-JSON-代码”四元组的庞大数据集通过多任务学习让模型深刻理解图表的结构化信息。EMOVA为了让模型理解情感专门设计了包含丰富情感标注的语音-文本数据集。这种面向特定能力的、高度结构化的数据构建正在成为提升模型专业能力的关键。

总结而言训练方法的创新是一场在数据效率、能力对齐和训练成本之间不断寻求最优解的探索。从经典的两阶段范式到更精细化的多阶段渐进式训练再到数据策略从“量”到“质”的转变这些创新共同确保了多模态大语言模型能够在有限的资源下被高效地“塑造”成我们所期望的、功能强大的智能体。

七、国内代表性模型的架构创新

2025年国内涌现出一批在架构设计上极具创新性的多模态大语言模型,它们针对特定问题提出了独特的解决方案。

Qwen3-VL的**“”:**Qwen3-VL的架构设计核心在于解决多模态长上下文的挑战。

其增强的交错MRoPE(Interleaved Multi-head Rotational Positional Embedding)是对传统旋转位置编码的改进,使其能更好地处理视频帧之间、以及图文交错内容中的时空关系。而DeepStack技术则借鉴了特征金字塔网络的思想,将视觉编码器(ViT)不同层级的特征进行有效融合,使得语言模型不仅能看到高层的语义信息,也能获取底层的细节纹理,从而实现更精细的视觉-语言对齐。这种“深”度特征融合与“长”上下文处理能力的结合,使其在处理长视频和复杂文档时表现突出。

DeepSeek-OCR的**“”:**DeepSeek-OCR的思路则完全不同,它巧妙地将“语言问题”转化为“视觉问题”来降维。

其核心组件DeepEncoder通过串联窗口注意力、16倍卷积压缩器和全局注意力,实现了在高分辨率输入下依然能产出极少量(通常少于100个)视觉token的壮举。这使得后续的3B MoE语言模型可以轻松地进行“解压缩”(即OCR识别)。这种“先压缩再解压”的模式,本质上是一种“以空间换时间”的策略,极大地降低了长文档处理的计算复杂度,体现了架构设计的“轻”与“巧”。

文心5.0的**“原生统一”:**文心5.0最大的特点在于其“原生全模态”的设计哲学。与大多数先分别预训练单模态编码器,再通过连接模块进行对齐的“胶水”模型不同,文心5.0从一开始就将所有模态的数据(文本、图像、音频、视频)放入一个统一的Transformer架构中进行端到端的联合训练。这种“大一统”的方法理论上能让模型在最底层就学习到不同模态之间最本质的关联,从而在需要深度跨模态推理的任务上展现出更强的性能和更好的一致性。这是对多模态建模范式的一次大胆探索。

Emu3.5的**“预测加速”:**Emu3.5的架构服务于其“世界模型”的定位。

它将所有任务都统一为“预测下一个token”,无论是文本、图像还是动作。这种极简的统一目标使其能够学习到世界状态的演化规律。然而,传统的自回归生成方式效率低下,无法满足世界模型实时交互的需求。为此,Emu3.5引入了DiDA(离散扩散适配),这是一种将自回归的逐token生成,巧妙地转换为可以并行计算的双向预测的技术。通过DiDA,Emu3.5在生成图像等任务上实现了约20倍的推理加速,使其世界模型的能力从理论走向了实用。

这些国内模型的架构创新,从不同角度为多模态技术的发展贡献了宝贵的思路,共同构成了2025年多模态技术百花齐放的繁荣景象。

八、OpenVLA**:**开启开源机器人操控新时代

OpenVLA是首个完全开源的“视觉-语言-动作”(Vision-Language-Action, VLA)模型。它在高达97万条真实世界机器人演示数据上进行训练,为通用机器人操控策略树立了新的性能标杆,并极大地推动了具身智能领域的研究。

OpenVLA的架构设计精巧而高效。它创新性地采用了双视觉编码器设计,融合了DINOv2和SigLIP两个强大的预训练视觉模型的特征。DINOv2擅长提供低层次的空间几何信息,而SigLIP则能提供高层次的语义信息。这种“双剑合璧”的设计,显著增强了模型对复杂场景的视觉泛化能力,这对于机器人需要在多变环境中进行精确操作至关重要。视觉特征通过一个小型MLP投影器映射到语言嵌入空间,并与基于Llama 2 7B的大语言模型骨干相结合。整个模型通过端到端的方式进行训练,直接将视觉-语言模型微调用于生成机器人的控制动作。

在动作表示上,OpenVLA采用了一种简单而有效的方法。它将连续的7维机器人动作(例如,手臂末端执行器的三维位置、三维姿态和夹爪状态)离散化为一系列的整数“tokens”。每个动作维度被独立地划分为256个区间(bins),然后将这些离散的动作tokens直接覆写到语言模型词汇表中,从而将动作生成问题巧妙地转化为了一个标准的“下一个token预测”问题。这种方法不仅简化了模型架构,也使得利用现有的大语言模型训练框架成为可能。

得益于其强大的架构和在Open X-Embodiment这一大规模、多样化数据集上的训练,OpenVLA在29个评估任务和多种机器人硬件上,其绝对任务成功率比之前最先进的、参数量大7倍的闭源模型RT-2-X高出16.5%。更重要的是,OpenVLA支持通过LoRA等参数高效微调方法,在消费级GPU上快速适应新的机器人和任务,并且其模型权重、训练数据和代码库完全开源。这极大地降低了机器人研究的门槛,为整个社区探索更先进的VLA模型铺平了道路。

本报告共计分为“序言、多模态大语言模型发展历程**、核心技术架构与训练方法的进化**、数据来源与评估基准、应用场景与实践、当前挑战与未来展望****”六大部分内容。本文为“核心技术架构与训练方法的进化”内容节选。

​最后

我在一线科技企业深耕十二载,见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​
在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

img
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

在这里插入图片描述

​​
在这里插入图片描述

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​在这里插入图片描述
在这里插入图片描述

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐