LoRA技术解析：如何让大型语言模型（LLM）具备多模态能力？

《多模态大模型构建路径与技术演进》摘要：当前多模态模型发展呈现两大技术路线：一是原生多模态模型（NMMs）如Chameleon，采用统一离散标记空间架构；二是基于预训练LLM添加视觉模块的主流方案，如LLaVA通过视觉编码器+投影矩阵实现。最新研究Vision as LoRA提出创新方案，仅微调LoRA适配器实现视觉能力集成，既保留LLM原有知识又提升训练效率。文章还梳理了从系统设计到行业落地的A

网安福宝

735人浏览 · 2025-08-29 14:54:54

网安福宝 · 2025-08-29 14:54:54 发布

一、引言

当大语言模型（LLMs）进入消费市场时，人人都想分一杯羹。然而随着时间的推移，我们开始渴望超越单纯的语言建模能力。视觉是首个被攻克的模态领域之一，这使得大量视觉语言模型（Vision Language Models，VLMs）涌向市场。

若我问你："我已经学会了从零构建LLM模型，现在想为其融入视觉能力。你认为我应该如何入手？这里给出两大类方向：

从头训练同时支持语言和视觉的模型（原生多模态模型 - NMMs）
利用预训练LLM并为其添加视觉模块（预训练LLM+视觉模块）

由于NMMs的复杂性，多模态领域早期研究主要采用第二种路径。

在探讨该领域最新进展之前，让我们先简要分析这两种方法。

二、原生多模态大模型

本文将聚焦讨论"早期融合（Early Fusion）"模型，并将NMMs定义为对所有模态共享统一离散标记空间的模型。

基于上述定义，我们可以排除VisualBERT（2019）、Flamingo（2022）、PaLI（2022）等早期多模态模型（因其架构设计不符合严格的原生多模态标准）。

根据我们的标准，Meta发布的Chameleon（2024）被认为是首个真正的原生多模态模型，其设计理念直接推动了Llama 4、Gemini 2.5等后续模型的涌现。

Chameleon大体沿用了Llama-2的架构，但进行了关键性优化：

激活函数改用SwiGLU
位置编码采用RoPE技术

然而，由于softmax函数的平移不变性特征，Llama架构也导致Chameleon出现了逻辑偏移（logit drift）问题。虽然本文不深入探讨其完整优化流程（如多模态对齐、动态批处理策略等），但对模型实验细节感兴趣的读者可研读Chameleon论文，了解Meta团队如何在训练稳定性与性能间取得精妙平衡。

既然我们的目标是基于现有LLM构建多模态模型，接下来将重点解析第二种实现路径。

三、预训练大语言模型+视觉模块

有多种方法可以将 LLM 与视觉模块融合，但最常见的方法是 LLaVA 论文中展示的那种。让我们看看它是如何工作的。

图像通过视觉编码器进行处理，然后投影到词嵌入空间。请注意，这个投影矩阵是一个可训练的张量。这个编码器模型可以是任何东西——就像 LLaVA 论文中的 CLIP，或者 ViT（因为大多数近期论文都使用它）。

视觉编码器的权重始终是冻结的，而投影矩阵和语言模型的参数在训练期间会被更新。

在不涉及任何技术细节的情况下，让我们看看训练是如何进行的。

假设你和你的助手一起在艺术画廊里，你们看到了一幅20世纪初的作品，你想了解更多关于这幅作品的信息。幸运的是，你的助手对这幅作品了如指掌，于是你们开始以多轮对话的形式交流（你提问，助手回答）。你的助手会观察这幅作品，并将信息存储在他们的记忆中。之后，整个对话会保持连贯性，每一个问题都能得到恰当的回答。在LLaVA架构中，生成答案的工作由最终的语言模型完成。

这可以重新想象为以最大似然估计的方式进行训练，如下所示：