大模型微调综述：PEFT

文艺小码农

575人浏览 · 2026-02-27 16:59:05

文艺小码农 · 2026-02-27 16:59:05 发布

论文链接：Parameter-Efficient Fine-Tuning for Foundation Models

这篇综述深入探讨了Foundation Models (FMs)背景下的Parameter-Efficient Fine-Tuning (PEFT)技术。PEFT是一种成本效益高、计算复杂度低且能实现接近全参数微调性能的技术，它旨在解决大型FMs在下游任务上进行微调时面临的巨大计算和存储挑战。FMs涵盖了语言、视觉和多模态等多个领域，例如ChatGPT、DALL-E和LLaVA，它们在各自领域内提供理解、生成和多模态任务能力。FMs的多样性也引导了PEFT的多种适应策略。本综述旨在为PEFT在FMs中的应用提供全面的概述，并识别未来研究方向。

一. 基础模型（FMs）的分类

FMs根据输入模态和功能大致分为五类：

Large Language Model (LLM)：理解、生成和操作文本，如BERT、LLaMA、GPT-4。
Vision Foundation Model (VFM)：理解和生成视觉数据，如Grounding DINO、SAM。
Vision Language Model (VLM)：整合视觉和文本模态，理解图像与语言的关系，如CLIP、BLIP、GPT-4V。
Visual Content Generation Model (VGM)：生成高质量视觉内容（图像、视频、3D模型），如Stable Diffusion、DALL-E、Sora。
Multi-Modal Foundation Model (MFM)：扩展LLM处理多种模态的能力，如LLaVA-1.5、Gemini 1.5 Pro。

二. PEFT方法的发展与分类

PEFT方法根据其核心机制分为五大类：

选择性PEFT（Selective）：仅微调部分参数。例如，层冻结（Layer-wise Freezing）逐步解冻模型层；参数重要性筛选策略动态选择关键参数。
附加式PEFT（Additive）：插入轻量适配模块。如Adapter方法在Transformer层间添加瓶颈层，仅更新适配器参数。
提示式PEFT（Prompt）：学习可训练提示向量（Soft Prompts），如文本提示（Text Prompting）或视觉提示（Visual Prompt Tuning）。
重参数化PEFT（Reparameterization）：对权重矩阵低秩分解（如LoRA）或稀疏化，减少需更新的参数量。
混合式PEFT（Hybrid）：结合多种方法（如Adapter+Prompt），针对任务需求优化组合策略。

三. Slective PEFT (选择性PEFT)

该类别通过仅微调模型参数的子集来最小化可训练参数。

（1）基本方法

Specific Selection (特定选择)：预先选择特定层或神经元进行微调。
- Freeze Layers (冻结层)：仅微调FMs的最后几层。
- BitFit：仅调整模型的部分或全部bias terms。对于一个Transformer中的线性层，如Attention模块中的Query、Key、Value编码器，其计算公式为：
${Q}^{m,\ell }\left( x\right) = {W}_{q}^{m,\ell }x +\textcolor{blue}{ {b}_{q}^{m,\ell }}, \\ {K}^{m,\ell }\left( x\right) = {W}_{k}^{m,\ell }x + \textcolor{blue}{{b}_{k}^{m,\ell }}, \\ {V}^{m,\ell }\left( x\right) = {W}_{v}^{m,\ell }x + \textcolor{blue}{{b}_{v}^{m,\ell }}.$

其中， ${b}_{q}^{m,\ell },{b}_{k}^{m,\ell },{b}_{v}^{m,\ell }$ 是可训练的bias terms。
- PASTA：仅更新特殊token的参数（如[SEP]和[CLS]）。
Automatic Selection (自动选择)：通过算法自动确定要训练的参数。
- Masking (掩码)：训练二元掩码选择性地掩码FMs的参数。
- Diff-Pruning (差分剪枝)：学习一个二元任务来微调初始预训练参数，并通过 $L_0$ -norm正则化进行自适应剪枝。
- FISH (Fisher-Induced Sparse uncHanging)：根据Fisher Information选择top-k参数进行更新。
- CHILD-TUNING：识别参数矩阵中的子网络并生成对应的掩码矩阵，仅更新子网络对应的参数。其更新公式为：

$w^{t+1} = w^t - \eta \frac{\partial L(w^t)}{\partial w^t} \odot M^t$

其中， $w$ 是参数， $L$ 是损失， $\eta$ 是学习率， $M^t$ 是掩码矩阵（1表示属于子网络，0表示不属于）。

（2）在FMs中的其它应用

FC-CLIP（VFM，通过分类得分融合in-vocabulary和out-of-vocabulary预测）、Tune-A-Video（VGM，通过DDIM inversion进行视频结构引导）、LayerNorm Tuning（MFM，仅调整归一化层权重）。

（3）优缺点

优点是无需添加新参数，控制模型复杂度，不增加推理时间。缺点是部分方法（如FISH、CHILD-TUNING）可能因掩码矩阵增加内存使用，或因选择机制（如Diff-Pruning）增加训练时间。

四. Additive PEFT (增量式PEFT)

该类别通过插入小型Adapter网络来微调模型，而无需修改原始模型参数。

（1）基本方法

Bottleneck Adapter (瓶颈Adapter)：在FMs层之间插入Adapter层，Adapter层将输入降维到较小维度，通过非线性激活函数，再升维到原始维度，并带有残差连接。
Multi-Adapter (多Adapter)：添加更多Adapter模块以增强可迁移性。
- Adapter Fusion：通过融合多个任务的Adapter参数来组合知识。
- AdaMix：重构Adapter结构，使用随机平均选择代替Gating Network，公式为MoE的输出：
  $h(x_s) = \sum_i G(x_s)_i E_i(x_s)$
  其中， $E_i$ 是专家FFN， $G(x_s)_i$ 是选择专家 $E_i$ 的概率。
- MAD-X：包含可逆Adapter、语言Adapter和任务Adapter。
- BAD-X：学习双语语言对Adapter以进行更有效的跨语言迁移。
Adapter Sparsity (Adapter稀疏性)：利用Adapter的内部结构进行剪枝以提高参数效率。
- AdapterDrop：训练期间随机丢弃Adapter以降低计算和内存需求。
- AdapterBias：引入与token相关的偏移量来适应下游NLP任务。
- SparseAdapter：从网络剪枝角度检查additive PEFT。
- LST (Ladder-Side Tuning)：在预训练网络一侧训练小型Transformer网络。

（2）在FMs中的其它应用

LST（应用于T5和CLIP-T5）、Convpass（VFM，在ViT中引入卷积旁路）、AdaptFormer（VFM，轻量级模块）、ViT-Adapter（VFM，增强ViT内在表征能力）、SAN（VFM，分离掩码提议生成和类别识别）、CSN (DTL)（VFM，解耦骨干权值更新）、T2I-Adapter（VGM，公式： $\cdot A(x_c)$ ，其中 $M (t)$ 是文本提示生成的图像， $A(x_c)$ 是条件信号控制的Adapter输出， $w$ 是权重）、IP-Adapter（VGM，引入交叉注意力机制学习图像Embedding，公式： $\hat{\epsilon}_\theta (x_t, c, t) = w\epsilon_\theta (x_t, c, t) + (1 - w)\epsilon_\theta (x_t, t)$ ，其中 $w$ 是指导尺度）、ControlNet（VGM，添加空间局部条件）、ControlNeXt（VGM，轻量级条件控制模块）、LLaMA-Adapter V2（MFM，解锁更多可学习参数）、CLIP-Adapter和Tip-Adapter（VLM，插入可训练Adapter）。

（3）优缺点

优点是向模型中集成任务特定参数，保留预训练知识的完整性，有利于快速部署和迁移学习。缺点是可能因Adapter层增加推理开销，且需要仔细配置初始化和训练策略（如Adapter维度和稀疏率）。

五. Prompt PEFT (提示PEFT)

该类别通过在输入或Transformer层中加入精心设计的Prompt来引导模型生成所需输出。

（1）基本方法

Hard Prompt (硬提示)：手动指定模板并与输入拼接。
- PET：将输入示例重构为完形填空式句子。
- Null Prompts：使用通用模板“input + [MASK]”。
AutoPrompt (自动提示)：通过探索性搜索自动生成Prompt，解决手动设计挑战。
Soft Prompt (软提示)：使用连续的、可学习的Embedding向量作为Prompt。
- Prefix Tuning：冻结FMs参数，仅优化任务特定的连续向量（Prefix），将其作为可微分的虚拟Token插入Transformer的Attention层，在Prefix层前引入MLP增强稳定性。
- Prompt Tuning：Prefix Tuning的简化版，仅在输入层添加Prompt Token。
- P-Tuning：将Prompt转换为可学习的Embedding层，通过MLP和LSTM结构处理。
- P-Tuning v2：将Prompt Token扩展到模型的每一层，增加可学习参数以提高可扩展性和通用性。
- DART：将Prompt生成视为可微分函数，通过梯度优化Prompt生成。
- y-Tuning：微调标签提取器参数，结合FMs和标签提取器的损失特征，避免调整输入文本属性或FMs参数。
- PPT (Pre-trained Prompt Tuning)：通过自监督任务在大型无标签语料库上预训练软Prompt。
- SPoT：利用预训练Prompt增强少样本学习，将源任务训练的Prompt初始化目标任务Prompt。
- Prompt Transfer：重用已训练的软Prompt进行零样本推理或持续训练。

（2）在FMs中的其它应用

VP（VFM，向图像像素空间添加像素形式Prompt）、VPT（VFM，在输入空间引入可学习参数）、DAM-VP：VFM，自适应选择和优化视觉Prompt，公式为带Prompt $p_k$ 的数据集 $D_T$ 上的交叉熵损失：
$p^*_1, \dots, p^*_N = \arg\min_{p_1,\dots,p_N} \frac{1}{|D_T|N} \sum_{i=1}^N \sum_{x \in D_i} \mathcal{L}_{CE} (M(x+p_i), y)$
、ILM-VP（VFM，通过迭代标签映射增强视觉Prompt）、EVP（VFM，将Prompt视为可学习实体）、LION（VFM，轻量级视觉Prompt Tuning）、Textual Inversion（VGM，在CLIP的文本编码器中描述新概念以微调Diffusion Model）、CoOp（VLM，通过可学习向量建模Prompt上下文词）、OVSeg（VLM，结合掩码和彩色Prompt）、Q-Former（MFM/VLM，使用轻量级投影桥接模态间隙）。

（3）优缺点

优点是调整可学习Prompt向量，保持架构一致，提高灵活性和通用性；且基础模型参数固定，有助于跨任务知识保留。缺点是Prompt的迁移能力差，强依赖于基础模型能力，性能提升空间受限于基础模型。

六. Reparameterization PEFT (重参数化PEFT)

该类别通过重新参数化初始模型参数的低维表示进行训练，并在推理时将权重转换回原始形式，以解决Additive PEFT的推理速度和Prompt PEFT的稳定性问题。

（1）基本方法

LoRA (Low-Rank Adaptation)及其变体：利用低秩结构特性，向FMs添加旁路，仅更新低秩矩阵A和B。其更新公式为：

$W_0x + \Delta W x = W_0x + BAx$

其中， $W_0$ 是原始权重， $\Delta W$ 是更新量， $B$ 和 $A$ 是低秩矩阵。

KronA：使用Kronecker积代替低秩矩阵。
QLoRA：在量化后的4-bit冻结FMs上进行微调，通过梯度传播到LoRA。
LoRA-FA：冻结矩阵A的投影下权重，仅更新矩阵B的投影上权重，节省激活内存。
IncreLoRA：根据模块重要性动态添加可训练参数。
Delta-LoRA：不仅更新低秩矩阵A和B，还通过其乘积的差值调整预训练权重W。

$(\Delta W)^{t+1} = (\Delta W)^t + (A^{t+1}B^{t+1} - A^tB^t)$

MPO (Matrix Product Operator)：分解参数矩阵，仅训练低参数的辅助张量。

（2）在FMs中的其它应用

LoRand（VFM，低秩分解创建紧凑Adapter）、LyCORIS（VGM，高级工具微调Stable Diffusion）、DiffuseKronA（VGM，Kronecker积分解Attention层）、Mix-of-Show（VGM，ED-LoRA用于单概念训练）、LoRA-Sparse（MFM，低秩线性投影层用于稀疏Attention）。

（3）优缺点

优点是高度灵活，适用于几乎所有主流模型，快速适应新任务和领域。缺点是敏感于超参数（如秩），且低秩矩阵可能限制在复杂任务中的表达能力。

七. Hybrid PEFT (混合式PEFT)

该类别整合多种PEFT方法（如LoRA、BitFit、P-Tuning）到统一框架中，以实现参数效率、计算负担和性能的优化。

（1）基本方法

UniPELT：整合Adapter、Prefix Tuning和LoRA，并采用门控机制调节这些模块。
COMPACTER：扩展基础Adapter概念，引入基于低秩矩阵Kronecker积的新型轻量级Adapter结构，表达为 $\otimes B$ 。
MAM Adapter：研究Adapter排列和软Prompt使用，提出结合FFN层并行Adapter和软Prompt的Multi-Head Attention Adapter。
S4：将层分为四组，并对每组应用不同的PEFT技术组合（Adapter、Prefix Tuning、BitFit、LoRA）。
在更多FMs中的应用：NOAH（VFM，神经网络搜索Prompt模块，整合Adapter、LoRA、VPT）、DiffFit（VGM，仅微调bias terms并引入缩放因子）、V-PEFT（视频任务PEFT统一分析）、DreamBooth（VGM，少量图像微调Diffusion Model）。
优缺点：优点是提供统一框架，增强灵活性和适应性，融合多种PEFT优势提升性能。缺点是引入更高复杂性，增加计算、开发和标注成本；且可能存在不可预见的组合，导致次优性能。

（2）在FMs中的其它应用

LLMs：在Causal LLMs（如GPT-3、LLaMA）和Prefix LLMs（如ChatGLM）中广泛应用。LoRA及其变体、Adapter、Prompt Tuning和P-Tuning等技术被用于提高数学推理、问答、代码生成等任务的效率和性能。
VFMs：PEFT在ViT等基础视觉模型中应用广泛，包括图像识别（AdaptFormer、VPT、CSN (DTL)）和视频理解（ST-adapter、AIM）。在Prompted VLMs中，PEFT通过文本Prompt（CoOp、KgCoOp）和视觉Prompt（OVSeg、CPT）实现视觉grounding、语义分割、视频理解等。
VGMs：Diffusion Models是该领域的核心。PEFT方法如Textual Inversion、T2I-Adapter、DreamBooth、ControlNet、LoRA及其变体在图像生成、视频生成、编辑和超分辨率等场景中频繁使用。
MFMs：PEFT在广义和下一代MFMs中都扮演重要角色。LLaMA-Adapter V2、LayerNorm Tuning、LoRA-Sparse等技术用于增强多模态指令执行和多模态性能。CoDi系列、SEED-X、NExT-GPT等模型利用LoRA等方法实现高效微调。

（3）优缺点

优点：灵活性强，综合性能提升，适应多样化任务。
缺点：

复杂度高：需协调多方法交互，增加计算和调参成本（如NOAH需超网络训练）。
性能受限：方法组合可能导致次优结果，需精细调整超参数。

八.讨论与未来方向

（1）当前趋势的观察

Reliability (可靠性)：PEFT方法对超参数敏感，需要开发简单高效且低敏感度的超参数解决方案。
Interpretability (可解释性)：PEFT内部机制理解仍是挑战，特别是无序的token-based Prompt和Adapter中学习参数与层之间的关系。
Unified Benchmark (统一基准)：缺乏统一的PEFT综合基准，导致评估标准不一致，需建立标准化基准以公平比较。

（2）未来研究方向

Across Disciplines (跨学科)：将领域特定约束集成到PEFT框架中，如医学图像中的医学知识，以实现更定制化的微调。
Continual PEFT (持续PEFT)：将PEFT与持续学习结合，使模型能在持续学习新任务时保留旧知识，增强在动态环境下的鲁棒性。
Architecture for PEFT (PEFT架构)：探索特定架构（如Transformer）的PEFT适用性和优势，设计更有效的PEFT方案。
Scaling Laws of PEFT (PEFT的缩放法则)：理解可训练参数数量如何影响PEFT性能，为模型设计和微调策略提供指导。
Layered Abstraction (分层抽象)：PEFT的分层调整与人脑分层处理信息类似，可从简单到复杂实现精细化适应。
Brain-Inspired PEFT (受脑启发PEFT)：将神经科学原理（如高效编码、突触可塑性）融入PEFT，借鉴人脑选择性调整连接以高效学习新知识的机制，有望带来更高效的微调过程。

总之，PEFT与FMs的结合为高效模型适应提供了有前景的途径。本综述通过深入分析五大类PEFT方法及其在不同FM结构（LLM、VFM、VLM、MFM、VGM）中的应用，为理解和使用PEFT的力量提供了宝贵资源，并指明了未来研究和发展方向。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

推理平台全景

2048 AI社区

GraphRAG进阶：基于Neo4j与LlamaIndex的DRIFT搜索实现详解

微软的GraphRAG算得上是最早一批成熟的GraphRAG系统，它把索引阶段（抽取实体、关系、构建层级社区并生成摘要）和查询阶段的高级能力整合到了一起。这套方案的优势在于，可以借助预先计算好的实体、关系、社区摘要来回答那些宏观的、主题性的问题，这恰恰是传统RAG系统基于文档检索难以做到的。本文的重点是DRIFT搜索：Dynamic Reasoning and Inference with Fle