大模型微调综述:PEFT
摘要 本文综述了基础模型(FMs)的参数高效微调(PEFT)技术。PEFT通过选择性微调、添加适配模块、提示学习、权重重参数化和混合策略,在降低计算成本的同时保持模型性能。FMs涵盖语言(LLM)、视觉(VFM)、视觉语言(VLM)、视觉生成(VGM)和多模态(MFM)模型。PEFT方法中,选择性PEFT仅微调部分参数(如BitFit);附加式PEFT插入轻量适配器(如Adapter);提示式PE
论文链接:Parameter-Efficient Fine-Tuning for Foundation Models
这篇综述深入探讨了Foundation Models (FMs)背景下的Parameter-Efficient Fine-Tuning (PEFT)技术。PEFT是一种成本效益高、计算复杂度低且能实现接近全参数微调性能的技术,它旨在解决大型FMs在下游任务上进行微调时面临的巨大计算和存储挑战。FMs涵盖了语言、视觉和多模态等多个领域,例如ChatGPT、DALL-E和LLaVA,它们在各自领域内提供理解、生成和多模态任务能力。FMs的多样性也引导了PEFT的多种适应策略。本综述旨在为PEFT在FMs中的应用提供全面的概述,并识别未来研究方向。
一. 基础模型(FMs)的分类
FMs根据输入模态和功能大致分为五类:
- Large Language Model (LLM):理解、生成和操作文本,如BERT、LLaMA、GPT-4。
- Vision Foundation Model (VFM):理解和生成视觉数据,如Grounding DINO、SAM。
- Vision Language Model (VLM):整合视觉和文本模态,理解图像与语言的关系,如CLIP、BLIP、GPT-4V。
- Visual Content Generation Model (VGM):生成高质量视觉内容(图像、视频、3D模型),如Stable Diffusion、DALL-E、Sora。
- Multi-Modal Foundation Model (MFM):扩展LLM处理多种模态的能力,如LLaVA-1.5、Gemini 1.5 Pro。
二. PEFT方法的发展与分类
PEFT方法根据其核心机制分为五大类:
- 选择性PEFT(Selective):仅微调部分参数。例如,层冻结(Layer-wise Freezing)逐步解冻模型层;参数重要性筛选策略动态选择关键参数。
- 附加式PEFT(Additive):插入轻量适配模块。如Adapter方法在Transformer层间添加瓶颈层,仅更新适配器参数。
- 提示式PEFT(Prompt):学习可训练提示向量(Soft Prompts),如文本提示(Text Prompting)或视觉提示(Visual Prompt Tuning)。
- 重参数化PEFT(Reparameterization):对权重矩阵低秩分解(如LoRA)或稀疏化,减少需更新的参数量。
- 混合式PEFT(Hybrid):结合多种方法(如Adapter+Prompt),针对任务需求优化组合策略。
三. Slective PEFT (选择性PEFT)
该类别通过仅微调模型参数的子集来最小化可训练参数。
(1)基本方法
-
Specific Selection (特定选择):预先选择特定层或神经元进行微调。
- Freeze Layers (冻结层):仅微调FMs的最后几层。
- BitFit:仅调整模型的部分或全部bias terms。对于一个Transformer中的线性层,如Attention模块中的Query、Key、Value编码器,其计算公式为:
Q m , ℓ ( x ) = W q m , ℓ x + b q m , ℓ , K m , ℓ ( x ) = W k m , ℓ x + b k m , ℓ , V m , ℓ ( x ) = W v m , ℓ x + b v m , ℓ . {Q}^{m,\ell }\left( x\right) = {W}_{q}^{m,\ell }x +\textcolor{blue}{ {b}_{q}^{m,\ell }}, \\ {K}^{m,\ell }\left( x\right) = {W}_{k}^{m,\ell }x + \textcolor{blue}{{b}_{k}^{m,\ell }}, \\ {V}^{m,\ell }\left( x\right) = {W}_{v}^{m,\ell }x + \textcolor{blue}{{b}_{v}^{m,\ell }}. Qm,ℓ(x)=Wqm,ℓx+bqm,ℓ,Km,ℓ(x)=Wkm,ℓx+bkm,ℓ,Vm,ℓ(x)=Wvm,ℓx+bvm,ℓ.
其中, b q m , ℓ , b k m , ℓ , b v m , ℓ {b}_{q}^{m,\ell },{b}_{k}^{m,\ell },{b}_{v}^{m,\ell } bqm,ℓ,bkm,ℓ,bvm,ℓ是可训练的bias terms。
- PASTA:仅更新特殊token的参数(如[SEP]和[CLS])。
-
Automatic Selection (自动选择):通过算法自动确定要训练的参数。
- Masking (掩码):训练二元掩码选择性地掩码FMs的参数。
- Diff-Pruning (差分剪枝):学习一个二元任务来微调初始预训练参数,并通过 L 0 L_0 L0-norm正则化进行自适应剪枝。
- FISH (Fisher-Induced Sparse uncHanging):根据Fisher Information选择top-k参数进行更新。
- CHILD-TUNING:识别参数矩阵中的子网络并生成对应的掩码矩阵,仅更新子网络对应的参数。其更新公式为:
w t + 1 = w t − η ∂ L ( w t ) ∂ w t ⊙ M t w^{t+1} = w^t - \eta \frac{\partial L(w^t)}{\partial w^t} \odot M^t wt+1=wt−η∂wt∂L(wt)⊙Mt
其中, w w w是参数, L L L是损失, η \eta η是学习率, M t M^t Mt是掩码矩阵(1表示属于子网络,0表示不属于)。
(2)在FMs中的其它应用
FC-CLIP(VFM,通过分类得分融合in-vocabulary和out-of-vocabulary预测)、Tune-A-Video(VGM,通过DDIM inversion进行视频结构引导)、LayerNorm Tuning(MFM,仅调整归一化层权重)。
(3)优缺点
优点是无需添加新参数,控制模型复杂度,不增加推理时间。缺点是部分方法(如FISH、CHILD-TUNING)可能因掩码矩阵增加内存使用,或因选择机制(如Diff-Pruning)增加训练时间。
四. Additive PEFT (增量式PEFT)
该类别通过插入小型Adapter网络来微调模型,而无需修改原始模型参数。
(1)基本方法
- Bottleneck Adapter (瓶颈Adapter):在FMs层之间插入Adapter层,Adapter层将输入降维到较小维度,通过非线性激活函数,再升维到原始维度,并带有残差连接。
- Multi-Adapter (多Adapter):添加更多Adapter模块以增强可迁移性。
- Adapter Fusion:通过融合多个任务的Adapter参数来组合知识。
- AdaMix:重构Adapter结构,使用随机平均选择代替Gating Network,公式为MoE的输出:
h ( x s ) = ∑ i G ( x s ) i E i ( x s ) h(x_s) = \sum_i G(x_s)_i E_i(x_s) h(xs)=∑iG(xs)iEi(xs)
其中, E i E_i Ei是专家FFN, G ( x s ) i G(x_s)_i G(xs)i是选择专家 E i E_i Ei的概率。 - MAD-X:包含可逆Adapter、语言Adapter和任务Adapter。
- BAD-X:学习双语语言对Adapter以进行更有效的跨语言迁移。
- Adapter Sparsity (Adapter稀疏性):利用Adapter的内部结构进行剪枝以提高参数效率。
- AdapterDrop:训练期间随机丢弃Adapter以降低计算和内存需求。
- AdapterBias:引入与token相关的偏移量来适应下游NLP任务。
- SparseAdapter:从网络剪枝角度检查additive PEFT。
- LST (Ladder-Side Tuning):在预训练网络一侧训练小型Transformer网络。
(2)在FMs中的其它应用
LST(应用于T5和CLIP-T5)、Convpass(VFM,在ViT中引入卷积旁路)、AdaptFormer(VFM,轻量级模块)、ViT-Adapter(VFM,增强ViT内在表征能力)、SAN(VFM,分离掩码提议生成和类别识别)、CSN (DTL)(VFM,解耦骨干权值更新)、T2I-Adapter(VGM,公式: x = M ( t ) + w ⋅ A ( x c ) x = M(t) + w \cdot A(x_c) x=M(t)+w⋅A(xc),其中 M ( t ) M(t) M(t)是文本提示生成的图像, A ( x c ) A(x_c) A(xc)是条件信号控制的Adapter输出, w w w是权重)、IP-Adapter(VGM,引入交叉注意力机制学习图像Embedding,公式: ϵ ^ θ ( x t , c , t ) = w ϵ θ ( x t , c , t ) + ( 1 − w ) ϵ θ ( x t , t ) \hat{\epsilon}_\theta (x_t, c, t) = w\epsilon_\theta (x_t, c, t) + (1 - w)\epsilon_\theta (x_t, t) ϵ^θ(xt,c,t)=wϵθ(xt,c,t)+(1−w)ϵθ(xt,t),其中 w w w是指导尺度)、ControlNet(VGM,添加空间局部条件)、ControlNeXt(VGM,轻量级条件控制模块)、LLaMA-Adapter V2(MFM,解锁更多可学习参数)、CLIP-Adapter和Tip-Adapter(VLM,插入可训练Adapter)。
(3)优缺点
优点是向模型中集成任务特定参数,保留预训练知识的完整性,有利于快速部署和迁移学习。缺点是可能因Adapter层增加推理开销,且需要仔细配置初始化和训练策略(如Adapter维度和稀疏率)。
五. Prompt PEFT (提示PEFT)
该类别通过在输入或Transformer层中加入精心设计的Prompt来引导模型生成所需输出。
(1)基本方法
- Hard Prompt (硬提示):手动指定模板并与输入拼接。
- PET:将输入示例重构为完形填空式句子。
- Null Prompts:使用通用模板“input + [MASK]”。
- AutoPrompt (自动提示):通过探索性搜索自动生成Prompt,解决手动设计挑战。
- Soft Prompt (软提示):使用连续的、可学习的Embedding向量作为Prompt。
- Prefix Tuning:冻结FMs参数,仅优化任务特定的连续向量(Prefix),将其作为可微分的虚拟Token插入Transformer的Attention层,在Prefix层前引入MLP增强稳定性。
- Prompt Tuning:Prefix Tuning的简化版,仅在输入层添加Prompt Token。
- P-Tuning:将Prompt转换为可学习的Embedding层,通过MLP和LSTM结构处理。
- P-Tuning v2:将Prompt Token扩展到模型的每一层,增加可学习参数以提高可扩展性和通用性。
- DART:将Prompt生成视为可微分函数,通过梯度优化Prompt生成。
- y-Tuning:微调标签提取器参数,结合FMs和标签提取器的损失特征,避免调整输入文本属性或FMs参数。
- PPT (Pre-trained Prompt Tuning):通过自监督任务在大型无标签语料库上预训练软Prompt。
- SPoT:利用预训练Prompt增强少样本学习,将源任务训练的Prompt初始化目标任务Prompt。
- Prompt Transfer:重用已训练的软Prompt进行零样本推理或持续训练。
(2)在FMs中的其它应用
VP(VFM,向图像像素空间添加像素形式Prompt)、VPT(VFM,在输入空间引入可学习参数)、DAM-VP:VFM,自适应选择和优化视觉Prompt,公式为带Prompt p k p_k pk的数据集 D T D_T DT上的交叉熵损失:
p 1 ∗ , … , p N ∗ = arg min p 1 , … , p N 1 ∣ D T ∣ N ∑ i = 1 N ∑ x ∈ D i L C E ( M ( x + p i ) , y ) p^*_1, \dots, p^*_N = \arg\min_{p_1,\dots,p_N} \frac{1}{|D_T|N} \sum_{i=1}^N \sum_{x \in D_i} \mathcal{L}_{CE} (M(x+p_i), y) p1∗,…,pN∗=argp1,…,pNmin∣DT∣N1i=1∑Nx∈Di∑LCE(M(x+pi),y)
、ILM-VP(VFM,通过迭代标签映射增强视觉Prompt)、EVP(VFM,将Prompt视为可学习实体)、LION(VFM,轻量级视觉Prompt Tuning)、Textual Inversion(VGM,在CLIP的文本编码器中描述新概念以微调Diffusion Model)、CoOp(VLM,通过可学习向量建模Prompt上下文词)、OVSeg(VLM,结合掩码和彩色Prompt)、Q-Former(MFM/VLM,使用轻量级投影桥接模态间隙)。
(3)优缺点
优点是调整可学习Prompt向量,保持架构一致,提高灵活性和通用性;且基础模型参数固定,有助于跨任务知识保留。缺点是Prompt的迁移能力差,强依赖于基础模型能力,性能提升空间受限于基础模型。
六. Reparameterization PEFT (重参数化PEFT)
该类别通过重新参数化初始模型参数的低维表示进行训练,并在推理时将权重转换回原始形式,以解决Additive PEFT的推理速度和Prompt PEFT的稳定性问题。
(1)基本方法
- LoRA (Low-Rank Adaptation)及其变体:利用低秩结构特性,向FMs添加旁路,仅更新低秩矩阵A和B。其更新公式为:
h = W 0 x + Δ W x = W 0 x + B A x h = W_0x + \Delta W x = W_0x + BAx h=W0x+ΔWx=W0x+BAx
其中, W 0 W_0 W0是原始权重, Δ W \Delta W ΔW是更新量, B B B和 A A A是低秩矩阵。
- KronA:使用Kronecker积代替低秩矩阵。
- QLoRA:在量化后的4-bit冻结FMs上进行微调,通过梯度传播到LoRA。
- LoRA-FA:冻结矩阵A的投影下权重,仅更新矩阵B的投影上权重,节省激活内存。
- IncreLoRA:根据模块重要性动态添加可训练参数。
- Delta-LoRA:不仅更新低秩矩阵A和B,还通过其乘积的差值调整预训练权重W。
( Δ W ) t + 1 = ( Δ W ) t + ( A t + 1 B t + 1 − A t B t ) (\Delta W)^{t+1} = (\Delta W)^t + (A^{t+1}B^{t+1} - A^tB^t) (ΔW)t+1=(ΔW)t+(At+1Bt+1−AtBt)
- MPO (Matrix Product Operator):分解参数矩阵,仅训练低参数的辅助张量。
(2)在FMs中的其它应用
LoRand(VFM,低秩分解创建紧凑Adapter)、LyCORIS(VGM,高级工具微调Stable Diffusion)、DiffuseKronA(VGM,Kronecker积分解Attention层)、Mix-of-Show(VGM,ED-LoRA用于单概念训练)、LoRA-Sparse(MFM,低秩线性投影层用于稀疏Attention)。
(3)优缺点
优点是高度灵活,适用于几乎所有主流模型,快速适应新任务和领域。缺点是敏感于超参数(如秩),且低秩矩阵可能限制在复杂任务中的表达能力。
七. Hybrid PEFT (混合式PEFT)
该类别整合多种PEFT方法(如LoRA、BitFit、P-Tuning)到统一框架中,以实现参数效率、计算负担和性能的优化。
(1)基本方法
-
UniPELT:整合Adapter、Prefix Tuning和LoRA,并采用门控机制调节这些模块。
-
COMPACTER:扩展基础Adapter概念,引入基于低秩矩阵Kronecker积的新型轻量级Adapter结构,表达为 A ⊗ B A \otimes B A⊗B。
-
MAM Adapter:研究Adapter排列和软Prompt使用,提出结合FFN层并行Adapter和软Prompt的Multi-Head Attention Adapter。
-
S4:将层分为四组,并对每组应用不同的PEFT技术组合(Adapter、Prefix Tuning、BitFit、LoRA)。
-
在更多FMs中的应用:NOAH(VFM,神经网络搜索Prompt模块,整合Adapter、LoRA、VPT)、DiffFit(VGM,仅微调bias terms并引入缩放因子)、V-PEFT(视频任务PEFT统一分析)、DreamBooth(VGM,少量图像微调Diffusion Model)。
-
优缺点:优点是提供统一框架,增强灵活性和适应性,融合多种PEFT优势提升性能。缺点是引入更高复杂性,增加计算、开发和标注成本;且可能存在不可预见的组合,导致次优性能。
(2)在FMs中的其它应用
- LLMs:在Causal LLMs(如GPT-3、LLaMA)和Prefix LLMs(如ChatGLM)中广泛应用。LoRA及其变体、Adapter、Prompt Tuning和P-Tuning等技术被用于提高数学推理、问答、代码生成等任务的效率和性能。
- VFMs:PEFT在ViT等基础视觉模型中应用广泛,包括图像识别(AdaptFormer、VPT、CSN (DTL))和视频理解(ST-adapter、AIM)。在Prompted VLMs中,PEFT通过文本Prompt(CoOp、KgCoOp)和视觉Prompt(OVSeg、CPT)实现视觉grounding、语义分割、视频理解等。
- VGMs:Diffusion Models是该领域的核心。PEFT方法如Textual Inversion、T2I-Adapter、DreamBooth、ControlNet、LoRA及其变体在图像生成、视频生成、编辑和超分辨率等场景中频繁使用。
- MFMs:PEFT在广义和下一代MFMs中都扮演重要角色。LLaMA-Adapter V2、LayerNorm Tuning、LoRA-Sparse等技术用于增强多模态指令执行和多模态性能。CoDi系列、SEED-X、NExT-GPT等模型利用LoRA等方法实现高效微调。
(3)优缺点
- 优点:灵活性强,综合性能提升,适应多样化任务。
- 缺点:
- 复杂度高:需协调多方法交互,增加计算和调参成本(如NOAH需超网络训练)。
- 性能受限:方法组合可能导致次优结果,需精细调整超参数。
八.讨论与未来方向
(1)当前趋势的观察
- Reliability (可靠性):PEFT方法对超参数敏感,需要开发简单高效且低敏感度的超参数解决方案。
- Interpretability (可解释性):PEFT内部机制理解仍是挑战,特别是无序的token-based Prompt和Adapter中学习参数与层之间的关系。
- Unified Benchmark (统一基准):缺乏统一的PEFT综合基准,导致评估标准不一致,需建立标准化基准以公平比较。
(2)未来研究方向
- Across Disciplines (跨学科):将领域特定约束集成到PEFT框架中,如医学图像中的医学知识,以实现更定制化的微调。
- Continual PEFT (持续PEFT):将PEFT与持续学习结合,使模型能在持续学习新任务时保留旧知识,增强在动态环境下的鲁棒性。
- Architecture for PEFT (PEFT架构):探索特定架构(如Transformer)的PEFT适用性和优势,设计更有效的PEFT方案。
- Scaling Laws of PEFT (PEFT的缩放法则):理解可训练参数数量如何影响PEFT性能,为模型设计和微调策略提供指导。
- Layered Abstraction (分层抽象):PEFT的分层调整与人脑分层处理信息类似,可从简单到复杂实现精细化适应。
- Brain-Inspired PEFT (受脑启发PEFT):将神经科学原理(如高效编码、突触可塑性)融入PEFT,借鉴人脑选择性调整连接以高效学习新知识的机制,有望带来更高效的微调过程。
总之,PEFT与FMs的结合为高效模型适应提供了有前景的途径。本综述通过深入分析五大类PEFT方法及其在不同FM结构(LLM、VFM、VLM、MFM、VGM)中的应用,为理解和使用PEFT的力量提供了宝贵资源,并指明了未来研究和发展方向。
更多推荐


所有评论(0)