论文链接:Parameter-Efficient Fine-Tuning for Foundation Models

这篇综述深入探讨了Foundation Models (FMs)背景下的Parameter-Efficient Fine-Tuning (PEFT)技术。PEFT是一种成本效益高、计算复杂度低且能实现接近全参数微调性能的技术,它旨在解决大型FMs在下游任务上进行微调时面临的巨大计算和存储挑战。FMs涵盖了语言、视觉和多模态等多个领域,例如ChatGPT、DALL-E和LLaVA,它们在各自领域内提供理解、生成和多模态任务能力。FMs的多样性也引导了PEFT的多种适应策略。本综述旨在为PEFT在FMs中的应用提供全面的概述,并识别未来研究方向。

一. 基础模型(FMs)的分类

FMs根据输入模态和功能大致分为五类:

  1. Large Language Model (LLM):理解、生成和操作文本,如BERT、LLaMA、GPT-4。
  2. Vision Foundation Model (VFM):理解和生成视觉数据,如Grounding DINO、SAM。
  3. Vision Language Model (VLM):整合视觉和文本模态,理解图像与语言的关系,如CLIP、BLIP、GPT-4V。
  4. Visual Content Generation Model (VGM):生成高质量视觉内容(图像、视频、3D模型),如Stable Diffusion、DALL-E、Sora。
  5. Multi-Modal Foundation Model (MFM):扩展LLM处理多种模态的能力,如LLaVA-1.5、Gemini 1.5 Pro。

二. PEFT方法的发展与分类

PEFT方法根据其核心机制分为五大类:

  • 选择性PEFT(Selective):仅微调部分参数。例如,层冻结(Layer-wise Freezing)逐步解冻模型层;参数重要性筛选策略动态选择关键参数。
  • 附加式PEFT(Additive):插入轻量适配模块。如Adapter方法在Transformer层间添加瓶颈层,仅更新适配器参数。
  • 提示式PEFT(Prompt):学习可训练提示向量(Soft Prompts),如文本提示(Text Prompting)或视觉提示(Visual Prompt Tuning)。
  • 重参数化PEFT(Reparameterization):对权重矩阵低秩分解(如LoRA)或稀疏化,减少需更新的参数量。
  • 混合式PEFT(Hybrid):结合多种方法(如Adapter+Prompt),针对任务需求优化组合策略。

三. Slective PEFT (选择性PEFT)

该类别通过仅微调模型参数的子集来最小化可训练参数。

(1)基本方法

  • Specific Selection (特定选择):预先选择特定层或神经元进行微调。

    • Freeze Layers (冻结层):仅微调FMs的最后几层。
    • BitFit:仅调整模型的部分或全部bias terms。对于一个Transformer中的线性层,如Attention模块中的Query、Key、Value编码器,其计算公式为:

    Q m , ℓ ( x ) = W q m , ℓ x + b q m , ℓ , K m , ℓ ( x ) = W k m , ℓ x + b k m , ℓ , V m , ℓ ( x ) = W v m , ℓ x + b v m , ℓ . {Q}^{m,\ell }\left( x\right) = {W}_{q}^{m,\ell }x +\textcolor{blue}{ {b}_{q}^{m,\ell }}, \\ {K}^{m,\ell }\left( x\right) = {W}_{k}^{m,\ell }x + \textcolor{blue}{{b}_{k}^{m,\ell }}, \\ {V}^{m,\ell }\left( x\right) = {W}_{v}^{m,\ell }x + \textcolor{blue}{{b}_{v}^{m,\ell }}. Qm,(x)=Wqm,x+bqm,,Km,(x)=Wkm,x+bkm,,Vm,(x)=Wvm,x+bvm,.

    其中, b q m , ℓ , b k m , ℓ , b v m , ℓ {b}_{q}^{m,\ell },{b}_{k}^{m,\ell },{b}_{v}^{m,\ell } bqm,,bkm,,bvm,是可训练的bias terms。

    • PASTA:仅更新特殊token的参数(如[SEP]和[CLS])。
  • Automatic Selection (自动选择):通过算法自动确定要训练的参数。

    • Masking (掩码):训练二元掩码选择性地掩码FMs的参数。
    • Diff-Pruning (差分剪枝):学习一个二元任务来微调初始预训练参数,并通过 L 0 L_0 L0-norm正则化进行自适应剪枝。
    • FISH (Fisher-Induced Sparse uncHanging):根据Fisher Information选择top-k参数进行更新。
    • CHILD-TUNING:识别参数矩阵中的子网络并生成对应的掩码矩阵,仅更新子网络对应的参数。其更新公式为:

w t + 1 = w t − η ∂ L ( w t ) ∂ w t ⊙ M t w^{t+1} = w^t - \eta \frac{\partial L(w^t)}{\partial w^t} \odot M^t wt+1=wtηwtL(wt)Mt

其中, w w w是参数, L L L是损失, η \eta η是学习率, M t M^t Mt是掩码矩阵(1表示属于子网络,0表示不属于)。

(2)在FMs中的其它应用

FC-CLIP(VFM,通过分类得分融合in-vocabulary和out-of-vocabulary预测)、Tune-A-Video(VGM,通过DDIM inversion进行视频结构引导)、LayerNorm Tuning(MFM,仅调整归一化层权重)。

(3)优缺点

优点是无需添加新参数,控制模型复杂度,不增加推理时间。缺点是部分方法(如FISH、CHILD-TUNING)可能因掩码矩阵增加内存使用,或因选择机制(如Diff-Pruning)增加训练时间。

四. Additive PEFT (增量式PEFT)

该类别通过插入小型Adapter网络来微调模型,而无需修改原始模型参数。

(1)基本方法

  • Bottleneck Adapter (瓶颈Adapter):在FMs层之间插入Adapter层,Adapter层将输入降维到较小维度,通过非线性激活函数,再升维到原始维度,并带有残差连接。
  • Multi-Adapter (多Adapter):添加更多Adapter模块以增强可迁移性。
    • Adapter Fusion:通过融合多个任务的Adapter参数来组合知识。
    • AdaMix:重构Adapter结构,使用随机平均选择代替Gating Network,公式为MoE的输出:
      h ( x s ) = ∑ i G ( x s ) i E i ( x s ) h(x_s) = \sum_i G(x_s)_i E_i(x_s) h(xs)=iG(xs)iEi(xs)
      其中, E i E_i Ei是专家FFN, G ( x s ) i G(x_s)_i G(xs)i是选择专家 E i E_i Ei的概率。
    • MAD-X:包含可逆Adapter、语言Adapter和任务Adapter。
    • BAD-X:学习双语语言对Adapter以进行更有效的跨语言迁移。
  • Adapter Sparsity (Adapter稀疏性):利用Adapter的内部结构进行剪枝以提高参数效率。
    • AdapterDrop:训练期间随机丢弃Adapter以降低计算和内存需求。
    • AdapterBias:引入与token相关的偏移量来适应下游NLP任务。
    • SparseAdapter:从网络剪枝角度检查additive PEFT。
    • LST (Ladder-Side Tuning):在预训练网络一侧训练小型Transformer网络。

(2)在FMs中的其它应用

LST(应用于T5和CLIP-T5)、Convpass(VFM,在ViT中引入卷积旁路)、AdaptFormer(VFM,轻量级模块)、ViT-Adapter(VFM,增强ViT内在表征能力)、SAN(VFM,分离掩码提议生成和类别识别)、CSN (DTL)(VFM,解耦骨干权值更新)、T2I-Adapter(VGM,公式: x = M ( t ) + w ⋅ A ( x c ) x = M(t) + w \cdot A(x_c) x=M(t)+wA(xc),其中 M ( t ) M(t) M(t)是文本提示生成的图像, A ( x c ) A(x_c) A(xc)是条件信号控制的Adapter输出, w w w是权重)、IP-Adapter(VGM,引入交叉注意力机制学习图像Embedding,公式: ϵ ^ θ ( x t , c , t ) = w ϵ θ ( x t , c , t ) + ( 1 − w ) ϵ θ ( x t , t ) \hat{\epsilon}_\theta (x_t, c, t) = w\epsilon_\theta (x_t, c, t) + (1 - w)\epsilon_\theta (x_t, t) ϵ^θ(xt,c,t)=wϵθ(xt,c,t)+(1w)ϵθ(xt,t),其中 w w w是指导尺度)、ControlNet(VGM,添加空间局部条件)、ControlNeXt(VGM,轻量级条件控制模块)、LLaMA-Adapter V2(MFM,解锁更多可学习参数)、CLIP-Adapter和Tip-Adapter(VLM,插入可训练Adapter)。

(3)优缺点

优点是向模型中集成任务特定参数,保留预训练知识的完整性,有利于快速部署和迁移学习。缺点是可能因Adapter层增加推理开销,且需要仔细配置初始化和训练策略(如Adapter维度和稀疏率)。

五. Prompt PEFT (提示PEFT)

该类别通过在输入或Transformer层中加入精心设计的Prompt来引导模型生成所需输出。

(1)基本方法

  • Hard Prompt (硬提示):手动指定模板并与输入拼接。
    • PET:将输入示例重构为完形填空式句子。
    • Null Prompts:使用通用模板“input + [MASK]”。
  • AutoPrompt (自动提示):通过探索性搜索自动生成Prompt,解决手动设计挑战。
  • Soft Prompt (软提示):使用连续的、可学习的Embedding向量作为Prompt。
    • Prefix Tuning:冻结FMs参数,仅优化任务特定的连续向量(Prefix),将其作为可微分的虚拟Token插入Transformer的Attention层,在Prefix层前引入MLP增强稳定性。
    • Prompt Tuning:Prefix Tuning的简化版,仅在输入层添加Prompt Token。
    • P-Tuning:将Prompt转换为可学习的Embedding层,通过MLP和LSTM结构处理。
    • P-Tuning v2:将Prompt Token扩展到模型的每一层,增加可学习参数以提高可扩展性和通用性。
    • DART:将Prompt生成视为可微分函数,通过梯度优化Prompt生成。
    • y-Tuning:微调标签提取器参数,结合FMs和标签提取器的损失特征,避免调整输入文本属性或FMs参数。
    • PPT (Pre-trained Prompt Tuning):通过自监督任务在大型无标签语料库上预训练软Prompt。
    • SPoT:利用预训练Prompt增强少样本学习,将源任务训练的Prompt初始化目标任务Prompt。
    • Prompt Transfer:重用已训练的软Prompt进行零样本推理或持续训练。

(2)在FMs中的其它应用

VP(VFM,向图像像素空间添加像素形式Prompt)、VPT(VFM,在输入空间引入可学习参数)、DAM-VP:VFM,自适应选择和优化视觉Prompt,公式为带Prompt p k p_k pk的数据集 D T D_T DT上的交叉熵损失:
p 1 ∗ , … , p N ∗ = arg ⁡ min ⁡ p 1 , … , p N 1 ∣ D T ∣ N ∑ i = 1 N ∑ x ∈ D i L C E ( M ( x + p i ) , y ) p^*_1, \dots, p^*_N = \arg\min_{p_1,\dots,p_N} \frac{1}{|D_T|N} \sum_{i=1}^N \sum_{x \in D_i} \mathcal{L}_{CE} (M(x+p_i), y) p1,,pN=argp1,,pNminDTN1i=1NxDiLCE(M(x+pi),y)
、ILM-VP(VFM,通过迭代标签映射增强视觉Prompt)、EVP(VFM,将Prompt视为可学习实体)、LION(VFM,轻量级视觉Prompt Tuning)、Textual Inversion(VGM,在CLIP的文本编码器中描述新概念以微调Diffusion Model)、CoOp(VLM,通过可学习向量建模Prompt上下文词)、OVSeg(VLM,结合掩码和彩色Prompt)、Q-Former(MFM/VLM,使用轻量级投影桥接模态间隙)。

(3)优缺点

优点是调整可学习Prompt向量,保持架构一致,提高灵活性和通用性;且基础模型参数固定,有助于跨任务知识保留。缺点是Prompt的迁移能力差,强依赖于基础模型能力,性能提升空间受限于基础模型。

六. Reparameterization PEFT (重参数化PEFT)

该类别通过重新参数化初始模型参数的低维表示进行训练,并在推理时将权重转换回原始形式,以解决Additive PEFT的推理速度和Prompt PEFT的稳定性问题。

(1)基本方法

  • LoRA (Low-Rank Adaptation)及其变体:利用低秩结构特性,向FMs添加旁路,仅更新低秩矩阵A和B。其更新公式为:

h = W 0 x + Δ W x = W 0 x + B A x h = W_0x + \Delta W x = W_0x + BAx h=W0x+ΔWx=W0x+BAx

其中, W 0 W_0 W0是原始权重, Δ W \Delta W ΔW是更新量, B B B A A A是低秩矩阵。

  • KronA:使用Kronecker积代替低秩矩阵。
  • QLoRA:在量化后的4-bit冻结FMs上进行微调,通过梯度传播到LoRA。
  • LoRA-FA:冻结矩阵A的投影下权重,仅更新矩阵B的投影上权重,节省激活内存。
  • IncreLoRA:根据模块重要性动态添加可训练参数。
  • Delta-LoRA:不仅更新低秩矩阵A和B,还通过其乘积的差值调整预训练权重W。

( Δ W ) t + 1 = ( Δ W ) t + ( A t + 1 B t + 1 − A t B t ) (\Delta W)^{t+1} = (\Delta W)^t + (A^{t+1}B^{t+1} - A^tB^t) (ΔW)t+1=(ΔW)t+(At+1Bt+1AtBt)

  • MPO (Matrix Product Operator):分解参数矩阵,仅训练低参数的辅助张量。

(2)在FMs中的其它应用

LoRand(VFM,低秩分解创建紧凑Adapter)、LyCORIS(VGM,高级工具微调Stable Diffusion)、DiffuseKronA(VGM,Kronecker积分解Attention层)、Mix-of-Show(VGM,ED-LoRA用于单概念训练)、LoRA-Sparse(MFM,低秩线性投影层用于稀疏Attention)。

(3)优缺点

优点是高度灵活,适用于几乎所有主流模型,快速适应新任务和领域。缺点是敏感于超参数(如秩),且低秩矩阵可能限制在复杂任务中的表达能力。

七. Hybrid PEFT (混合式PEFT)

该类别整合多种PEFT方法(如LoRA、BitFit、P-Tuning)到统一框架中,以实现参数效率、计算负担和性能的优化。

(1)基本方法

  • UniPELT:整合Adapter、Prefix Tuning和LoRA,并采用门控机制调节这些模块。

  • COMPACTER:扩展基础Adapter概念,引入基于低秩矩阵Kronecker积的新型轻量级Adapter结构,表达为 A ⊗ B A \otimes B AB

  • MAM Adapter:研究Adapter排列和软Prompt使用,提出结合FFN层并行Adapter和软Prompt的Multi-Head Attention Adapter。

  • S4:将层分为四组,并对每组应用不同的PEFT技术组合(Adapter、Prefix Tuning、BitFit、LoRA)。

  • 在更多FMs中的应用:NOAH(VFM,神经网络搜索Prompt模块,整合Adapter、LoRA、VPT)、DiffFit(VGM,仅微调bias terms并引入缩放因子)、V-PEFT(视频任务PEFT统一分析)、DreamBooth(VGM,少量图像微调Diffusion Model)。

  • 优缺点:优点是提供统一框架,增强灵活性和适应性,融合多种PEFT优势提升性能。缺点是引入更高复杂性,增加计算、开发和标注成本;且可能存在不可预见的组合,导致次优性能。

(2)在FMs中的其它应用

  • LLMs:在Causal LLMs(如GPT-3、LLaMA)和Prefix LLMs(如ChatGLM)中广泛应用。LoRA及其变体、Adapter、Prompt Tuning和P-Tuning等技术被用于提高数学推理、问答、代码生成等任务的效率和性能。
  • VFMs:PEFT在ViT等基础视觉模型中应用广泛,包括图像识别(AdaptFormer、VPT、CSN (DTL))和视频理解(ST-adapter、AIM)。在Prompted VLMs中,PEFT通过文本Prompt(CoOp、KgCoOp)和视觉Prompt(OVSeg、CPT)实现视觉grounding、语义分割、视频理解等。
  • VGMs:Diffusion Models是该领域的核心。PEFT方法如Textual Inversion、T2I-Adapter、DreamBooth、ControlNet、LoRA及其变体在图像生成、视频生成、编辑和超分辨率等场景中频繁使用。
  • MFMs:PEFT在广义和下一代MFMs中都扮演重要角色。LLaMA-Adapter V2、LayerNorm Tuning、LoRA-Sparse等技术用于增强多模态指令执行和多模态性能。CoDi系列、SEED-X、NExT-GPT等模型利用LoRA等方法实现高效微调。
(3)优缺点
  • 优点:灵活性强,综合性能提升,适应多样化任务。
  • 缺点
  1. 复杂度高:需协调多方法交互,增加计算和调参成本(如NOAH需超网络训练)。
  2. 性能受限:方法组合可能导致次优结果,需精细调整超参数。

八.讨论与未来方向

(1)当前趋势的观察

  • Reliability (可靠性):PEFT方法对超参数敏感,需要开发简单高效且低敏感度的超参数解决方案。
  • Interpretability (可解释性):PEFT内部机制理解仍是挑战,特别是无序的token-based Prompt和Adapter中学习参数与层之间的关系。
  • Unified Benchmark (统一基准):缺乏统一的PEFT综合基准,导致评估标准不一致,需建立标准化基准以公平比较。

(2)未来研究方向

  • Across Disciplines (跨学科):将领域特定约束集成到PEFT框架中,如医学图像中的医学知识,以实现更定制化的微调。
  • Continual PEFT (持续PEFT):将PEFT与持续学习结合,使模型能在持续学习新任务时保留旧知识,增强在动态环境下的鲁棒性。
  • Architecture for PEFT (PEFT架构):探索特定架构(如Transformer)的PEFT适用性和优势,设计更有效的PEFT方案。
  • Scaling Laws of PEFT (PEFT的缩放法则):理解可训练参数数量如何影响PEFT性能,为模型设计和微调策略提供指导。
  • Layered Abstraction (分层抽象):PEFT的分层调整与人脑分层处理信息类似,可从简单到复杂实现精细化适应。
  • Brain-Inspired PEFT (受脑启发PEFT):将神经科学原理(如高效编码、突触可塑性)融入PEFT,借鉴人脑选择性调整连接以高效学习新知识的机制,有望带来更高效的微调过程。

总之,PEFT与FMs的结合为高效模型适应提供了有前景的途径。本综述通过深入分析五大类PEFT方法及其在不同FM结构(LLM、VFM、VLM、MFM、VGM)中的应用,为理解和使用PEFT的力量提供了宝贵资源,并指明了未来研究和发展方向。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐