文章介绍了大模型微调中的参数选择方法,分为基于规则(如BitFit只更新偏置项和分类头,或只更新最后几层)和基于学习(如Child-Tuning通过梯度掩码矩阵自动选择参数子集)两大类。这些方法显著减少需更新的参数,降低计算成本,但面临如何选择最佳参数子集的挑战。


参数选择方法(Parameter Selection Methods)

是在微调过程中,只对预训练模型中的部分参数子集进行更新。与参数附加方法不同,这类方法无需在模型中引入新的参数,从而避免了推理阶段额外的计算开销。根据实现方式的不同,参数选择方法通常可分为两类:基于规则的选择基于学习的选择

1 基于规则的方法

依赖人工经验或简单规则决定哪些参数需要更新,代表方法有:

  • BitFit
  • 仅优化网络各层的偏置项(Biases)和任务分类头。
  • 参数占比极低(约 0.08%–0.09%)。
  • 在 GLUE Benchmark 上性能接近甚至超过全量微调。
  • 优点:允许更大学习率,训练稳定;极高的参数效率。
  • 局限:目前主要在中小模型(BERT、RoBERTa)验证,大模型效果待研究。
  • BERT/RoBERTa 方法
  • 仅微调 BERT/RoBERTa 的最后 1/4 层参数,能达全量微调约 90% 性能。
  • PaFi
  • 选择绝对值最小的参数作为可训练部分,进一步减少计算。

基于规则的方法 通常依赖专家经验来决定哪些参数需要更新。其中最具代表性的是 BitFit。该方法仅优化神经网络各层的偏置项(Biases)以及任务相关的分类头,从而实现高效微调。由于偏置项在模型总参数中占比极小(约 0.08%–0.09%),BitFit 在保持极高参数效率的同时,依然能在 GLUE Benchmark 上取得与全量微调相当,甚至在部分任务上更优的性能。与全量微调相比,BitFit 还允许使用更大的学习率,使训练过程更加稳定。不过,该方法目前主要在中小规模模型上验证,能否在更大规模模型中保持同样的效果仍有待研究。

除 BitFit 外,学界还提出了一些其他基于规则的选择方法来提升参数效率。例如,仅对模型的最后四分之一层进行微调,即可达到全量微调约 90% 的性能。另一种方法 PaFi 则通过选择绝对值最小的模型参数作为可训练部分,进一步降低了微调的计算开销。

规则的方法实现思路

  1. 冻结所有参数
  • 默认情况下,将预训练模型所有参数 requires_grad=False,即不参与反向传播更新。
  1. 选择需要更新的参数(基于规则)
  • BitFit:只解冻 偏置项(bias)任务分类头(classifier head)
  • 层选择方法(Layer-wise Tuning):只解冻最后几层(例如 BERT 的最后四分之一层)。
  • PaFi:选取 权重值绝对值最小 的参数,作为可更新部分。
  1. 训练时仅更新解冻的参数
  • 优化器只会看到 requires_grad=True 的参数,从而减少训练规模。
from transformers import BertForSequenceClassification

2 基于学习的方法

通过训练自动选择参数子集,代表方法有:

Child-Tuning

  • 思路:引入 梯度掩码矩阵,仅对子网络更新梯度,其余参数进行梯度屏蔽。

基于学习的方法 会在训练过程中自动决定哪些参数需要微调。其中,最具代表性的方法是 Child-Tuning。该方法通过引入梯度掩码矩阵,仅对被选中的子网络进行梯度更新,而对其余部分的梯度进行屏蔽,从而有效控制微调的参数规模,实现参数高效微调。

具体来说,设第 t 轮迭代的参数矩阵为 Wt,Child-Tuning 在此基础上引入一个与其维度相同的 0-1 掩码矩阵Mt,用于确定本轮训练中所更新的子网络 Ct。这样,只有掩码矩阵中被激活(取 1)的参数会参与更新,而其他参数保持冻结状态:

其中,M(t i) 和 Wt(i) 分别是矩阵 Mt 和 Wt 在第 t 轮迭代的第 i 个元素。此时,梯度更新公式为:

Child-tuning 提供了两种生成子网络掩码 M 的方式,由此产生两种变体模型:Child-tuningF 和 Child-tuningD。

Child-tuningF 是一种任务无关的变体,它在不依赖任何下游任务数据的情况下选择子网络。在每次迭代时,Child-tuningF 从伯努利分布中抽取 0-1 掩码,

生成梯度掩码 Mt :Mt ∼ Bernoulli(pF )

其中,pF 是伯努利分布的概率,表示子网络的比例。此外,Child-tuningF 通过引入噪声来对全梯度进行正则化,从而防止小数据集上的过拟合,并提高泛化能力。

Child-tuningD 是一种任务驱动的变体,它利用下游任务数据来选择与任务最相关的子网络。具体来说,Child-tuningD 使用费舍尔信息矩阵来估计特定任务相关参数的重要性。具体地,对于给定的任务训练数据 D,模型的第 i 个参数矩阵 W(i) 的费舍尔信息估计为:

其中,Xi 和 Yi 分别表示第 i 个样本的输入和输出,log p(Yi|Xi; W) 是对数似然概率,通过计算损失函数对参数 W(i) 的梯度得到。通常,我们假设参数对目标任务越重要,它的费舍尔信息的值就越高。因此,可以根据费舍尔信息来选择子网络,子网络 C 由具有最高费舍尔信息的参数组成。选择子网络参数的步骤如下:

  1. 计算每个参数的费舍尔信息值;

  2. 对这些费舍尔信息值进行排序;

  3. 选择前 pD 比例的参数作为子网络 C 。

确定子网络后,生成相应的掩码矩阵完成模型训练。

Child-tuning 通过梯度屏蔽减少了计算负担,同时减少了模型的假设空间,降低了模型过拟合的风险。然而,子网络的选择需要额外的计算代价,特别是在任务驱动的变体中,费舍尔信息的计算十分耗时。但总体而言,Child-tuning 可以改善大语言模型在多种下游任务中的表现,尤其是在训练数据有限的情况下。此外,Child-tuning 可以很好地与其他 PEFT 方法的集成,进一步提升模型性能。

实现思路:

  1. 冻结参数:和规则法一样,起点是冻结大部分参数。
  2. 引入掩码(Mask)矩阵
  • 每个参数对应一个 0/1 标记,决定它是否更新。
  • 掩码可以是固定的(预先生成),也可以在训练过程中动态调整。
  1. 学习掩码
  • 通过随机采样(Child-Tuning-F)
  • 或者根据参数重要性(Child-Tuning-D,FishMask)
  • 或者根据训练动态(LT-SFT、SAM)
    来生成掩码。
  1. 更新时屏蔽梯度
  • 梯度更新公式:

    其中Mt是掩码矩阵,⊙表示逐元素乘法。掩码为 0 的位置,梯度被屏蔽(保持冻结)。

Child-Tuning-F(随机采样掩码)

import torch

Child-Tuning-D(任务驱动,基于Fisher信息)

from collections import defaultdict

基于选择的方法通过选择性地更新预训练模型的参数,在保持大部分参数不变的情况下对模型进行微调。基于选择的方法能够显著减少微调过程中所需要更新的参数,降低计算成本和内存需求。对于资源受限的环境或者需要快速适应新任务的场景尤其适用。然而,这些方法也面临挑战,比如,如何选择最佳参数子集,以及如何平衡参数更新的数量和模型性能之间的关系。


如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐