AI-大语言模型LLM-模型微调1-基础理论

微调让知识内化到模型中，RAG让知识独立于模型存在知识库中微调后的模型，可以让用户使用更少的提示词，RAG需要更多提示词（系统提示词或用户提示词）微调后的模型，使用时步骤更少，性能更高模型微调和RAG往往结合使用。

shangjian007

526人浏览 · 2026-01-12 22:36:27

shangjian007 · 2026-01-12 22:36:27 发布

目的

为避免一学就会、一用就废，这里做下笔记

微调和部署

术语

概念	说明
PEFT	Parameter-Efficient Fine-Tuning，参数高效微调。它是大语言模型微调的一种方法，只训练模型中的一小部分参数（通常少于1%），就能达到接近全参数微调的效果
SFT	Supervised Fine-Tuning，监督微调，属于监督学习。用于为通用模型注入专业知识
RLHF	Reinforcement Learning from Human Feedback，基于人类反馈的强化学习。它是一种让大语言模型（LLM）的输出与人类价值观和偏好对齐（preference alignment）的具体技术框架

微调须知123

1、微调在大模型优化中的位置

如图所示，大模型优化方式分四种，从复杂度和计算量上讲，微调难度比从零训练低，比做RAG高
在这里插入图片描述

2、微调的性价比

如图所示，越难的东西越值钱/费钱，这很符合直觉
在这里插入图片描述

3、什么情况下需要微调

经费充足（基础入门级效果：50万 - 200万元；产品商用级：300万 - 1000万元；行业标杆级：1000万 - 2000万）
已确认提示词工程和RAG无法达到目标效果
行业知识和通用知识内涵或格式差异较大，如医学领域
能找到足够高质量、结构化的微调数据

传统大模型训练流程

在这里插入图片描述

先使用海量数据对模型做预训练(Pre-Training)，生成基础模型(Base Model)
再使用标注数据，对基础模型进行监督微调(SFT)，生成指令微调模型（Instruct Model）
结合人类偏好，对微调指令进行偏好对齐（Preference Alignment），确保模型的输出符合人类偏好（政治正确、三观正确、符合法律、温和礼貌等），最终作为对外的聊天模型

偏好对齐非必须流程，指令微调模型像野马，强大但不可控，偏好对齐像驯马，使之温顺

微调 $V S$ RAG

RAG流程示意

在这里插入图片描述

微调训练过程示意

在这里插入图片描述

总结

微调让知识内化到模型中，RAG让知识独立于模型存在知识库中
微调后的模型，可以让用户使用更少的提示词，RAG需要更多提示词（系统提示词或用户提示词）
微调后的模型，使用时步骤更少，性能更高
模型微调和RAG往往结合使用

指令数据集构造方式

微调的核心是SFT，SFT的必要条件就是指令数据集，即有标签的样例数据，因此如何构造指令数据集成为重要步骤。
直接上结论：方法1：人工构造 方法2：用LLM构造。如下图：
在这里插入图片描述
用LLM构造的可行性，业界已实践验证，下图为Alpaca 7B模型的微调流程：

PEFT和传统LLM微调的不同

在这里插入图片描述

传统大模型微调，需要调整原模型的海量参数，耗费巨大
PEFT不改变基础模型参数，而是在原模型的基础上增加额外的少量参数并微调（或者仅改变原模型少量参数，约1%-10%），耗费小很多
PEFT几乎可以避免把原模型训练更差的灾难性遗忘问题

一句话总结：PEFT是传统微调的“轻量化改造”，它像给大模型“加插件”，而非重装整个系统，在保证效果接近的同时实现了高效、低成本和多任务管理。

PEFT的各种实现方法

在这里插入图片描述

1. Selective（选择性微调）

含义：只选择性地微调原始模型中的一部分参数，而冻结其余大部分参数。
核心思想：不是所有参数对下游任务都同等重要。通过识别并只更新最关键的部分（如注意力层的偏置项、特定层的权重），实现高效微调。
图中例子：Diff-Pruning, Fish-Mask, BitFit（仅微调偏置项）。
类比：给一台复杂机器做保养时，只调整几个最重要的旋钮，而不是拆开整个机器重装。

2. Additive（附加式微调）

含义：在原始模型结构之外，额外添加新的、可训练的参数模块，同时冻结原始模型的所有参数。
核心思想：通过引入少量外部参数来学习任务特定知识，完全不改变原始模型，避免灾难性遗忘。
这是图中最大的一类，包含了Adapters和Soft Prompts两个重要子类。
类比：给智能手机外接一个便携镜头或键盘来增强特定功能，而不改动手机内部芯片。

3. Adapters（适配器）

含义：Additive方法的一个主要子类。指在Transformer层的内部（通常是前馈网络FFN之后或注意力模块之后）插入小型、参数化的瓶颈层模块。
典型结构：降维 → 非线性激活 → 升维。
特点：模块化程度高，但会在前向传播中引入少量额外计算，可能略微增加推理延迟。
图中位置：在Additive分支下，如Parallel Adapters、MAM Adapter、Compacter等。
类比：在工厂的主流水线上插入一个微型工作站，对产品进行特定加工，流水线主体不变。

4. Soft Prompts（软提示 / 连续提示）

含义：Additive方法的另一个主要子类。指在模型的输入层（词嵌入空间）添加一组可训练的连续向量作为提示。
核心思想：通过优化这些向量来“引导”或“激活”模型内部知识，使其适配下游任务，不修改模型内部任何结构。
特点：参数效率极高，推理时几乎无额外开销。
图中位置：在Additive分支下，如Prefix-Tuning、Prompt-Tuning。
类比：给一个经验丰富的向导一张精心设计的地图或指令卡，他就能带你找到特定地点，而不需要改变向导本身的知识。

5. Reparameterization-based（基于重参数化的微调）

含义：通过对原始模型的权重矩阵进行低秩分解、乘积或其他数学变换来间接引入新的可训练参数，而不是直接添加新模块。
核心思想：用一种数学上等价但参数更少的表示形式来模拟全参数微调的效果。
代表方法：LoRA 是其最著名的代表。
- LoRA将权重更新 ΔW 分解为两个低秩矩阵的乘积 (ΔW = BA)，只训练小矩阵 A 和 B。
特点：训练后，新增参数可以合并回原始权重，实现零推理延迟。
图中位置：最右侧的独立分支，包含LoRA及其变体（如Sparse LoRA）。
类比：不是给车子加挂车，而是用一套微型齿轮组调整发动机的输出特性，调完后齿轮组可以拆掉，不影响车子原有结构。

引用说明

图片截取自“马士兵教育”课件

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026降AI率指南：10款论文降ai工具红黑榜！亲测哪个免费降ai率工具不“智障”？

2048 AI社区

AI学习笔记整理（67）——大模型的Benchmark（基准测试）

以上我们介绍的推理测试，主要还是建立在一类已有的知识学可上的（如数学、物理、生物），要攻克这些题目，模型既要非常博学（掌握大量的学术知识）还得非常聪明（推理能力很强）。那有没有专注于考模型聪不聪明，而不考模型的知识积累的基准呢？就像对于一个人的评价，我们看他聪不聪明，可能从小学能看出来了，不一定要等到他上完大学之后再做评价。对模型的测试也是一样，下面我们讲的对于模型 “抽象推理” 能力的测评，就属