大模型微调技术介绍篇

大模型必须要微调（Fine-tuning），例如一个预训练好的大模型就像一个刚从医学院以优异成绩毕业的全科医生（通才），他掌握了非常广泛和深厚的医学知识（语法、事实、推理能力等）。

人工智能小豪

442人浏览 · 2025-11-29 14:35:58

人工智能小豪 · 2025-11-29 14:35:58 发布

大模型必须要微调（Fine-tuning），例如一个预训练好的大模型就像一个刚从医学院以优异成绩毕业的全科医生（通才），他掌握了非常广泛和深厚的医学知识（语法、事实、推理能力等）。

但是，如果现在需要他去做一个顶尖的心脏外科手术（特定任务），直接让他上手可能风险很高。他需要

熟悉这个特定医院的手术流程和规范（适应领域和数据分布）。
掌握最前沿的心脏手术技术（学习任务特定的知识和格式）。
形成与手术团队的特殊默契（与上下游系统协作）。

微调（Fine-tuning），就是这个让“全科医生”进修为“心脏外科专家”的过程。

微调原理

大模型微调核心都是通过训练来更新模型的参数（权重），模型本身因为看到了新数据而发生了内在改变。本质上就是更新Transformer模型的参数（权重）。 无论是全参数微调还是部分参数微调（PEFT），其操作对象都是这个“Transformer模型”。

当然也可以在不改变权重的方式提升大模型性能，如Hard Prompt：其核心是设计和优化输入文本（即Prompt本身），而不是改变模型。模型的参数纹丝不动，完全冻结，是一种能“激发”模型已有知识的最佳指令方式。Hard Prompt 也叫做离散提示。它是由人类可读、可理解的自然语言词汇和符号构成的指令或问题。

微调方式

1、全参数微调（Full Fine-Tuning）

这是最传统、最经典的微调方法。解锁预训练模型的所有参数，并在下游任务的数据集上进行训练，更新整个模型的每一层权重。由于所有参数都针对新任务进行了优化，模型通常能达到该架构下的最佳性能，能够最大限度地吸收任务相关知识。

缺点：

计算和存储成本极高：需要为每个任务存储一份完整的模型副本。对于拥有百亿、千亿参数的大模型，这需要大量的GPU内存和计算资源，通常只有拥有强大算力的机构才能承担。
灾难性遗忘：模型可能会过度适应新任务，从而丢失在预训练阶段学到的通用知识。

这是最强大但成本最高的方法，对于大模型来说，在实践中越来越不常用，除非计算资源极其充裕。

全参数微调有如下方法：

使用 Hugging Face Transformers 库中的 TrainingArguments 和 Trainer 类是目前进行全参数微调（Full Fine-tuning）最主流和便捷的方法之一。
HiFT（Hierarchical Full Parameter Fine-Tuning）：这是一种分层全参数微调策略
梯度低秩投影（GaLore - Gradient Low-Rank Projection）通过识别训练过程中梯度的低秩结构，并利用这种结构对梯度进行压缩，从而大幅降低存储梯度所需的内存
DeepSpeed 和 FSDP（Fully Sharded Data Parallel）**分布式训练框架**，旨在通过将模型参数、梯度、优化器状态跨多个GPU或甚至CPU内存进行分片（shard）** 来极大地减少单个GPU的内存占用。这些框架仍然是在进行全参数微调**，因为它们会更新所有参数，只是通过精巧的分布式计算和内存管理，使得这种更新过程在资源有限的硬件上成为可能。

2、部分参数微调（Partial Fine-Tuning）

全参数微调和PEFT之间的一个折中方案。冻结（freeze）预训练模型的大部分层，只对模型的顶层（top layers） 或特定组件（如分类头）进行微调。相比全参数微调，显著减少了可训练参数量和计算成本。

缺点：

性能通常不如全参数微调，因为底层捕获的通用特征没有得到进一步优化。
需要人工选择要微调的层数，是一个需要经验的超参数。

代表方法：

冻结特征提取器：只微调最后用于分类/回归的几层。
BitFit：从某种意义上也可以归入此类，因为它只选择性地微调模型中的偏置（Bias）参数。

3、参数高效性微调(PEFT)

1、介绍

Parameter-Efficient Fine-Tuning(PEFT) 。PEFT之所以成为当前微调大模型的主流选择，是因为它在性能、效率和实用性之间取得了最佳平衡。它让研究者和小型团队在有限的硬件资源下也能高效地定制大模型，极大地推动了AI技术的民主化。

PEFT在微调（Fine-tuning）大型预训练模型（如LLaMA、ChatGLM、GPT等）时，不更新或只更新极少量的模型参数，同时达到与全参数微调（Full Fine-tuning）相近的性能。如图展示了PEFT领域的主要技术路线及其代表性方法。

这张图很好地概括了PEFT的三大技术范式：

Additive（加）：不动原模型，往外加东西（模块/参数）来训练。
Selective（选）：在原模型里挑一部分参数出来训练，其他的不动。
Reparametrization-based（改）：不直接改原参数，用一种更高效的方式（如低秩分解）来表示对参数的改动，最终这个改动还能合并回去。

2、Additive (增量方法)

这类方法的核心思想是向模型结构中注入额外的、可训练的参数或模块，而在微调过程中冻结（freeze）原始预训练模型的所有参数。只训练这些新增的部分。

Adapters (适配器)：在Transformer层（通常是在FFN层或Attention层之后）插入小型的前馈神经网络。代表有：Adapters, Parallel Adapters, Sparse Adapter，由于增加模型的深度而额外增加了模型推理延时
Soft Prompts (软提示)：与离散的文本提示（Hard Prompt）不同，软提示是直接优化一段可训练的向量（即Prompt的嵌入表示），让模型更好地适应下游任务。代表有：Prompt-tuning, WARP、Prefix Tuning、P-Tuning
LoRA及其变种：虽然LoRA基于重参数化思想，但其实现方式是向模型添加一对低秩矩阵（A和B），因此也常被归入此类。代表有：LoRA, Sparse LoRA, KronA（一种基于Kronecker乘积的LoRA改进）。
其他：图中还列出了许多其他技术，例如：

BitFit：只微调模型中的偏置（bias）参数。
Attention Tuning：只微调Attention模块中的参数。
UniPELT：一个将多种PEFT方法（如LoRA、Adapter）作为子模块的统一框架，通过门控机制动态激活最适合当前任务的方法。

3. Selective (选择性方法)

这类方法的核心思想是选择并微调原始模型中的一部分参数，而冻结其他大部分参数。

如何选择：选择策略可以基于启发式规则（例如，只微调偏置项或某几层），也可以基于算法自动选择最重要的参数（例如，通过梯度信息或显著性评估）。
代表方法：但典型的技术包括：

Diff-Pruning：学习一个稀疏的“差分掩码”，只更新mask指示的一小部分参数。
Fish-Mask：类似的方法，基于梯度信息选择重要参数。
简单地只微调最后几层也属于这种思路。

4. 基于重参数化方法 (改Reparametrization-based)

这类方法的核心思想是不直接使用原始参数进行训练，而是通过一个更高效的、低秩的或其他形式的参数化方式来间接更新权重。在推理时，这些更新可以被合并回原始权重中，不增加任何推理延迟。

LoRA (Low-Rank Adaptation)：这是最著名的代表。它假设模型更新过程中的权重变化是低秩的。因此，它不直接更新原始权重矩阵 $W$ ，而是用两个更小的矩阵 $A$ 和 $B$ 的乘积来模拟更新： $\Delta W = W + BA$ 。训练时只训练 $A$ 和 $B$ ，训练完后可将 $B A$ 加到 $W$ 上，推理时和原模型完全一样。
AdaLoRA：LoRA的改进版，可以自适应地分配参数预算，为重要的权重矩阵分配更高的秩，不重要的分配更低的秩，从而更高效地利用参数。
(IA)³：通过一个向量来对激活（Activation）进行缩放，从而微调模型，非常参数高效。

目前，基于重参数化的LoRA及其变体因其高效性和无推理延迟的特性，成为了最受欢迎和广泛应用的PEFT技术之一。而UniPELT这样的统一框架则展示了混合使用多种PEFT方法的潜力。

未来发展趋势

让强大的AI能力不再是科技巨头的专属，而是任何开发者、企业甚至个人都能轻松定制和部署的实用工具。主要涉及如下几点：

继续探索如何用最少的参数和计算量来完成微调。
让微调框架本身更灵活、智能，能自动适应不同任务和数据的特点。
从目前的文本领域拓展到图像、音频、视频等多模态领域，并让一个模型能同时处理多种任务。
着力优化模型，让其能部署在手机、平板、IoT设备等资源有限的边缘设备上。
让PEFT技术更好地服务于小语种、冷门专业领域、以及标注数据极少的任务。

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告：覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容，涵盖：

职业趋势：《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》；
商业落地：《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》；
领域细分：《AGI 在金融领域的应用报告》《AI GC 实践案例集》；
行业监测：《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT：听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会，包含百度、腾讯、字节等企业的一线实践：

在这里插入图片描述

安全方向：《端侧大模型的安全建设》《大模型驱动安全升级（腾讯代码安全实践）》；
产品与创新：《大模型产品如何创新与创收》《AI 时代的新范式：构建 AI 产品》；
多模态与 Agent：《Step-Video 开源模型（视频生成进展）》《Agentic RAG 的现在与未来》；
工程落地：《从原型到生产：AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗？这份面试资料帮你提前 “押题”，拒绝临场慌！

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景，包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题，每道题都附带思路解析：

2. 102 道 AI 大模型真题：直击大模型核心考点

针对大模型专属考题，从概念到实践全面覆盖，帮你理清底层逻辑：

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案，比如让很多人头疼的 “复读机问题”：

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

刚接触 AI 大模型，不知道该从哪学起？这份「AI大模型学习路线图」直接帮你划重点，不用再盲目摸索！

在这里插入图片描述

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

DAY 21 推断聚类后簇的类型

零基础先掌握「先选特征」思路，因为它依赖业务经验，步骤简单，解读直接。两种思路的核心都是「通过簇内特征的统计值（均值）结合业务逻辑解读」，区别只是 “选特征的时机”。代码可以直接复制运行，遇到报错先看 “常见错误 & 解决方案”，再不行就检查库是否安装（Mac OS 终端运行pip list查看）。通过可视化图形借助 ai 定义簇的含义下面通过4 类核心可视化图形（PCA 降维散点图、簇特征热力图