鱼哥好书分享第59期：大语言模型的微调策略

本文介绍了大语言模型的微调策略及基于ChatGPT的微调方法。大语言模型在特定任务领域表现不佳时，可通过全面微调或参数高效微调（PEFT）进行优化。PEFT包括前缀调优、提示调优、P-Tuning和LoRA等方法，能有效节省计算资源。OpenAI于2023年开放GPT-3.5微调API，允许用户通过准备JSONL格式数据集、训练评估模型等步骤实现定制化。微调可通过Fine-Tuning UI、CL

落寞的魚丶

501人浏览 · 2025-09-19 17:06:52

落寞的魚丶 · 2025-09-19 17:06:52 发布

鱼哥好书分享第59期：大语言模型的微调策略

尽管大语言模型展示出强大的能力，但在特定任务领域，它们往往无法达到最佳效果。通过微调，可以将特定领域的数据集输入模型中，使模型学习该领域的知识，从而优化自身在特定领域的 NLP 任务中的表现，如情感分析、实体识别、文本分类和对话生成等。本文章讲大语言模型的微调策略及基于 ChatGPT 的微调。

一.大语言模型的微调策略微调

是让预训练的大语言模型适应特定领域任务的关键技术。根据不同的需求和资源用户可以选择全面微调或参数高效微调。下面详细介绍这两种策略：

1.全面微调

全面微调是指对预训练模型的所有参数进行调整，通过合理的数据准备、训练、评估和策略调整，使模型在特定领域的数据集或任务上表现得更出色。全面微调适用于数据量大、计算资源充足的场景。自从 2018年10月 BERT 以 3.5 亿个参数成为当时最大的 Transformer 模型以来，大语言模型的参数量都在持续增长，如 BLOOM 具有 1760 亿个参数，参数量相比 BERT增加了约 500 倍。而同时期，HBM 的高成本，使得单个 GPU的 RAM 扩大到 80GB，增长了约 10倍。可见模型大小的增速远远超过计算资源的增速，超越了摩尔定律。这使得全面微调对于大部分模型来说不现实，也行不通。然而，参数高效微调可以在计算资源受限的情况下，有效地实现预训练模型的微调。这种微调方法不仅能有效提升模型效果，还能节省训练时间和资源，因而受到广大学者的喜爱和研究。下面我们重点介绍参数高效微调策略。

2.参数高效微调

论文"Scaling Down to Scale Up：A Guide to Parameter-Efficient Fine-Tuning"根据2019年2月至 2023年2月期间发表的 40 多篇论文，对参数高效微调（Parameter-Efficient Five-Tuning，PEFT）方法进行了系统概述，提供了一个涵盖多种方法的分类法，把参数高效微调分为三大类：基于 Addition、基于Selection和基于Reparametrization。其中，在基于 Addition 的方法中，又分出2类：Adapter-like 和 Soft prompts。详细的分类图如图所示。

在这里插入图片描述
此外，该论文特别关注不同方法在现实生活中的效率及其对数十亿参数规模的大语言模型的微调效果，并从存储效率、内存效率、计算效率、准确性和推理开销5个方面对不同方法做了比较。下面简单介绍一些经典的参数高效微调方法。

1）前缀调优（Prefix Tuning）由于模型对人工设计的模板比较敏感，当模板中的字词增加、减少或者位置发生变化时，模型的性能都会受到显著影响。为了解决这个问题，Prefix Tuning 提出了一种固定预训练模型的方法，通过为模型添加可训练的前缀（Prefix），来调节模型在特定任务上的表现。Prefix Tuning的核心思想是在不改变原有模型参数的基础上，添加一些可训练的前缀参数。这些前缀参数在模型的输入部分进行拼接，通过训练来适应特定任务的需求。

（2）提示调优（Prompt Tuning）Prompt Tuning 方法可以看作 Prefix Tuning 的简化版本，传统的方法通常需要人工设计提示词，比如“请帮我把下面一句话翻译成英文”。Prompt Tuning 希望通过反向传播算法自动学习和优化这些提示词，而不是人工设计。在训练过程中，预训练模型的所有权重都被冻结（保持不变），只有提示词的参数会被更新。这样使得我们不需要重新训练整个模型，就可以提升模型在特定任务上的表现，从而节省大量计算资源和时间。

（3）P-Tuning在 P-Tuning方法中，提示词可以表示为一组可训练的嵌入向量。具体来说，给定一个离散提示词作为输入，P-Tuning将连续提示词嵌入与离散提示词嵌入拼接起来，并将它们作为输入送到大语言模型中，再通过反向传播更新可训练的提示词，以优化任务目标。经过验证，通过优化提示词嵌入，模型能够适应特定任务的需求，而不需要微调所有模型参数。

（4）LoRA（Low-Rank Adaptation）通过引入低秩矩阵来实现参数更新。该方法的核心思想是，将原始模型的部分权重矩阵分解为低秩矩阵，从而减少参数量，降低计算开销，同时保持模型的性能。这种方法在计算资源受限的情况下，能够显著提高预训练模型的微调效率，广泛应用于各种自然语言处理任务中。除了上述方法，如 QLoRA、AdaLoRA、Adapter Tuning、 P-Tuning v2、MAM Adapter和 UniPELT 等，也是目前应用比较多的参数高效微调方法。

二.基于ChatGPT的微调

2023年8月 23日，OpenA宣布对GPT-3.5 开放微调 API，允许 AI开发人员通过专门的数据在专门的任务上实现更高的性能。OpenAI声称，最终的定制模型在某些特定任务上可以匹配或超过GPT-4的能力。也就是说，每个企业或个人将拥有自己的专属OpenAI。OpenAI 的大语言模型 ChatGPT 已经在大量文本上进行了预训练，而微调可以让其更适合特定的应用场景。微调的步骤包括：准备和上传数据；训练新的微调模型；评估结果，并在需要时继续迭代；微调结束后使用模型。在准备数据阶段，OpenAI对数据集以及内容格式有一定的要求。首先要求数据集为JSONL 格式，数据格式如下：

二.基于ChatGPT的微调2023年8月 23日，OpenA宣布对GPT-3.5 开放微调 API，允许 AI开发人员通过专门的数据在专门的任务上实现更高的性能。OpenAI声称，最终的定制模型在某些特定任务上可以匹配或超过GPT-4的能力。也就是说，每个企业或个人将拥有自己的专属OpenAI。OpenAI 的大语言模型 ChatGPT 已经在大量文本上进行了预训练，而微调可以让其更适合特定的应用场景。微调的步骤包括：准备和上传数据；训练新的微调模型；评估结果，并在需要时继续迭代；微调结束后使用模型。在准备数据阶段，OpenAI对数据集以及内容格式有一定的要求。首先要求数据集为JSONL 格式，数据格式如下：

在这里插入图片描述
如果是对话式聊天格式，且预训练模型为 gpt-3.5-turbo、babbage-002 和 davinci-002也可以按照下面的数据格式进行微调。

在这里插入图片描述
准备好数据集之后，需要将数据集切分成训练数据集和测试数据集。而每条训练数据的大小也受到基础模型的限制。对于 gpt-3.5-turbo-0125，每个训练样本限制为 16385 个Token；对于 gpt-3.5-turbo-0613，每个训练样本限制为 4096个 Token。超过最大长度限制的部分将被截断。

在进行微调之前，可以先使用数据集格式验证工具对数据集进行检查，以验证数据集中的每个对话是否都符合微调接口所要求的格式；还可以通过一些轻量级分析，提前识别数据集中存在的问题，例如缺少系统/用户消息等，并提供对消息数和Token数的统计分析，用来估算微调成本。

下面将通过使用 Fine-Tuning UI、CLI命令和 API的方式来介绍 OpenAl的微调。

1.使用 Fine-Tuning Ul 微调

OpenAl 支持通过 Fine-Tuning UI进行大语言模型的微调。如果要进入 OpenAI 的微调Web 页面，需要打开相应的页面（https://platform.openai.com/finetune），在左侧的导航栏单击"Fine-tuning"即可，如以下图所示。

在这里插入图片描述
在 Fine-tuning 页面中，左侧展示可微调的所有任务，右侧展示选中任务的详细信息单击“+Create”按钮就可以创建微调任务，如下图所示。在创建微调任务的页面，完成微调任务的创建需要如下几个步骤：

在这里插入图片描述
选择基础大模型：OpenAI提供的基础模型有 babbage-002、davinci-002、gpt-3.5-turbo-0125、gpt-3.5-turbo-0613 和 gpt-3.5-turbo-1106。添加训练数据集：可以上传或者选择一个已经存在的json1文件。添加验证数据集：可以上传或者选择一个已经存在的.jsonl 文件。设置模型后缀：给输出的模型添加一个自定义的后缀。

设置随机种子：随机种子用来控制任务的可重复性。如果未设置种子，则会自动生成一个。

配置超参数：超参数需要设置批大小、学习率和训练周期，默认值都是 auto。

创建微调任务：完成上面的步骤后，单击“Create”即可完成训练任务的创建。

评估微调结果：通过监控微调过程，确定使用模型，还是重新迭代。

使用微调模型：完成微调之后，就可以使用微调模型了。

2…使用 CLI 命令微调

OpenAI提供了命令行工具，可以帮助我们快速处理数据集、操作文件、创建微调任务和使用模型等，下面介绍一些常用的命令行工具。使用命令行工具需要先安装 openai库，代码如下：

pip3 install --upgrade openai

在需要运行的环境（Linux、macOs）中，配置 OpenAl 的 api key，代码如下：

export OPEN_API_KEY="自己的api key"

使用帮助工具查看 tools 和 api 分别支持的相关命令，代码如下：

openai tools-h或openai tools --help 
openai api -h或openai api --help

从帮助工具的查看结果可以发现，命令行工具支持图像、音频、文件和模型等，具体使用方法见表：

在这里插入图片描述
使用 prepare data 进行数据的准备，参数 -f用于指定本地的数据，代码如下：

openai tools fine_tunes.prepare_data -f ./tmp/data.txt

准备数据的过程，会对本地数据进行分析和处理，最终生成一个新的JSONL格式的文件，如下图所示。

在这里插入图片描述
使用 fles.create 方法将数据上传到 OpenAI服务器，参数-p用于指定文件的用途（purpose），如fine-tune、answers 和search，代码如下：

openai api files.create -f ./training_data.jsonl -p fine-tune

创建微调任务，参数 -t用于指定训练数据集，–model用于指定基础模型，代码如下：

openai api fine_tunes.create -t 训练文件ID --model 选择的基础模型

查看所有微调任务及其状态信息，代码如下：

 openai api fine_tunes.list

根据任务ID，查看微调任务的详细信息，代码如下：

  openai api fine_tunes.get -i 微调任务ID

当微调任务结束并完成模型评估后，就可以使用微调后的模型了，代码如下：

 openai api completions.create -m 模型名称 -p 提示词

还可以添加更多参数来控制文本的生成，如最大生成长度、温度和生成数量等，代码如下：

openai api completions.create -m 模型名称-p 提示词 --max-tokens 100 --temperature 0.7 --n 1

通过上述示例可以看出，使用 OpenAI的 CLI命令工具，用户可以很方便地创建微调任务，包括准备和上传数据集文件、创建微调任务、检查任务状态和使用模型等。

3.使用 API微调

对于大多数开发者而言，使用 Fime-Tuning Ul和 CLI命令微调仅用于测试。在实际的生产环境中，需要通过编程实现微调。为此，OpenAI提供了相关的 API。先初始化 OpenAI的客户端，配置自己的 api key，代码如下：

from openai import OpenAI

api key = "填写自己申请的 OpenAI的 api key"
client = OpenAI（api key=api key）

假设已经准备好微调的数据集为 mydata.jsonl文件，将 mydata.json 文件上传到 OpenAI服务器，并指定目的是fine-tune，代码如下：

data_file_path ="mydata.jsonl"
client.files.create（file=open（data_file_path, "rb"）, purpose="fine-tune"）

根据数据集返回的文件ID，基于基础模型 gpt-3.5-turbo 创建一个微调任务，代码如下：

file_id ="file-xxx"
client.fine_tuning.jobs.create（training_file=file_id, model="gpt-3.5-turbo", suffix="2024-07-10"）

可以对微调任务进行列出、查询和取消等一系列操作，代码如下：

#列出前5个任务
client.fine_tuning.jobs.list（limit=5）
#查询微调任务的状态
fine_tuning_job_id = "ftiob-xxx"
client.fine_tuning.jobs.retrieve（fine_tuning_job_id）
#取消一个微调任务
client.fine_tuning.jobs.cancel（fine_tuning_job_id）
#查询微调任务的5个事件
client.fine_tuning.jobs.list_events（fine_tuning_job_id=fine_tuning_job_id, limit=5）

微调和评估结束后，就可以使用微调出的模型了，代码如下：

model = "ft:gpt-3.5-turbo:demo:suffix:2024-07-10"
completion = client.chat.completions.create（
    model=model,
    messages=[
        {"role": "system", "content": "你是一个虚拟助手。"},
        {"role": "assistant", "content": "您好。"},
        {"role": "user", "content": "您好。"}
    ]
）

本节介绍了 3种用于 ChatGPT 微调的方法：Fine-Tuning UI、CLI命令和 API。虽然这三种方法可以满足大部分需求，但它们仅依赖于 ChatGPT。本节内容不仅适用于大多数场景，还可以作为了解和使用 ChatGPT的基础。然而，为了满足更多更复杂的使用场景，接下来我们将探讨一些其他的微调最佳实践。这些实践将帮助你更灵活地利用大语言模型。以实现更出色的性能和更广泛的应用。注：本文节选自机械工业出版社出版的《Python大模型应用开发：核心技术与项目实战》，略有改动，以纸质书出版为准。

在这里插入图片描述
购书链接：https://item.jd.com/14503653.html

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

在 EPGF 架构下的 Python 环境变量设置建议——Anaconda 路径精简后暴露 python 及工具到环境变量的配置记录 [三]

2048 AI社区

my-neuro rag 向量数据库部分笔记 sklearn.metrics.pairwise.cosine_similarity watchdog 召回

这是一个运行在本地的语义搜索引擎 + 知识库问答 API 服务，能根据用户提问从“记忆库.txt”中找出最相关的段落，并通过横线分隔管理知识片段。这是一套轻量级本地知识库语义检索引擎，专为中文设计，支持热更新、日志记录、GPU加速，适用于构建带有“记忆能力”的对话机器人、个人AI助理、游戏NPC记忆系统等。你可以把它理解为：🔹 “我的AI大脑的记忆模块”🔹 “让AI记得你说过啥的小助手”步骤干

2048 AI社区

Figure 获 10 亿美元融资，启动全球最大真实场景机器人数据集 Go-Big 构建

正如前 Open AI 研究员姚顺雨所说，几十年来，AI 领域的研究都聚焦着新的训练方法和模型，但进入到 “AI 下半段（The Second Half）”，聚焦点将从 “解决问题” 转移到 “定义问题”，更加注重基准测试（Benchmark），包括数据集、评估任务、评估指标的建设。，打造 “机器人行为的 YouTube”，利用海量真实场景数据，以人类第一视角视频训练 Helix 模型，最终实现人