本文用「教育孩子」类比「训练AI」的通俗方式,拆解大模型微调的完整流程,全程基于魔搭平台和LLaMA Factory工具,从环境搭建、模型下载、数据准备,到模型训练、本地测试、模型导出,每一步都附具体操作和代码,无多余冗余。无论是零基础小白,还是刚接触大模型的程序员,都能跟着步骤一步步实操,轻松吃透预训练、微调和RLHF三大核心阶段,成功训练出属于自己的第一个大模型,建议收藏备用,实操时直接对照步骤走!

1、先搞懂:什么是大模型「微调」?

在动手实操前,我们先花2分钟搞懂核心概念——微调。常规大语言模型的训练,就像培养一个孩子,整体分为3个关键阶段,一张图就能看明白:

用「养娃」做类比,小白也能秒懂三个阶段的区别,建议记好这个类比,后续理解流程更轻松:

1. 预训练(对应孩子的「通识教育」)

  • 模型层面:通过自监督学习,读取海量文本数据,掌握基础的语言规则、词汇逻辑,但此时还不会针对具体问题给出精准回答,相当于「有知识但不会用」。
  • 通俗类比:就像孩子上幼儿园、小学前,大量听家长说话、读绘本、看动画片,积累了基本的词汇和生活常识,但还不会完整表达自己的观点,也不会精准回应大人的提问。

2. 微调(对应孩子的「专项训练」)

  • 模型层面:用提前准备好的Q&A问答对训练模型,教会它如何组织语言、贴合需求,精准回应具体问题,相当于「把知识转化为实用能力」。
  • 通俗类比:类似家长或老师通过「问答练习」引导孩子成长,比如: 久而久之,孩子就能用更专业、更清晰的语言回应问题,这和模型微调的逻辑完全一致。
    • 问:「天空为什么是蓝色的?」
    • 教:「因为阳光照射到大气层时,蓝光波长较短,容易被散射,所以我们看到的天空是蓝色的。」

3. RLHF(对应孩子的「品德与规范教育」)

  • 模型层面:根据人类的反馈调整模型的回答,让回答更符合社会偏好——比如更友善、更严谨、不跑偏、不输出违规内容。
  • 通俗类比:当孩子回答「天空是蓝色的,因为天空喜欢蓝色」时,家长耐心纠正:「这个想法很可爱,但回答要讲究科学依据哦」,久而久之,孩子就会明白「不仅要会回答,还要回答得靠谱」,RLHF就是给模型做这样的「规范引导」。

看到这里,相信你已经明白:大模型微调,本质就是「给已经有基础的模型做专项培训」,让它适配我们的具体需求。

那么什么时候需要微调?其实很简单:在垂直场景(比如电商客服、行业知识库问答)、需要高效输出特定内容,或者希望模型贴合自己需求的场景下,都需要微调。在企业AI落地过程中,微调更是高频操作,接下来就跟着步骤,手把手实操一遍,零基础也能搞定!

2、免费搭建微调环境(小白重点!零成本不踩坑)

很多小白担心「微调需要高性能电脑」「需要花钱买服务器」,其实完全不用——我们用魔搭平台的免费GPU实例,搭配LLaMA Factory开源工具,零成本就能搭建好微调环境,全程复制代码即可,不用自己配置复杂依赖。

1. 打开魔搭平台,创建免费GPU实例

第一步:打开魔搭实例创建地址(直接复制打开):https://modelscope.cn/my/mynotebook/preset

第二步:关联你的阿里云账号(没有的话注册一个,免费),然后选择「第二个GPU环境」(重点!免费且适配我们后续的操作,不用选其他付费环境),如下图所示:

⚠️ 注意:这个实例是免费的,但闲置一段时间后会自动释放,不用担心操作失误搞坏环境,大胆尝试就好!

第三步:等待2-3分钟,实例创建完成后,点击「查看notebook」,进入云端操作界面。

进入界面后,大家可以简单熟悉一下:界面上的大图标是常用软件,侧边栏是文件夹(后续存放代码、模型、数据集),下方带有$符号的是终端——相当于阿里云给我们免费提供了一台「带GPU的云端电脑」,所有操作都在这个终端里完成。

点击「终端」,进入终端界面,接下来就开始配置环境、下载工具啦。

2. 下载LLaMA Factory工具,配置依赖环境

LLaMA Factory是一款非常适合小白的大模型微调工具,开源免费,操作简单,我们直接克隆它的开源代码,然后配置相关依赖即可。

⚠️ 重点提醒:以下代码,只复制「不带#号」的内容,粘贴到终端执行即可;#号后面是注释,不用复制,避免报错。

# 克隆LLaMA Factory 开源框架(注释:这行不用复制)
git clone https://github.com/hiyouga/LLaMA-Factory.git
# 进入项目的目录(注释:这行不用复制)
cd LLaMA-Factory
# 创建虚拟环境(注释:隔离依赖,避免环境冲突,小白必做)
python -m venv .venv
# 激活虚拟环境(注释:激活后才能使用后续依赖)
source .venv/bin/activate
# 安装依赖(注释:这一步耗时较长,约15-20分钟,耐心等待,不要中途退出)
pip install -e ".[torch,metrics]"
# 如果报错,环境冲突用改用这个解决(注释:正常情况下不用执行,报错再用)
pip install --no-deps -e .

补充说明:安装依赖的过程中,可能会提示「缺少某个包」「需要升级pip」,直接按照提示执行对应的指令即可,不用慌——小白最容易犯的错就是「急于求成」,这里一定要耐着性子等待,只要终端没有报错,就说明正在正常安装。

安装完成后,你会发现侧边栏的文件夹中,多了一个「LLaMA-Factory」文件夹,说明工具下载成功。

当终端出现类似下图的提示时,说明依赖安装完成,可以进行下一步操作了。

3. 下载模型(小白首选轻量模型,提速不踩坑)

为了减少下载时间,避免小白因为「模型太大、等待过久」放弃,我们选择「Qwen2.5-0.5B-Instruct」模型——这是目前参数最小、适配性最好的轻量模型之一,适合新手入门实操,下载速度快,且能正常完成微调流程。

第一步:在LLaMA-Factory目录下,创建一个新的文件夹,命名为「newmodels」(用于存放我们下载的基础模型)。

第二步:复制以下代码,粘贴到终端,下载模型:

git clone https://www.modelscope.cn/Qwen/Qwen2.5-0.5B-Instruct.git

等待几分钟,模型就会下载完成,并存放到「newmodels」文件夹中(如果下载速度较慢,耐心等待即可,不用中途中断)。

4. 准备训练数据集(小白简化版,不用自己标注)

微调需要用「问答数据集」训练模型,小白不用自己标注数据,我们直接从魔搭数据集中下载一个轻量数据集(不到300行),下载速度快,且能满足入门实操需求。

第一步:下载数据集,直接复制打开地址:https://modelscope.cn/datasets/meadhu/taobao-positive-sentence/files,找到对应的数据集文件,点击下载即可。

第二步:数据集格式转换(重点!)—— 下载的数据集是csv格式,而模型训练需要json格式,这里我们用简单的脚本进行转换,小白不用自己写代码,直接让AI生成脚本,运行后保存为「train_converted.json」即可。

(补充:脚本可以直接问AI「csv格式转换为json格式的Python脚本,适配大模型微调数据集」,复制生成的脚本,在终端运行,即可完成转换,转换后的文件如下所示)

在这里插入图片描述

在这里插入图片描述

第三步:注册数据集—— LLaMA Factory工具自带「dataset_info.json」文件(在项目目录中可以找到),这是数据集的索引文件,我们需要将转换后的「train_converted.json」文件注册到这个索引中,直接打开文件,将数据集名称和路径写入即可。

⚠️ 注意:写入路径时,一定要和你存放「train_converted.json」的路径一致,避免后续训练时找不到数据集(小白可以直接复制文件路径,粘贴到索引中,减少错误)。

3. 一切就绪,启动模型训练(小白无脑操作)

环境、模型、数据集都准备完成后,就可以启动训练了——LLaMA Factory提供了WebUI界面,不用写复杂的训练指令,点击几下就能启动训练,小白也能轻松上手。

第一步:确保自己处于「LLaMA-Factory」目录下(如果不在,复制以下指令执行,回到项目目录):

# 回到LLaMA-Factory 文件夹(如果已经在该目录,无需执行)
cd LLaMA-Factory
# 启动WebUI界面(核心指令,复制执行即可)
llamafactory-cli webui

第二步:启动WebUI后,终端会出现一个「网址」,点击这个网址,就能进入训练配置界面。

第三步:配置训练参数(小白默认配置即可,不用修改,重点填写3个路径):

  • 基础模型路径:选择我们下载的「Qwen2.5-0.5B-Instruct」模型(路径在newmodels文件夹下);
  • 训练数据集路径:选择我们转换后的「train_converted.json」文件;
  • 训练结果保存路径:自定义一个路径(比如output,后续存放训练好的模型)。

配置完成后,界面如下所示:

第四步:点击「开始训练」,等待模型训练完成即可——训练过程中,终端会实时显示训练进度,你可以看到模型的损失值(loss)变化。

训练时的小知识(小白了解即可):

模型损失值(loss),是衡量模型预测结果与真实数据集差距的指标,训练的目标是「最小化损失值」,但并不是损失值越小越好——如果损失值太小,说明模型「死记硬背」了数据集,出现「过拟合」,后续遇到新问题就不会回答了。

我们这个入门实操,因为模型参数小、数据集少,损失值只要处于合理范围(比如0.5-2.0之间),就说明训练成功了,大家可以参考下图的训练结果:

训练完成后,WebUI界面会显示最终的训练结果,如下所示:

4. 本地测试聊天,检验微调效果

训练完成后,我们先在WebUI界面上测试一下,看看模型有没有记住我们的训练数据集,能不能给出贴合数据集的回答——这一步是小白最有成就感的环节,相当于「验收成果」。

第一步:在WebUI界面,切换到「Chat」标签页;

第二步:点击「检查点路径」,选择我们刚才训练好的模型(存放路径就是之前配置的output路径);

第三步:点击「加载模型」,等待模型加载完成(轻量模型加载很快,约1-2分钟)。

第四步:输入问题,测试模型回答——这里要注意,我们的数据集是「淘宝正面评价相关」,所以提问要贴合这个场景(比如「推荐一句淘宝好评」),模型会给出基于数据集的回答。

补充说明:我们这个实操用的是轻量模型(0.5B参数),加上训练数据集较少,模型的回答可能不会很完美,甚至有点「笨拙」,这是正常的——后续大家可以换更大的模型(比如Qwen2.5-7B)、更多的数据集,就能得到更精准的回答。

我这边测试的结果如下(因为多轮训练,回答有点偏差,但能看出基于训练数据,也算训练成功):

只要模型的回答和我们的训练数据集相关,就说明微调成功了,小白到这一步,就已经完成了大模型微调的核心操作!

5. 导出模型(可本地使用,永久留存成果)

训练好的模型,我们可以导出到本地,后续无论是用Jan.ai、Ollama,还是其他工具,都能直接使用,不用再重新训练——这一步我们将模型转换为「GGUF格式」(大模型常用格式,兼容性最强)。

1. 创建模型导出目录

第一步:在LLaMA-Factory目录下,创建一个新的文件夹,命名为「outputmodel」,用于存放导出的原始模型;

第二步:在WebUI界面,找到「导出模型」选项,选择导出路径为「outputmodel」,点击「导出」,等待导出完成。

导出完成后,侧边栏的「outputmodel」文件夹中,会出现训练好的模型文件,如下所示:

2. 安装GGUF库,转换模型格式

GGUF格式是目前最常用的大模型格式,支持Jan.ai、Ollama等多种工具,我们需要安装GGUF相关库,将导出的原始模型转换为GGUF格式。

第一步:新打开一个终端(避免和之前的WebUI冲突),复制以下指令,回到LLaMA-Factory目录:

# 不管当前在哪个目录,执行这个指令回到根目录
cd /mnt/workspace/LLaMA-Factory
# 克隆GGUF相关库(llama.cpp)
git clone https://github.com/ggerganov/llama.cpp.git
# 进入GGUF库的py目录,安装依赖
cd llama.cpp/gguf-py
pip install --editable .

执行完成后,侧边栏会多出一个「llama.cpp」文件夹,说明GGUF库安装成功。

3. 执行格式转换,导出GGUF模型

第一步:在LLaMA-Factory目录下,创建一个新的文件夹,命名为「megred-model-path」,用于存放转换后的GGUF模型;

第二步:回到llama.cpp目录,复制以下3行代码,粘贴到终端,一次性执行(重点:修改路径为自己的文件夹路径):

# 回到llama.cpp文件下
cd ..
# 运行转换指令,注意修改两个路径(小白直接替换成自己的路径即可)
python convert_hf_to_gguf.py /mnt/workspace/LLaMA-Factory/outputmodel \
--outfile /mnt/workspace/LLaMA-Factory/megred-model-path \
--outtype q8_0

⚠️ 小白重点提醒:

  • 第一个路径「/mnt/workspace/LLaMA-Factory/outputmodel」:是我们刚才导出的原始模型路径,一定要和自己的文件夹路径一致;
  • 第二个路径「/mnt/workspace/LLaMA-Factory/megred-model-path」:是我们创建的GGUF模型存放路径,不用修改,只要提前创建好文件夹即可;
  • –outtype q8_0:是模型的量化格式,小白默认这个即可,兼顾速度和效果。

执行完成后,GGUF模型就会保存到「megred-model-path」文件夹中,我们直接点击文件夹,找到对应的GGUF文件,点击下载,就能保存到本地了。

6. 本地使用模型,彻底玩转自己的大模型

下载好GGUF模型后,我们可以用最简单的方式(Jan.ai工具),本地启动模型,和自己训练的模型聊天——全程不用联网(下载工具需要联网),小白也能轻松操作。

方法1:用Jan.ai工具(最简单,小白首选)

第一步:下载Jan.ai工具,直接打开官网:https://jan.ai/,根据自己的电脑系统(Windows、Mac),下载对应的客户端,安装完成后打开;

第二步:配置模型,打开Jan.ai的设置(Setting),找到「Model Provider」,点击「Import」,导入我们刚才下载的GGUF模型;

第三步:导入完成后,点击「Start」,进入对话界面,输入问题,就能和自己训练的模型聊天了!

我这边测试的效果如下(虽然模型有点「笨拙」,但确实是基于我们的训练数据,属于自己「亲生打造」的大模型):

方法2:用Ollama工具(进阶,程序员可选)

如果是程序员,也可以用Ollama工具加载模型——将GGUF模型转换为Ollama支持的格式,导入Ollama后,还能被Dify、CherryStudio等工具调用,实现更复杂的功能。

补充说明:我这边尝试将模型导入CherryStudio后,出现了回答跑偏的情况,推测是默认系统提示词的问题,或者格式转换时的小疏漏,小白可以先重点掌握Jan.ai的使用方法,进阶玩法后续再深入。

总结(小白必看)

到这里,我们就完成了「大模型微调全流程实操」——从环境搭建、模型下载、数据准备,到训练、测试、导出、本地使用,每一步都有具体操作和代码,零基础小白也能跟着完成。

其实大模型微调并没有想象中那么难,就像培养孩子一样:预训练让模型有「基础」,微调让模型有「技能」,RLHF让模型有「规范」,我们这次实操,相当于完成了「基础+技能」的培养,后续只要优化数据集、更换更大的模型,就能训练出更实用的大模型。

建议小白收藏本文,实操时对照步骤一步步来,遇到问题不要慌——大部分问题都是「路径错误」「依赖缺失」,对照本文的提醒,或者搜索报错信息,都能轻松解决。

最后

对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?

答案只有一个:人工智能(尤其是大模型方向)

当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右

再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。

图片
对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。

如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!

下面是我整理的大模型学习资源,希望能帮到你。

图片

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

最后

1、大模型学习路线

img

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有,跟着老师学习事半功倍。

在这里插入图片描述

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

在这里插入图片描述

4、 AI大模型最新行业报告

2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

img

5、面试试题/经验

img

【大厂 AI 岗位面经分享(107 道)】

img

【AI 大模型面试真题(102 道)】

img

【LLMs 面试真题(97 道)】

img

6、大模型项目实战&配套源码

img

适用人群

在这里插入图片描述

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型

  • 带你了解全球大模型

  • 使用国产大模型服务

  • 搭建 OpenAI 代理

  • 热身:基于阿里云 PAI 部署 Stable Diffusion

  • 在本地计算机运行大模型

  • 大模型的私有化部署

  • 基于 vLLM 部署大模型

  • 案例:如何优雅地在阿里云私有部署开源大模型

  • 部署一套开源 LLM 项目

  • 内容安全

  • 互联网信息服务算法备案

  • 👇👇扫码免费领取全部内容👇👇

    在这里插入图片描述

3、这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐