保姆式教你使用LLaMA-Factory微调大模型

cxq07

566人浏览 · 2026-01-23 15:34:55

cxq07 · 2026-01-23 15:34:55 发布

保姆式教你使用LLaMA-Factory微调大模型

LLaMA-Factory 是一个开源的轻量级大语言模型（LLM）微调工具包，由南京大学人工智能创新研究院开发。它旨在简化大模型（如 LLaMA、BLOOM、GPT-2 等）的微调流程，仅需单张消费级显卡即可完成训练，大幅降低了开发者使用大模型的门槛。

快速开始

新手可以申请云算力测试，加快速度，比如算多多、优云智算、算家云、九章算力、Autodl等，这里以算多多为例介绍流程。

1. 从 Gitee 克隆仓库：

考虑有同学访问 github 网络不稳定，找了一个别人上传到 gitee 的版本，大家也可以自己去搜索其他的

git clone https://gitee.com/yunjie445/LLaMA-Factory.git

三、运行 LLaMA-Factory 服务

进入项目文件夹

cd LLaMA-Factory

安装环境

将 pip 切换为国内的清华源

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

cd LLaMA-Factory
pip install -e ".[torch,metrics]" --no-build-isolation

运行 web 微调页面

把环境变量改为 hf-mirror，直接使用国内镜像

echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.bashrc
source ~/.bashrc

运行服务

llamafactory-cli webui

看到下述输出，代表web 服务启动成功，可以使用 web 微调了：

Visit http://ip:port for Web UI, e.g., http://127.0.0.1:7860
* Running on local URL:  http://0.0.0.0:7860
* To create a public link, set `share=True` in `launch()`.

四、微调初体验

1、本地浏览器打开微调页面

http://127.0.0.1:7860

2、选择微调的基准模型

显存不够的话，可以选择 Qwen2-1.5B-Instruct 这种小模型

3、选择微调数据集

选一个数据集（你可以先点击旁边的"Preview dataset"按钮预览数据）

如果需要添加自定义数据集，请在 /LLaMA-Factory/data/dataset_info.json 文件里添加对应的数据集

4、开始微调

拉到下面，点击"Start"开始微调（首次要等待下载）

你可以在 web 界面和终端上看到对应的进度

等待 5-10 分钟，微调完成后，你可以在界面上看到 loss 曲线。
微调好的模型保存在 /opt/LLaMA-Factory/saves/。

5、使用预测数据集评估微调后的模型

选择评估用的模型（选择刚刚微调后的模型）
切换到预测选项卡
选择评估用的数据集
点击"Start"进行评估
页面上看到下图代表评估完成

实例终端也可以看到评估结果：

评估指标结果

BLEU-4: 7.0721 (衡量机器翻译质量的指标，值越高越好)
ROUGE-1: 35.5077 (评估摘要质量的指标，衡量unigram匹配)
ROUGE-2: 10.1685 (评估bigram匹配质量)
ROUGE-L: 27.0266 (基于最长公共子序列的评估)

***** Running Prediction *****
[INFO|trainer.py:4291] 2025-06-26 09:42:36,284 >>   Num examples = 91
[INFO|trainer.py:4294] 2025-06-26 09:42:36,284 >>   Batch size = 2
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 46/46 [00:45<00:00,  2.10s/it]Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.499 seconds.
Prefix dict has been built successfully.
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 46/46 [00:46<00:00,  1.00s/it]
***** predict metrics *****
  predict_bleu-4                 =     7.0721
  predict_model_preparation_time =     0.0028
  predict_rouge-1                =    35.5077
  predict_rouge-2                =    10.1685
  predict_rouge-l                =    27.0266
  predict_runtime                = 0:00:47.06
  predict_samples_per_second     =      1.933
  predict_steps_per_second       =      0.977

五、使用微调好的模型进行推理测试（聊天）

选择推理用的模型（选择刚刚微调后的模型）
切换到 Chat 选项卡

点击 “Load Model” 加载模型

看到下面的界面代表加载成功

开始跟你的微调流行聊天吧

六、导出微调好的模型

切换到 Export 选项卡
点击 “Export” 按钮，导出后的模型就保存在 ./saves/ 下
验证模型是否导出成功

导出成功后，会生成 Modelfile config.json generation_config.json model.safetensors special_tokens_map.json tokenizer.json tokenizer_config.json 这些文件。

导出后的模型就可以使用 ollama 进行实际的推理了，具体的使用教程后面有需要再进行详细介绍。

七、结语

至此，我们完成了使用 LLaMA-Factory 进行微调推理的核心流程，更多功能可以参考官网或者知乎的教程：https://github.com/hiyouga/LLaMA-Factory/blob/main/README_zh.md

我不想折腾环境！

不想折腾环境的同学，可以使用我制作的镜像：llama-factory

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

提示工程架构师亲测：AI提示系统在简历优化中的2类精准场景

在竞争激烈的职场中，简历是求职者与HR之间的“第一对话”。然而，**跨行业转行时“经验不匹配”和技术岗“项目描述太笼统”**是两大致命痛点——前者让HR看不到你的价值，后者让你在技术筛选中被埋没。作为一名提示工程架构师，我亲测了100+份简历优化案例，发现AI提示系统能精准解决这两个问题：通过结构化提示引导大语言模型（LLM）迁移可迁移技能（跨行业场景）、拆解技术项目亮点（技术岗场景），让简历从“

2048 AI社区

【大模型技术报告】Qwen2技术报告解读

摘要： Qwen2系列开源大模型通过扩展预训练数据（7T token）、优化架构（GQA、MoE）和长上下文技术（DCA+YARN），在多语言、代码推理及长文本任务上表现优异。72B基础模型在MMLU、GPQA等基准超越Llama-3-70B，MoE模型以14B激活参数接近30B稠密模型性能。报告强调数据质量提升（代码/数学内容）与安全对齐，但未完全披露数据配方和训练细节，部分性能归因存在不确定性