LLaMA-Factory 一键微调大模型

LLaMA-Factory 是南京大学人工智能创新研究院开源的轻量级大语言模型（LLM）微调工具包。它的设计目标很明确：让普通开发者也能低成本地玩转大模型。

Python秒杀

520人浏览 · 2025-09-01 14:51:33

Python秒杀 · 2025-09-01 14:51:33 发布

LLaMA-Factory 是南京大学人工智能创新研究院开源的轻量级大语言模型（LLM）微调工具包。它的设计目标很明确：让普通开发者也能低成本地玩转大模型。在消费级显卡上即可完成训练，不再需要动辄数十万的集群算力。兼容 100+ 开源大模型：LLaMA、Mistral、Baichuan、Qwen、ChatGLM 等主流模型均已覆盖。

核心特点：

一站式微调框架
支持多种微调方法
全参数微调（Full Fine-tuning）
LoRA / QLoRA（低资源高效微调）
P-Tuning（提示词优化）
Delta Weights（模型权重复用）

申请 GPU 云算力

在算多多可免费使用 3060 （30+ 小时），
访问地址：gpuduoduo.com

申请免费算力

使用 LLaMA-Factory 镜像申请实例

等待 1-3 分钟可完成实例的创建。

开始微调

1. 实例创建成功后(状态正常，功能可点击)，点击"在线 IDE"，打开在线 VSCode 进行编码

1. 打开工程目录
  进入llama-factory 所在的目录

点击 OK

进入终端

根据图示打开终端：

在终端中执行命令提升权限

sudo -i

进入 conda 虚拟环境

cd /root/LLaMA-Factory
conda activate llama_factory

启动服务

使用 llamafactory-cli 命令启动带有 web 页面服务的 llamafactory

llamafactory-cli webui

启动成功后，可以看到控制台打印类似的日志：

* Running on local URL:  http://0.0.0.0:7860
* To create a public link, set `share=True` in `launch()`.

打开微调页面

回到算多多，点击“LLaMA-Factory”打开微调页面

微调的基础模型

实例已预置了Qwen2-1.5B模型，如果模型没有下载，会自动从互联网上下载（默认已调整为 modelscope 源，更加适合国内的网络环境）

其他配置也可以自行修改，如果有需要，可以参考官方教程修改。

选一个你想要使用的数据集

测试阶段可以选第一个，数据量比较小，速度比较快

注意：在 /LLaMA-Factory/data/dataset_info.json 可以增加自定义的数据

执行微调

把 web 页面滑到下方，有一个"Start"按钮，点击可以执行微调工作

点击后，可以从在线 IDE 终端查看当前的进展情况。
现在正在下载模型：

开始微调了

在 web 页面上也能看到进度和日志

微调完成

模型保存在 /opt/LLaMA-Factory/saves/

评估微调的模型

主要步骤如下：

1. 选择评估模型（即刚刚微调后保存的）
1. 切换到对应预测界面
1. 选择评估数据集
1. 开始评估

具体可参考下图进行操作：

可以看到评估完成了：

如何分析评估结果？

在自然语言处理（NLP）里，模型效果通常需要客观指标来衡量。以下是几种常见的指标：

BLEU-4：常用于机器翻译。基于 n-gram 精确匹配，取 4-gram。值越高，说明翻译结果和参考译文越接近。
ROUGE-1：常用于自动摘要。计算 unigram（单词级别）匹配率。
ROUGE-2：同样用于摘要，基于 bigram（二元词组）匹配率，比 ROUGE-1 更严格。
ROUGE-L：基于最长公共子序列（Longest Common Subsequence, LCS），能反映整体句子结构的相似度。

一句话总结：
BLEU 看翻译，越高越好；
ROUGE 看摘要，数值越高，说明模型提炼信息的能力越强。