手把手教你快速玩转LLaMA-Factory：大模型微调入门级教程！

对于希望尝试大模型训练的同学来说，从 LLaMA-Factory 入手是一个非常不错的选择！在实际工作中，也经常用到 LLaMA-Factory 进行模型训练。

瓦罗兰特顶级C位

337人浏览 · 2025-11-21 14:42:02

瓦罗兰特顶级C位 · 2025-11-21 14:42:02 发布

对于希望尝试大模型训练的同学来说，从 LLaMA-Factory 入手是一个非常不错的选择！在实际工作中，也经常用到 LLaMA-Factory 进行模型训练。用得越多，越能体会到它的便捷与高效。尤其值得一提的是，LLaMA-Factory 提供了完整的中文学习文档，这对英文阅读不太熟练的同学来说，真的非常友好！

01 安装

小编一般喜欢从源码安装，源码里面有很多可以参考的文档~

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

验证是否安装成功：

llamafactory-cli version

简单看一下项目结构：

其中：

src：核心源码目录
data：主要包含数据集配置和示例数据

dataset_info.json - 数据集注册配置文件，定义所有可用数据集的元信息
示例数据集文件 - 包含各种格式的示例数据集（JSON、JSONL等）

examples：包含各种训练和推理的配置示例文件
docker：包含不同硬件平台的 Docker 配置

如果看了官方文档你还是不知道训练数据怎么组织你可以去data目录下面找一找示例数集文件；如果你不知道训练脚本怎么写你可以去examples目录下找一找示例脚本

02 使用

第一步：准备好你的数据

LLaMA-Factory 支持的微调数据格式有：

Alpaca
ShareGPT
OpenAI

预训练格式和DPO、KTO等强化学习的训练格式也支持，不同训练方式数据格式组织方式也不一样，具体可见官方文档，写的非常详细：

https://llamafactory.readthedocs.io/zh-cn/latest/getting_started/data_preparation.html

上面也提到过在LLaMA-Factory项目的data目录下也给出了一些数据文件的例子，可供参考~

准备好的数据文件需要在LLaMA-Factory项目的data目录下的dataset_info.json文件中增加你的数据集说明

比如openai的数据组织格式如下：

[
{
"messages":[
{
"role":"system",
"content":"系统提示词（选填）"
},
{
"role":"user",
"content":"人类指令"
},
{
"role":"assistant",
"content":"模型回答"
}
]
}
]

对于上述格式的数据， dataset_info.json 中需要新增数据集描述：

"数据集名称": {
"file_name": "data.json",
"formatting": "sharegpt",
"columns": {
"messages": "messages"
},
"tags": {
"role_tag": "role",
"content_tag": "content",
"user_tag": "user",
"assistant_tag": "assistant",
"system_tag": "system"
}
}

第二步：下载好你的训练模型

下载预训练模型到你的路径下，一般我们会从modelscope这个网站上下载，非常方便

第三步：组织训练脚本

这里给出了一个参考脚本，主要通过deepspeed进行单机多卡训练

你需要替换的地方有模型路径、数据集名称、数据集路径、deepspeed脚本文件位置等，其他参数可按需修改或者添加（每个脚本参数的含义后文已给出相关解释）

nohup deepspeed --include localhost:1,2,3 --master_port
1234 ./src/train.py \
--stage sft \
--do_train \
--deepspeed ./examples/deepspeed/ds_z3_config.json \
--model_name_or_path YOUR_MODEL_PATH \
--dataset YOUR_DATASET_NAME \
--val_size 0.05 \
--dataset_dir YOUR_DATASET_PATH \
--template qwen \
--max_length 4096 \
--finetuning_type lora \
--lora_target q_proj,v_proj \
--lora_rank 8 \
--lora_alpha 16 \
--lora_dropout 0.1 \
--output_dir ${out_dir} \
--overwrite_cache \
--overwrite_output_dir \
--cutoff_len 4096 \
--mask_history False \
--per_device_train_batch_size 1 \
--per_device_eval_batch_size 1 \
--gradient_accumulation_steps 8 \
--lr_scheduler_type cosine \
--logging_steps 5 \
--save_steps 16 \
--save_total_limit 3 \
--learning_rate 5e-5 \
--num_train_epochs 6 \
--eval_steps 8 \
--plot_loss \
--bf16 \
--warmup_ratio 0.05 \
--ddp_find_unused_parameters False \
--preprocessing_num_workers 16 > ${out_dir}/train.log 2>&1 &

1. 启动与环境配置

nohup: 在后台运行命令，即使终端关闭也不会中断进程。
deepspeed: 使用 DeepSpeed 库进行分布式训练。
--include localhost:1,2,3: 指定使用本地的 GPU 设备（编号为 1、2、3 的 GPU）。
--master_port 1234: 设置分布式训练的主节点端口号为 1234。

2. 训练脚本入口

./src/train.py: 主要的训练脚本路径（llamafactory项目的src目录下）

3. 训练任务配置

--stage sft: 训练阶段为监督微调（Supervised Fine-Tuning）。
--do_train: 执行训练模式。

4. DeepSpeed 配置

--deepspeed ./examples/deepspeed/ds_z3_config.json: 指定 DeepSpeed 的配置文件路径（ZeRO Stage 3 配置），这个配置文件在llamafactory项目的examples目录下可以找到

5. 模型与数据配置

--model_name_or_path YOUR_MODEL_PATH: 预训练模型的路径或 Hugging Face 模型名称。
--dataset YOUR_DATASET_NAME: 使用的数据集名称。
--val_size 0.05: 验证集比例（5%）。
--dataset_dir YOUR_DATASET_PATH: 数据集存放的目录路径。
--template qwen: 使用 Qwen 模型的对话模板格式。
--max_length 4096: 输入序列的最大长度。
--cutoff_len 4096: 截断长度（与 max_length 一致）。
--mask_history False: 不屏蔽历史对话内容。

6. LoRA 参数配置

--finetuning_type lora: 使用 LoRA（Low-Rank Adaptation）进行微调。
--lora_target q_proj,v_proj: 对模型的 q_proj（查询投影）和 v_proj（值投影）模块应用 LoRA。
--lora_rank 8: LoRA 的秩（rank）为 8。
--lora_alpha 16: LoRA 的缩放系数为 16。
--lora_dropout 0.1: LoRA 层的 Dropout 比例为 0.1。

7. 训练超参数

--per_device_train_batch_size 1: 每个 GPU 的训练批次大小为 1。
--per_device_eval_batch_size 1: 每个 GPU 的验证批次大小为 1。
--gradient_accumulation_steps 8: 梯度累积步数为 8（等效批次大小 = 批次大小 × 梯度累积步数 × GPU 数量）。
--learning_rate 5e-5: 学习率为 0.00005。
--num_train_epochs 6: 训练 epoch 数为 6。
--lr_scheduler_type cosine: 使用余弦学习率调度器。
--warmup_ratio 0.05: 学习率预热步数占总训练步数的 5%。

8. 训练过程管理

--output_dir ${out_dir}: 模型和日志的输出目录。
--overwrite_cache: 覆盖已有的缓存文件。
--overwrite_output_dir: 覆盖输出目录（如果已存在）。
--logging_steps 5: 每 5 步记录一次日志。
--save_steps 16: 每 16 步保存一次模型。
--save_total_limit 3: 最多保留 3 个模型检查点（旧的会被删除）。
--eval_steps 8: 每 8 步进行一次验证。
--plot_loss: 绘制损失曲线。
--preprocessing_num_workers 16: 使用 16 个进程进行数据预处理。

9. 硬件与性能优化

--bf16: 使用 BF16 混合精度训练（适合 NVIDIA Ampere+ GPU）。
--ddp_find_unused_parameters False: 禁用 DDP 中未使用参数的检测（节省内存，可能适用于某些模型）。

10. 日志重定向

> ${out_dir}/train.log 2>&1 &: 将标准输出和错误输出重定向到 train.log 文件，并在后台运行

第四步：训练与查看

运行上述脚本即可启动训练

训练完成后，在你文件保存的目录下除了有模型文件还有两个loss文件：

training_eval_loss.png
training_loss.png

通过loss文件可以查看模型训练效果

第五步：模型推理

如果你是lora训练，推理之前还需要进行模型合并，合并脚本merge_config.yaml如下：

### examples/merge_lora/llama3_lora_sft.yaml
### model
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
adapter_name_or_path: saves/llama3-8b/lora/sft
template: llama3
finetuning_type: lora
### export
export_dir: models/llama3_lora_sft
export_size: 2
export_device: cpu
export_legacy_format: false

通过 llamafactory-cli export merge_config.yaml 指令运行即可得到合并之后的模型，模型推理这里就不再过多赘述！

有任何问题，欢迎评论区留言交流！Good good study，day day up！

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇