昇思+昇腾开发板：模型LoRA微调-心得

实际测试发现，仅微调注意力相关的 q_proj 和 v_proj，在对话任务中即可达到接近全模块微调的效果，还能减少 20%-30% 的训练参数。训练策略的优化是提升稳定性的关键。代码中 per_device_train_batch_size=1 过小，易导致训练震荡，通过 gradient_accumulation_steps=4 累积梯度，可模拟批量为 4 的效果，显著提升稳定性。通过这次 L

白鹭千叶

604人浏览 · 2025-08-06 15:11:35

白鹭千叶 · 2025-08-06 15:11:35 发布

在进行 DeepSeek-R1-Distill-Qwen-1.5B 模型的 LoRA 微调工作时，我深刻体会到参数高效微调在平衡性能与资源消耗间的精妙之处。从数据处理到训练策略，每个环节的细节优化都直接影响最终效果。

数据预处理是微调的基础。代码中固定 MAX_SEQ_LENGTH=64 虽简化实现，但实际应用中需根据数据分布动态调整。比如《甄嬛传》对话有长有短，固定长度会导致短文本冗余填充或长文本关键信息被截断。通过计算数据长度的 95% 分位值设置阈值，并按批次动态调整最大长度，可减少无效计算，同时保留更多语义信息。此外，对话格式的精细化处理很关键，在 User 和 Assistant 前添加<|user|> <|assistant|>等特殊 token，能帮助模型更清晰区分角色，尤其在多轮对话中效果显著。标签掩码需格外注意，确保 User 部分设为 - 100 不参与损失计算，且 Assistant 部分结尾正确添加 eos_token，避免序列错位。

LoRA 配置的选择直接关系到微调效率与效果。代码中覆盖了 q_proj、k_proj 等多个模块，虽全面但参数较多。实际测试发现，仅微调注意力相关的 q_proj 和 v_proj，在对话任务中即可达到接近全模块微调的效果，还能减少 20%-30% 的训练参数。秩（r）与 alpha 的配比需结合数据集大小调整：小数据集（如示例中 3 条数据）用 r=4 可避免过拟合，大数据集则可增至 16 或 32 以捕捉更细特征。lora_dropout 在小数据上设为 0.2，大数据上降为 0.05，能更好平衡泛化与拟合能力。

训练策略的优化是提升稳定性的关键。代码中 per_device_train_batch_size=1 过小，易导致训练震荡，通过 gradient_accumulation_steps=4 累积梯度，可模拟批量为 4 的效果，显著提升稳定性。学习率方面，固定 1e-4 不如结合线性衰减策略，设置 10% 总步数作为 warmup 阶段，既能避免初始冲击，又能在后期稳定收敛。此外，添加早停机制监控验证损失，可防止小数据集过拟合，让模型在性能最佳时停止训练。

性能优化需兼顾效率与资源。启用混合精度训练后，在 FP16 基础上进一步减少 30%-50% 显存占用，训练速度提升明显。数据加载时用 num_proc=4 多进程处理并缓存结果，避免重复计算，尤其适合大规模数据集。值得注意的是，disable_multi_thread () 需根据 CPU 核心数调整，过度禁用可能影响数据加载并行性，反而拖慢训练。

模型保存与复用的细节同样重要。代码中仅保存 LoRA 适配器（约 10MB）的做法高效，但可进一步按验证指标（如困惑度）保存 “最佳模型”，避免无效 checkpoint 占用空间。微调后通过 merge_and_unload () 合并权重，能简化部署流程，减少推理时的模型加载复杂度。

总之，LoRA 微调的核心是在资源约束下精准捕捉任务特征。从数据清洗到参数配置，每个环节都需结合具体场景动态调整，通过多组对比实验找到最优解，才能让模型在有限资源下高效学习目标任务的风格与知识。通过这次 LoRA 微调的实践，我不仅掌握了 LoRA 微调的方法和技巧，还对模型的优化和定制有了更深入的理解。