SFT大致流程

本文介绍了智能体（Agent）系统中大模型落地的关键技术——有监督微调（SFT）和LoRA方法。通过对比基模+Prompt、基模+Prompt+RAG和SFT三种方案，分析了各自适用场景及优劣势。详细阐述了SFT微调流程，包括语料设计、样本生成、参数设置等关键步骤，并解释了LoRA低秩适应的高效原理。文章还提供了训练参数组合建议，指出工程实践中准确率维护、细粒度评估等挑战。最后强调合理运用这些技术

董厂长

460人浏览 · 2026-01-29 16:47:38

董厂长 · 2026-01-29 16:47:38 发布

在智能体（Agent）系统的研发中，如何让大模型更好地理解和执行特定任务，是工程落地的关键。本文结合实际项目经验，介绍了**有监督微调（SFT, Supervised Fine-Tuning）和LoRA（Low-Rank Adaptation）**等技术在Agent大脑系统中的应用流程，并对相关专业词汇做了详细注释。

一、方案选择与对比

在实际工程中，常见的三种落地方案有：

基模 + Prompt
- 适用场景：对准确率和延迟要求不高、分类简单的任务。
- 优点：开发成本低，上线快。
基模 + Prompt + RAG
- RAG（Retrieval-Augmented Generation，检索增强生成）：结合外部知识库提升模型表现。
- 适用场景：对准确率和垂类知识有要求，延迟可接受。
小尺寸模型 SFT 微调
- SFT（Supervised Fine-Tuning，有监督微调）：用标注数据对模型进行定制化训练。
- 适用场景：对准确率、垂类知识、延迟和敏感度要求高，且有较大开发投入。

技术方案	使用难度	开发成本	表现	准确率	适用场景
基模+提示词	简单	低	一般	较高	快速上线、简单分类
基模+提示词+RAG	中等	中	一般	高	需要知识增强
小尺寸模型SFT	复杂	高	优秀	高	高准确率、定制化

二、SFT微调流程详解

SFT的核心流程如下：

意图语料结构设计
- 设计好任务指令和期望输出（如：“我要听音乐” -> play_music()）。
样本生成
- 生成大量高质量的训练样本，覆盖各种用户意图。
模型训练参数设置
- 包括学习率（learning rate）、Epoch（轮次）、批次大小等。
- 学习率：控制每次参数更新的步伐。大步快但可能错过最佳点，小步慢但更精细。
- Epoch：完整遍历一遍训练集的次数。比如有1000个配方，1个Epoch就是全部学一遍，10个Epoch就是学10遍。
启动训练任务
- 用设定好的参数和样本启动模型训练。
模型离线评测
- 用独立的评测数据集验证模型效果，确保泛化能力。
模型部署
- 将训练好的模型上线到实际系统中。