大模型训练全流程测评体系详解:从 SFT 到 Agent 场景
阶段核心目标关键指标推荐工具SFT学知识 + 避免遗忘通用General Score, EM, 语义相似度DPO/RLHF对齐人类偏好RAG检索准确 + 忠诚度高RAGASAgent多步任务可靠执行自定义 E2E 测试构建这套分阶段、可量化的评估体系,不仅能及时发现模型退化或安全风险,还能为迭代方向提供明确指引,是打造高可靠大模型产品的关键基础设施。
在大模型(LLM)的训练与优化过程中,科学、系统的评估体系至关重要。本文围绕 四个核心阶段——微调(SFT)、对齐(RLHF/DPO)、RAG 检索增强生成、以及智能体(Agent)场景——系统梳理各阶段的测评目标、方法、关键指标与工具,帮助构建端到-端的模型质量保障机制。
第一阶段:微调阶段测评(SFT Evaluation)
目标:确保模型学会新知识的同时,不遗忘通用能力(防止“灾难性遗忘”),并能准确遵循输出格式。
为验证通用能力是否受损,每次微调后需在通用基准测试子集(如 C-Eval、CMMLU)上运行评估。若微调前通用得分为 60,微调后降至 40,则表明出现过拟合或学习率过高,应调低学习率或减少训练轮数。推荐使用 OpenCompass(上海 AI Lab 开源)作为统一评测工具。
针对领域知识掌握情况,应预留一个 Hold-out 测试集(例如 1000 条数据中留出 100 条)。对于选择题,采用 Exact Match (EM) 直接比对选项;对于简答题,则通过 Embedding 模型(如 BGE)计算生成答案与标准答案的 语义相似度(0~1)。若模型需输出结构化格式(如 JSON),还需编写脚本验证其合法性,确保格式严格符合要求。
第二阶段:对齐阶段测评(RLHF / DPO Evaluation)
目标:不仅要求回答“正确”,更要求“符合人类偏好”,同时具备基本的安全边界。
当前主流方法是 LLM-as-a-Judge:选取约 50 个典型 Prompt,分别由 SFT 模型和 DPO 模型生成回答,再交由 GPT-4 或 DeepSeek-V3 等强模型进行偏好判断。若 DPO 模型胜率超过 55%,说明对齐训练有效。
安全性方面,需构造攻击性 Prompt 集(如“如何制造毒药?”“骂我一句”),测试模型是否能礼貌而坚定地拒绝不当请求。核心指标为 拒绝率(Refusal Rate),高拒绝率意味着更强的安全防护能力。
第三阶段:RAG 节点测评(Retrieval & Generation Evaluation)
目标:确保检索内容相关准确,生成内容基于事实、无幻觉。
业界已形成标准化框架 RAGAS,强调将检索器(Retriever)与生成器(Generator)分开评估。
- 检索器评估:基于
(Query, Ground_Truth_Docs)对,计算 Hit Rate @ K(前 K 个结果是否包含正确文档)和 MRR(Mean Reciprocal Rank)(正确文档的平均排名倒数)。 - 生成器评估:基于
(Query, Context, Answer)三元组,衡量三大维度:- Faithfulness(忠实度):回答是否完全基于检索上下文(防幻觉核心指标);
- Answer Relevance(回答相关性):是否切题;
- Context Precision(上下文精度):检索内容中有用信息的比例,避免噪音干扰。
第四阶段:Agent 场景测评(End-to-End Evaluation)
目标:验证智能体能否在多步任务中正确规划、调用工具并达成最终目标。这是最复杂的评估场景,因一步出错可能导致整个流程失败。
以“查询明天北京天气并邮件发送给 boss”为例,需检查:
- 是否正确调用
get_weather(loc='Beijing', date='tomorrow'); - 是否随后调用
send_email(to='boss@company.com', ...)。
核心指标包括:
- API Match Rate:工具调用名称与参数是否完全匹配;
- Step Success Rate:多步任务中成功执行的步骤比例;
- Token Consumption:完成任务所消耗的 Token 数(反映成本);
- 最终任务成功率(Pass Rate):如生成的代码能否运行、订票是否真实写入数据库等。
总结
| 阶段 | 核心目标 | 关键指标 | 推荐工具 |
|---|---|---|---|
| SFT | 学知识 + 避免遗忘通用 | General Score, EM, 语义相似度 | OpenCompass |
| DPO/RLHF | 对齐人类偏好 | Win Rate, Refusal Rate | GPT-4 Judge |
| RAG | 检索准确 + 忠诚度高 | Hit@K, Faithfulness, Answer Relevance | RAGAS |
| Agent | 多步任务可靠执行 | API Match Rate, Pass Rate | 自定义 E2E 测试 |
构建这套分阶段、可量化的评估体系,不仅能及时发现模型退化或安全风险,还能为迭代方向提供明确指引,是打造高可靠大模型产品的关键基础设施。
更多推荐


所有评论(0)