大模型训练全流程测评体系详解：从 SFT 到 Agent 场景

阶段核心目标关键指标推荐工具SFT学知识 + 避免遗忘通用General Score, EM, 语义相似度DPO/RLHF对齐人类偏好RAG检索准确 + 忠诚度高RAGASAgent多步任务可靠执行自定义 E2E 测试构建这套分阶段、可量化的评估体系，不仅能及时发现模型退化或安全风险，还能为迭代方向提供明确指引，是打造高可靠大模型产品的关键基础设施。

echo 'FLY';

626人浏览 · 2026-02-12 17:38:25

echo 'FLY'; · 2026-02-12 17:38:25 发布

在大模型（LLM）的训练与优化过程中，科学、系统的评估体系至关重要。本文围绕 四个核心阶段——微调（SFT）、对齐（RLHF/DPO）、RAG 检索增强生成、以及智能体（Agent）场景——系统梳理各阶段的测评目标、方法、关键指标与工具，帮助构建端到-端的模型质量保障机制。

第一阶段：微调阶段测评（SFT Evaluation）

目标：确保模型学会新知识的同时，不遗忘通用能力（防止“灾难性遗忘”），并能准确遵循输出格式。

为验证通用能力是否受损，每次微调后需在通用基准测试子集（如 C-Eval、CMMLU）上运行评估。若微调前通用得分为 60，微调后降至 40，则表明出现过拟合或学习率过高，应调低学习率或减少训练轮数。推荐使用 OpenCompass（上海 AI Lab 开源）作为统一评测工具。

针对领域知识掌握情况，应预留一个 Hold-out 测试集（例如 1000 条数据中留出 100 条）。对于选择题，采用 Exact Match (EM) 直接比对选项；对于简答题，则通过 Embedding 模型（如 BGE）计算生成答案与标准答案的 语义相似度（0~1）。若模型需输出结构化格式（如 JSON），还需编写脚本验证其合法性，确保格式严格符合要求。

第二阶段：对齐阶段测评（RLHF / DPO Evaluation）

目标：不仅要求回答“正确”，更要求“符合人类偏好”，同时具备基本的安全边界。

当前主流方法是 LLM-as-a-Judge：选取约 50 个典型 Prompt，分别由 SFT 模型和 DPO 模型生成回答，再交由 GPT-4 或 DeepSeek-V3 等强模型进行偏好判断。若 DPO 模型胜率超过 55%，说明对齐训练有效。

安全性方面，需构造攻击性 Prompt 集（如“如何制造毒药？”“骂我一句”），测试模型是否能礼貌而坚定地拒绝不当请求。核心指标为 拒绝率（Refusal Rate），高拒绝率意味着更强的安全防护能力。

第三阶段：RAG 节点测评（Retrieval & Generation Evaluation）

目标：确保检索内容相关准确，生成内容基于事实、无幻觉。

业界已形成标准化框架 RAGAS，强调将检索器（Retriever）与生成器（Generator）分开评估。

检索器评估：基于 (Query, Ground_Truth_Docs) 对，计算 Hit Rate @ K（前 K 个结果是否包含正确文档）和 MRR（Mean Reciprocal Rank）（正确文档的平均排名倒数）。
生成器评估：基于 (Query, Context, Answer) 三元组，衡量三大维度：
- Faithfulness（忠实度）：回答是否完全基于检索上下文（防幻觉核心指标）；
- Answer Relevance（回答相关性）：是否切题；
- Context Precision（上下文精度）：检索内容中有用信息的比例，避免噪音干扰。

第四阶段：Agent 场景测评（End-to-End Evaluation）

目标：验证智能体能否在多步任务中正确规划、调用工具并达成最终目标。这是最复杂的评估场景，因一步出错可能导致整个流程失败。

以“查询明天北京天气并邮件发送给 boss”为例，需检查：

是否正确调用 get_weather(loc='Beijing', date='tomorrow')；
是否随后调用 send_email(to='boss@company.com', ...)。

核心指标包括：

API Match Rate：工具调用名称与参数是否完全匹配；
Step Success Rate：多步任务中成功执行的步骤比例；
Token Consumption：完成任务所消耗的 Token 数（反映成本）；
最终任务成功率（Pass Rate）：如生成的代码能否运行、订票是否真实写入数据库等。

总结

阶段	核心目标	关键指标	推荐工具
SFT	学知识 + 避免遗忘通用	General Score, EM, 语义相似度	OpenCompass
DPO/RLHF	对齐人类偏好	Win Rate, Refusal Rate	GPT-4 Judge
RAG	检索准确 + 忠诚度高	Hit@K, Faithfulness, Answer Relevance	RAGAS
Agent	多步任务可靠执行	API Match Rate, Pass Rate	自定义 E2E 测试