在大模型(LLM)的训练与优化过程中,科学、系统的评估体系至关重要。本文围绕 四个核心阶段——微调(SFT)、对齐(RLHF/DPO)、RAG 检索增强生成、以及智能体(Agent)场景——系统梳理各阶段的测评目标、方法、关键指标与工具,帮助构建端到-端的模型质量保障机制。


第一阶段:微调阶段测评(SFT Evaluation)

目标:确保模型学会新知识的同时,不遗忘通用能力(防止“灾难性遗忘”),并能准确遵循输出格式。

为验证通用能力是否受损,每次微调后需在通用基准测试子集(如 C-Eval、CMMLU)上运行评估。若微调前通用得分为 60,微调后降至 40,则表明出现过拟合或学习率过高,应调低学习率或减少训练轮数。推荐使用 OpenCompass(上海 AI Lab 开源)作为统一评测工具。

针对领域知识掌握情况,应预留一个 Hold-out 测试集(例如 1000 条数据中留出 100 条)。对于选择题,采用 Exact Match (EM) 直接比对选项;对于简答题,则通过 Embedding 模型(如 BGE)计算生成答案与标准答案的 语义相似度(0~1)。若模型需输出结构化格式(如 JSON),还需编写脚本验证其合法性,确保格式严格符合要求。


第二阶段:对齐阶段测评(RLHF / DPO Evaluation)

目标:不仅要求回答“正确”,更要求“符合人类偏好”,同时具备基本的安全边界。

当前主流方法是 LLM-as-a-Judge:选取约 50 个典型 Prompt,分别由 SFT 模型和 DPO 模型生成回答,再交由 GPT-4 或 DeepSeek-V3 等强模型进行偏好判断。若 DPO 模型胜率超过 55%,说明对齐训练有效。

安全性方面,需构造攻击性 Prompt 集(如“如何制造毒药?”“骂我一句”),测试模型是否能礼貌而坚定地拒绝不当请求。核心指标为 拒绝率(Refusal Rate),高拒绝率意味着更强的安全防护能力。


第三阶段:RAG 节点测评(Retrieval & Generation Evaluation)

目标:确保检索内容相关准确,生成内容基于事实、无幻觉。

业界已形成标准化框架 RAGAS,强调将检索器(Retriever)与生成器(Generator)分开评估。

  • 检索器评估:基于 (Query, Ground_Truth_Docs) 对,计算 Hit Rate @ K(前 K 个结果是否包含正确文档)和 MRR(Mean Reciprocal Rank)(正确文档的平均排名倒数)。
  • 生成器评估:基于 (Query, Context, Answer) 三元组,衡量三大维度:
    • Faithfulness(忠实度):回答是否完全基于检索上下文(防幻觉核心指标);
    • Answer Relevance(回答相关性):是否切题;
    • Context Precision(上下文精度):检索内容中有用信息的比例,避免噪音干扰。

第四阶段:Agent 场景测评(End-to-End Evaluation)

目标:验证智能体能否在多步任务中正确规划、调用工具并达成最终目标。这是最复杂的评估场景,因一步出错可能导致整个流程失败。

以“查询明天北京天气并邮件发送给 boss”为例,需检查:

  • 是否正确调用 get_weather(loc='Beijing', date='tomorrow')
  • 是否随后调用 send_email(to='boss@company.com', ...)

核心指标包括:

  • API Match Rate:工具调用名称与参数是否完全匹配;
  • Step Success Rate:多步任务中成功执行的步骤比例;
  • Token Consumption:完成任务所消耗的 Token 数(反映成本);
  • 最终任务成功率(Pass Rate):如生成的代码能否运行、订票是否真实写入数据库等。

总结

阶段 核心目标 关键指标 推荐工具
SFT 学知识 + 避免遗忘通用 General Score, EM, 语义相似度 OpenCompass
DPO/RLHF 对齐人类偏好 Win Rate, Refusal Rate GPT-4 Judge
RAG 检索准确 + 忠诚度高 Hit@K, Faithfulness, Answer Relevance RAGAS
Agent 多步任务可靠执行 API Match Rate, Pass Rate 自定义 E2E 测试

构建这套分阶段、可量化的评估体系,不仅能及时发现模型退化或安全风险,还能为迭代方向提供明确指引,是打造高可靠大模型产品的关键基础设施。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐