统一大模型评估体系(维度+指标)
也对齐你这次提到的“指令遵循与泛化能力”、“ERNIE 4.5 多模态跨场景适应性”。也对齐你这次提到的“指令遵循与泛化能力”、“ERNIE 4.5 多模态跨场景适应性”。对应你这次单独强调的“多样性”,也和上次的“创作能力”“可控生成”有关。对应你这次单独强调的“多样性”,也和上次的“创作能力”“可控生成”有关。对应你提到的“可解释性”,也与上次的“安全性/幻觉控制”有关。对应你提到的“可解释性
·
一、能力与行为维度
1. 准确性(Accuracy)
评测目标:模型输出是否事实正确、逻辑正确、按指令执行。
1)事实性与知识准确性
- 含义:对世界知识、常识、领域知识的掌握与输出是否准确。
- 评测方法:
- 标准问答数据集:MMLU、C‑Eval、AGI‑Eval、CMMLU 等 → 统计正确率。
- 专业知识集:法律、医疗、金融专用测试集(例如医疗问答集、法条检索题)。
- 公司/场景内知识:企业知识库构建内部 Q&A 测试集。
- 示例:
- “ERNIE X1.1 在事实性上显著提升”:就是在这些知识问答类测试中,事实正确率提高。
2)指令遵循与格式执行
- 含义:能否准确按照用户指令完成任务,包括结构、语气、格式等。
- 评测方法:
- 构造指令集:要求特定格式(JSON、表格、步骤列表)、特定风格(严肃、简明)。
- 自动验证:格式可用正则/脚本自动检测;内容由人工或规则核对。
- 示例:
- “ERNIE X1.1 在指令遵循能力上的提升”:可体现在复杂多步骤指令、链式任务中的成功率提高。
- PLATO-K 通过两阶段训练(知识内化 + 外用),结合大规模对话语料和人工标注数据,降低回复错误率,也是提高“准确执行”和“少出错”的典型做法。
2. 语言理解与生成(Fluency & Coherence)
评测目标:看语言是否流畅、连贯,表达是否自然、易懂。
评测要点:
- 语法与流畅度:
- 人工打分(1–5 分)、或使用语言模型困惑度(Perplexity)。
- 连贯性与上下文衔接:
- 多轮对话脚本,测试能否正确引用历史信息。
- 自然度与风格一致性:
- 指定“人设/语气”,看多轮答复风格是否稳定。
3. 复杂推理能力(Reasoning)
评测目标:模型能否进行多步、逻辑严密的推理,而不是只做表面匹配。
子维度与方法:
- 数学推理:
- 数据集:GSM8K、MATH 等 → 衡量多步算式推理。
- 逻辑推理:
- 逻辑题、真假话问题、多前提推断,或 BIG‑Bench 中的推理子任务。
- 常识推理:
- 常识问答、因果推理题。
- 工具/代码推理:
- 代码生成与执行,链式调用 API,检验最终结果是否正确。
4. 代码能力(Code Ability)
评测目标:代码生成、解释与调试能力。
评测方法:
- 基准数据集:HumanEval、MBPP、LeetCode 风格题 → 看通过率。
- 真实任务:实现小功能(API 封装、脚本编写),自动运行单元测试。
- 解释与调试能力:给定错误代码,让模型解释 bug 并修复,看修复成功率。
5. 专业领域能力(Domain Expertise)
评测目标:模型在特定领域内是否“说得对、说得专业、说得可用”。
评测方法:
- 行业数据集:
- 法律:案例问答、法律条款定位题。
- 医疗:问诊问答(必须注意安全与合规)。
- 金融:研报摘要、公司基本面问答。
- 专家评审:
- 医生、律师、分析师对模型回答做专业评分(正确性 + 合规性 + 风险)。
二、安全与价值对齐维度
6. 安全性与对齐性(Safety & Alignment)
评测目标:避免有害、违法、不道德内容;与人类价值对齐。
子维度与方法:
- 有害内容过滤:
- 测:暴力、仇恨、色情、自残、违法行为的生成概率。
- 方法:红队 prompt 库 + 攻击提示(绕过安全策略) → 统计违规响应率。
- 价值观与伦理:
- 在敏感话题(歧视、偏见、极端言论)上看是否作出适当拒绝或中立回应。
- 隐私与合规:
- 测试是否泄露训练数据中具体个人隐私、密钥等;
- 符合当地法律法规及平台政策。
三、效率与工程指标
7. 效率(Efficiency)
评测目标:在保证效果的前提下,尽可能快、尽可能省。
维度与方法:
- 延迟(Latency):
- 首 token 延迟、完整响应时间(P50/P90/P99)。
- ERNIE Speed Pro:作为轻量级模型,在特定场景下优化延迟与响应速度。
- 吞吐量(Throughput):
- QPS、并发能力,压测时的稳定性。
- 资源消耗(Cost):
- GPU/CPU 时间、显存占用、带宽,折算推理成本。
- 训练/服务优化实践:
- 比如“对话系统通过日志分析和样本优化(正例/负例训练)提升响应效率”:
在“数据分布”和“触发逻辑”层面优化,让模型在常见模式下更快收敛、更稳定。
- 比如“对话系统通过日志分析和样本优化(正例/负例训练)提升响应效率”:
四、稳健性与泛化能力
8. 鲁棒性(Robustness)
评测目标:在各种“非理想输入”和复杂环境下,表现是否稳定。
典型测试:
- 噪声与错误:
- 拼写错误、口语化、方言、错别字 → 看性能下降幅度。
- 对抗攻击:
- Adversarial Prompt、越狱尝试,看绕过安全策略的成功率。
- 复杂、多模态场景:
- 例如“跨模态语音模型在多语种、多场景中保持识别准确率”:
- 噪声环境(地铁、街道)、不同口音、不同语言 → 测 ASR 准确率、任务完成率。
- 例如“跨模态语音模型在多语种、多场景中保持识别准确率”:
9. 泛化能力(Generalization)
评测目标:在未见过的数据、任务、领域上能否“举一反三”。
评测方式:
- Zero-shot / Few-shot 性能:
- 新任务(未微调):直接指令 → Zero-shot 正确率。
- 给少量示例(3–10 个)→ Few-shot 提升幅度。
- 跨领域迁移:
- 在训练时未重点覆盖的行业或任务上测试(例如从通用对话迁移到旅游规划、政务咨询)。
- 多模态泛化:
- 通过多模态(图文、语音、代码等)训练,在图文理解、视觉问答、跨模态检索上的性能提升,体现跨场景适应能力。
五、生成行为质量维度
10. 多样性(Diversity)
评测目标:生成结果是否丰富、多样、避免机械重复,同时又不过度跑题。
评测方法:
- 文本层面的多样性:
- n‑gram 重复率、distinct‑n 指标(distinct-1 / distinct-2)。
- 多次回答同一问题,观察是否总是给出相同表述。
- 内容与方案多样性:
- 对开放式任务(创意文案、方案设计),看是否能提供多种思路。
- 工程实践:
- 在“多智能体协作 + 低代码配置生成多样化应用场景”:
- 评测可以看:在相同需求下,系统是否能组合出不同 agent 流程,实现不同风格和深度的应用。
- 在“多智能体协作 + 低代码配置生成多样化应用场景”:
11. 可解释性(Explainability)
评测目标:输出是否有清晰、可追溯的逻辑;关键场景下是否能展示“为什么这么回答”。
可能的评测方面:
- 推理过程显式展示(Chain-of-Thought):
- 在数学、逻辑题中,要求给出中间步骤,人工评估逻辑是否合理。
- 知识来源可追溯:
- 知识增强对话中,要求引用外部检索到的文档片段,并标明来源。
- 测试:生成答案与引用内容是否匹配,是否乱编。
- 决策理由说明:
- 在推荐、诊断、评估类任务中,要求模型说明“推荐/判断的依据”。
六、整体评估与综合打分
12. 综合评估与雷达图
在上述维度基础上,可以形成一套综合评分体系,大致包含:
-
能力与准确性
- 知识与事实准确性
- 语言理解与生成
- 复杂推理
- 代码能力
- 专业领域能力
-
安全与对齐
- 有害内容与越狱鲁棒性
- 价值观/伦理对齐
- 隐私与合规
-
效率与工程
- 延迟、吞吐量、资源消耗
-
鲁棒性与泛化
- 噪声/对抗鲁棒性
- 跨任务、跨领域、多模态的泛化能力
-
生成行为质量
- 多样性
- 可解释性
- 指令遵循稳定性
呈现方式:
- 为每个一级维度设置 0–100 分,内部由多个子指标加权得到;
- 根据具体应用场景调整权重,例如:
- 医疗/法律助手:准确性、安全性、专业性权重最大;
- 创意文案工具:语言流畅、多样性、效率更重要;
- 开发者助手:代码能力、推理能力、效率是重点。
更多推荐



所有评论(0)