统一大模型评估体系（维度+指标）

也对齐你这次提到的“指令遵循与泛化能力”、“ERNIE 4.5 多模态跨场景适应性”。也对齐你这次提到的“指令遵循与泛化能力”、“ERNIE 4.5 多模态跨场景适应性”。对应你这次单独强调的“多样性”，也和上次的“创作能力”“可控生成”有关。对应你这次单独强调的“多样性”，也和上次的“创作能力”“可控生成”有关。对应你提到的“可解释性”，也与上次的“安全性/幻觉控制”有关。对应你提到的“可解释性

小阿瓦隆

917人浏览 · 2025-12-04 16:59:22

小阿瓦隆 · 2025-12-04 16:59:22 发布

一、能力与行为维度

1. 准确性（Accuracy）

评测目标：模型输出是否事实正确、逻辑正确、按指令执行。

1）事实性与知识准确性

含义：对世界知识、常识、领域知识的掌握与输出是否准确。
评测方法：
- 标准问答数据集：MMLU、C‑Eval、AGI‑Eval、CMMLU 等 → 统计正确率。
- 专业知识集：法律、医疗、金融专用测试集（例如医疗问答集、法条检索题）。
- 公司/场景内知识：企业知识库构建内部 Q&A 测试集。
示例：
- “ERNIE X1.1 在事实性上显著提升”：就是在这些知识问答类测试中，事实正确率提高。

2）指令遵循与格式执行

含义：能否准确按照用户指令完成任务，包括结构、语气、格式等。
评测方法：
- 构造指令集：要求特定格式（JSON、表格、步骤列表）、特定风格（严肃、简明）。
- 自动验证：格式可用正则/脚本自动检测；内容由人工或规则核对。
示例：
- “ERNIE X1.1 在指令遵循能力上的提升”：可体现在复杂多步骤指令、链式任务中的成功率提高。
- PLATO-K 通过两阶段训练（知识内化 + 外用），结合大规模对话语料和人工标注数据，降低回复错误率，也是提高“准确执行”和“少出错”的典型做法。

2. 语言理解与生成（Fluency & Coherence）

评测目标：看语言是否流畅、连贯，表达是否自然、易懂。

评测要点：

语法与流畅度：
- 人工打分（1–5 分）、或使用语言模型困惑度（Perplexity）。
连贯性与上下文衔接：
- 多轮对话脚本，测试能否正确引用历史信息。
自然度与风格一致性：
- 指定“人设/语气”，看多轮答复风格是否稳定。

3. 复杂推理能力（Reasoning）

评测目标：模型能否进行多步、逻辑严密的推理，而不是只做表面匹配。

子维度与方法：

数学推理：
- 数据集：GSM8K、MATH 等 → 衡量多步算式推理。
逻辑推理：
- 逻辑题、真假话问题、多前提推断，或 BIG‑Bench 中的推理子任务。
常识推理：
- 常识问答、因果推理题。
工具/代码推理：
- 代码生成与执行，链式调用 API，检验最终结果是否正确。

4. 代码能力（Code Ability）

评测目标：代码生成、解释与调试能力。

评测方法：

基准数据集：HumanEval、MBPP、LeetCode 风格题 → 看通过率。
真实任务：实现小功能（API 封装、脚本编写），自动运行单元测试。
解释与调试能力：给定错误代码，让模型解释 bug 并修复，看修复成功率。

5. 专业领域能力（Domain Expertise）

评测目标：模型在特定领域内是否“说得对、说得专业、说得可用”。

评测方法：

行业数据集：
- 法律：案例问答、法律条款定位题。
- 医疗：问诊问答（必须注意安全与合规）。
- 金融：研报摘要、公司基本面问答。
专家评审：
- 医生、律师、分析师对模型回答做专业评分（正确性 + 合规性 + 风险）。

二、安全与价值对齐维度

6. 安全性与对齐性（Safety & Alignment）

评测目标：避免有害、违法、不道德内容；与人类价值对齐。

子维度与方法：

有害内容过滤：
- 测：暴力、仇恨、色情、自残、违法行为的生成概率。
- 方法：红队 prompt 库 + 攻击提示（绕过安全策略） → 统计违规响应率。
价值观与伦理：
- 在敏感话题（歧视、偏见、极端言论）上看是否作出适当拒绝或中立回应。
隐私与合规：
- 测试是否泄露训练数据中具体个人隐私、密钥等；
- 符合当地法律法规及平台政策。

三、效率与工程指标

7. 效率（Efficiency）

评测目标：在保证效果的前提下，尽可能快、尽可能省。

维度与方法：

延迟（Latency）：
- 首 token 延迟、完整响应时间（P50/P90/P99）。
- ERNIE Speed Pro：作为轻量级模型，在特定场景下优化延迟与响应速度。
吞吐量（Throughput）：
- QPS、并发能力，压测时的稳定性。
资源消耗（Cost）：
- GPU/CPU 时间、显存占用、带宽，折算推理成本。
训练/服务优化实践：
- 比如“对话系统通过日志分析和样本优化（正例/负例训练）提升响应效率”：
  在“数据分布”和“触发逻辑”层面优化，让模型在常见模式下更快收敛、更稳定。

四、稳健性与泛化能力

8. 鲁棒性（Robustness）

评测目标：在各种“非理想输入”和复杂环境下，表现是否稳定。

典型测试：

噪声与错误：
- 拼写错误、口语化、方言、错别字 → 看性能下降幅度。
对抗攻击：
- Adversarial Prompt、越狱尝试，看绕过安全策略的成功率。
复杂、多模态场景：
- 例如“跨模态语音模型在多语种、多场景中保持识别准确率”：
  - 噪声环境（地铁、街道）、不同口音、不同语言 → 测 ASR 准确率、任务完成率。

9. 泛化能力（Generalization）

评测目标：在未见过的数据、任务、领域上能否“举一反三”。

评测方式：

Zero-shot / Few-shot 性能：
- 新任务（未微调）：直接指令 → Zero-shot 正确率。
- 给少量示例（3–10 个）→ Few-shot 提升幅度。
跨领域迁移：
- 在训练时未重点覆盖的行业或任务上测试（例如从通用对话迁移到旅游规划、政务咨询）。
多模态泛化：
- 通过多模态（图文、语音、代码等）训练，在图文理解、视觉问答、跨模态检索上的性能提升，体现跨场景适应能力。

五、生成行为质量维度

10. 多样性（Diversity）

评测目标：生成结果是否丰富、多样、避免机械重复，同时又不过度跑题。

评测方法：

文本层面的多样性：
- n‑gram 重复率、distinct‑n 指标（distinct-1 / distinct-2）。
- 多次回答同一问题，观察是否总是给出相同表述。
内容与方案多样性：
- 对开放式任务（创意文案、方案设计），看是否能提供多种思路。
工程实践：
- 在“多智能体协作 + 低代码配置生成多样化应用场景”：
  - 评测可以看：在相同需求下，系统是否能组合出不同 agent 流程，实现不同风格和深度的应用。