一、能力与行为维度

1. 准确性(Accuracy)

评测目标:模型输出是否事实正确、逻辑正确、按指令执行。

1)事实性与知识准确性

  • 含义:对世界知识、常识、领域知识的掌握与输出是否准确。
  • 评测方法:
    • 标准问答数据集:MMLU、C‑Eval、AGI‑Eval、CMMLU 等 → 统计正确率。
    • 专业知识集:法律、医疗、金融专用测试集(例如医疗问答集、法条检索题)。
    • 公司/场景内知识:企业知识库构建内部 Q&A 测试集。
  • 示例:
    • “ERNIE X1.1 在事实性上显著提升”:就是在这些知识问答类测试中,事实正确率提高。

2)指令遵循与格式执行

  • 含义:能否准确按照用户指令完成任务,包括结构、语气、格式等。
  • 评测方法:
    • 构造指令集:要求特定格式(JSON、表格、步骤列表)、特定风格(严肃、简明)。
    • 自动验证:格式可用正则/脚本自动检测;内容由人工或规则核对。
  • 示例:
    • “ERNIE X1.1 在指令遵循能力上的提升”:可体现在复杂多步骤指令、链式任务中的成功率提高。
    • PLATO-K 通过两阶段训练(知识内化 + 外用),结合大规模对话语料和人工标注数据,降低回复错误率,也是提高“准确执行”和“少出错”的典型做法。

2. 语言理解与生成(Fluency & Coherence)

评测目标:看语言是否流畅、连贯,表达是否自然、易懂。

评测要点:

  1. 语法与流畅度:
    • 人工打分(1–5 分)、或使用语言模型困惑度(Perplexity)。
  2. 连贯性与上下文衔接:
    • 多轮对话脚本,测试能否正确引用历史信息。
  3. 自然度与风格一致性:
    • 指定“人设/语气”,看多轮答复风格是否稳定。

3. 复杂推理能力(Reasoning)

评测目标:模型能否进行多步、逻辑严密的推理,而不是只做表面匹配。

子维度与方法:

  1. 数学推理:
    • 数据集:GSM8K、MATH 等 → 衡量多步算式推理。
  2. 逻辑推理:
    • 逻辑题、真假话问题、多前提推断,或 BIG‑Bench 中的推理子任务。
  3. 常识推理:
    • 常识问答、因果推理题。
  4. 工具/代码推理:
    • 代码生成与执行,链式调用 API,检验最终结果是否正确。

4. 代码能力(Code Ability)

评测目标:代码生成、解释与调试能力。

评测方法:

  • 基准数据集:HumanEval、MBPP、LeetCode 风格题 → 看通过率。
  • 真实任务:实现小功能(API 封装、脚本编写),自动运行单元测试。
  • 解释与调试能力:给定错误代码,让模型解释 bug 并修复,看修复成功率。

5. 专业领域能力(Domain Expertise)

评测目标:模型在特定领域内是否“说得对、说得专业、说得可用”。

评测方法:

  • 行业数据集:
    • 法律:案例问答、法律条款定位题。
    • 医疗:问诊问答(必须注意安全与合规)。
    • 金融:研报摘要、公司基本面问答。
  • 专家评审:
    • 医生、律师、分析师对模型回答做专业评分(正确性 + 合规性 + 风险)。

二、安全与价值对齐维度

6. 安全性与对齐性(Safety & Alignment)

评测目标:避免有害、违法、不道德内容;与人类价值对齐。

子维度与方法:

  1. 有害内容过滤:
    • 测:暴力、仇恨、色情、自残、违法行为的生成概率。
    • 方法:红队 prompt 库 + 攻击提示(绕过安全策略) → 统计违规响应率。
  2. 价值观与伦理:
    • 在敏感话题(歧视、偏见、极端言论)上看是否作出适当拒绝或中立回应。
  3. 隐私与合规:
    • 测试是否泄露训练数据中具体个人隐私、密钥等;
    • 符合当地法律法规及平台政策。

三、效率与工程指标

7. 效率(Efficiency)

评测目标:在保证效果的前提下,尽可能快、尽可能省。

维度与方法:

  1. 延迟(Latency):
    • 首 token 延迟、完整响应时间(P50/P90/P99)。
    • ERNIE Speed Pro:作为轻量级模型,在特定场景下优化延迟与响应速度。
  2. 吞吐量(Throughput):
    • QPS、并发能力,压测时的稳定性。
  3. 资源消耗(Cost):
    • GPU/CPU 时间、显存占用、带宽,折算推理成本。
  4. 训练/服务优化实践:
    • 比如“对话系统通过日志分析和样本优化(正例/负例训练)提升响应效率”:
      在“数据分布”和“触发逻辑”层面优化,让模型在常见模式下更快收敛、更稳定。

四、稳健性与泛化能力

8. 鲁棒性(Robustness)

评测目标:在各种“非理想输入”和复杂环境下,表现是否稳定。

典型测试:

  1. 噪声与错误:
    • 拼写错误、口语化、方言、错别字 → 看性能下降幅度。
  2. 对抗攻击:
    • Adversarial Prompt、越狱尝试,看绕过安全策略的成功率。
  3. 复杂、多模态场景:
    • 例如“跨模态语音模型在多语种、多场景中保持识别准确率”:
      • 噪声环境(地铁、街道)、不同口音、不同语言 → 测 ASR 准确率、任务完成率。

9. 泛化能力(Generalization)

评测目标:在未见过的数据、任务、领域上能否“举一反三”。

评测方式:

  1. Zero-shot / Few-shot 性能:
    • 新任务(未微调):直接指令 → Zero-shot 正确率。
    • 给少量示例(3–10 个)→ Few-shot 提升幅度。
  2. 跨领域迁移:
    • 在训练时未重点覆盖的行业或任务上测试(例如从通用对话迁移到旅游规划、政务咨询)。
  3. 多模态泛化:
    • 通过多模态(图文、语音、代码等)训练,在图文理解、视觉问答、跨模态检索上的性能提升,体现跨场景适应能力。

五、生成行为质量维度

10. 多样性(Diversity)

评测目标:生成结果是否丰富、多样、避免机械重复,同时又不过度跑题。

评测方法:

  1. 文本层面的多样性:
    • n‑gram 重复率、distinct‑n 指标(distinct-1 / distinct-2)。
    • 多次回答同一问题,观察是否总是给出相同表述。
  2. 内容与方案多样性:
    • 对开放式任务(创意文案、方案设计),看是否能提供多种思路。
  3. 工程实践:
    • 在“多智能体协作 + 低代码配置生成多样化应用场景”:
      • 评测可以看:在相同需求下,系统是否能组合出不同 agent 流程,实现不同风格和深度的应用。

11. 可解释性(Explainability)

评测目标:输出是否有清晰、可追溯的逻辑;关键场景下是否能展示“为什么这么回答”。

可能的评测方面:

  1. 推理过程显式展示(Chain-of-Thought):
    • 在数学、逻辑题中,要求给出中间步骤,人工评估逻辑是否合理。
  2. 知识来源可追溯:
    • 知识增强对话中,要求引用外部检索到的文档片段,并标明来源。
    • 测试:生成答案与引用内容是否匹配,是否乱编。
  3. 决策理由说明:
    • 在推荐、诊断、评估类任务中,要求模型说明“推荐/判断的依据”。

六、整体评估与综合打分

12. 综合评估与雷达图

在上述维度基础上,可以形成一套综合评分体系,大致包含:

  1. 能力与准确性

    • 知识与事实准确性
    • 语言理解与生成
    • 复杂推理
    • 代码能力
    • 专业领域能力
  2. 安全与对齐

    • 有害内容与越狱鲁棒性
    • 价值观/伦理对齐
    • 隐私与合规
  3. 效率与工程

    • 延迟、吞吐量、资源消耗
  4. 鲁棒性与泛化

    • 噪声/对抗鲁棒性
    • 跨任务、跨领域、多模态的泛化能力
  5. 生成行为质量

    • 多样性
    • 可解释性
    • 指令遵循稳定性

呈现方式:

  • 为每个一级维度设置 0–100 分,内部由多个子指标加权得到;
  • 根据具体应用场景调整权重,例如:
    • 医疗/法律助手:准确性、安全性、专业性权重最大;
    • 创意文案工具:语言流畅、多样性、效率更重要;
    • 开发者助手:代码能力、推理能力、效率是重点。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐