大模型评审 LLM-as-a-Judge

大模型评审简单理解就是让大模型模仿人类对一些东西进行打分和评价。
如何评价大模型评审,主要看其回答是否与人类的回答对齐/一致。

形式定义

在这里插入图片描述

基本流程

在这里插入图片描述

在这里插入图片描述

in-context learning

  • 核心过程就是输入设计prompt设计
  • 个人理解:定义问题,通过合适的prompt让LLM理解和学习问题案例。
    在这里插入图片描述

model selection

  • 简单理解为:选择闭源但是强大的模型,或者选择开源的模型进行微调。
    在这里插入图片描述

post-processing

  • 动机:大模型的输出存在随机化,格式也很混乱,需要提取特定token或者得到标准化的输出。

  • Extracting specific tokens.

  • Constrained decoding:这是强制要求LLM输出指定格式,例如JSON格式。

  • Normalizing the output logits:没看懂,未完待续
    在这里插入图片描述

  • Selecting sentences

evaulation pipeline

在这里插入图片描述

Models

Data

  • 这个第一次看还以为是给数据打标签呢,不是这样的!是对于特定数据(可能是LLM生成的内容)进行评估,举三个例子即可完全理解:

  • 场景 1(成对偏好) → 对应 RLHF 偏好评估。

  • 场景 2(文字评语) → 对应 数据标注/批注生成。

  • 场景 3(数值打分) → 对应 单一回答打分/排序。

  • 用LLM评估以下东西。

提升策略

  • 优化提示,对应in-context learning:旨在帮助LLM理解问题本身。将任务进行分解为多个子任务和子流程,将评价指标解耦为多个子指标。或者直接提供部分案例供LLM学习。
  • 微调模型,对应model selection:提高LLM本身的能力,减小歧视(bias)。使用元数据微调,使用表现不好的案例微调。
  • 优化结果,对应post-processing:旨在优化LLM的输出,包括使用多个LLM,多轮输出综合和其他策略。
    在这里插入图片描述

评估LLM-as-a-Judge的指标

  • 核心思想:让LLM的输出结果与人类提供的输出结果(人为注释)尽可能一致。

  • **分类指标:**准确率,召回率那些。

  • Agreement(本质也是一种准确率指标)
    在这里插入图片描述

  • Bias(歧视、偏差):各种各样的歧视,所用的指标各不相同。

  • 模型的对抗鲁棒性
    在这里插入图片描述

meta-evaluation experiment

  • 动机:作者提出了一个元评估框架,旨在评估以上提升策略对LLM哪些能力有效,对于哪些歧视现象无效
    在这里插入图片描述
    实验部分未完待续。










参考文献

@misc{guSurveyLLMasaJudge2025,
  title = {A {{Survey}} on {{LLM-as-a-Judge}}},
  author = {Gu, Jiawei and Jiang, Xuhui and Shi, Zhichao and Tan, Hexiang and Zhai, Xuehao and Xu, Chengjin and Li, Wei and Shen, Yinghan and Ma, Shengjie and Liu, Honghao and Wang, Saizhuo and Zhang, Kun and Wang, Yuanzhuo and Gao, Wen and Ni, Lionel and Guo, Jian},
  year = {2025},
  number = {arXiv:2411.15594},
  eprint = {2411.15594},
  primaryclass = {cs},
  publisher = {arXiv},
  doi = {10.48550/arXiv.2411.15594},
  archiveprefix = {arXiv}
}

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐