论文精读·大模型评审(LLM-as-a-Judge)

摘要：大模型评审（LLM-as-a-Judge）是一种利用大语言模型进行自动化评分和评价的技术。其核心流程包括输入设计、模型选择和后处理，通过优化提示、微调模型和标准化输出来提升性能。评估指标关注模型输出与人类标注的一致性，包括分类准确率、偏差检测和对抗鲁棒性。研究还提出了元评估框架，分析不同优化策略对模型能力的有效性。该技术可应用于文本生成、问答系统等多个领域，但需解决输出格式混乱和潜在偏见等问

2301_80132162

418人浏览 · 2025-09-21 10:11:28

2301_80132162 · 2025-09-21 10:11:28 发布

大模型评审 LLM-as-a-Judge

大模型评审简单理解就是让大模型模仿人类对一些东西进行打分和评价。
如何评价大模型评审，主要看其回答是否与人类的回答对齐/一致。

形式定义

在这里插入图片描述

基本流程

在这里插入图片描述

in-context learning

核心过程就是输入设计和prompt设计。
个人理解：定义问题，通过合适的prompt让LLM理解和学习问题案例。

model selection

简单理解为：选择闭源但是强大的模型，或者选择开源的模型进行微调。

post-processing

动机：大模型的输出存在随机化，格式也很混乱，需要提取特定token或者得到标准化的输出。
Extracting specific tokens.
Constrained decoding：这是强制要求LLM输出指定格式，例如JSON格式。
Normalizing the output logits：没看懂，未完待续
Selecting sentences

evaulation pipeline

在这里插入图片描述

Models

Data

这个第一次看还以为是给数据打标签呢，不是这样的！是对于特定数据(可能是LLM生成的内容)进行评估，举三个例子即可完全理解：
场景 1（成对偏好） → 对应 RLHF 偏好评估。
场景 2（文字评语） → 对应数据标注/批注生成。
场景 3（数值打分） → 对应单一回答打分/排序。
用LLM评估以下东西。

提升策略

优化提示，对应in-context learning：旨在帮助LLM理解问题本身。将任务进行分解为多个子任务和子流程，将评价指标解耦为多个子指标。或者直接提供部分案例供LLM学习。
微调模型，对应model selection：提高LLM本身的能力，减小歧视(bias)。使用元数据微调，使用表现不好的案例微调。
优化结果，对应post-processing：旨在优化LLM的输出，包括使用多个LLM，多轮输出综合和其他策略。

评估LLM-as-a-Judge的指标

核心思想：让LLM的输出结果与人类提供的输出结果(人为注释)尽可能一致。
**分类指标：**准确率，召回率那些。
Agreement(本质也是一种准确率指标)
Bias(歧视、偏差)：各种各样的歧视，所用的指标各不相同。
模型的对抗鲁棒性。

meta-evaluation experiment

动机：作者提出了一个元评估框架，旨在评估以上提升策略对LLM哪些能力有效，对于哪些歧视现象无效？

实验部分未完待续。

参考文献

@misc{guSurveyLLMasaJudge2025,
  title = {A {{Survey}} on {{LLM-as-a-Judge}}},
  author = {Gu, Jiawei and Jiang, Xuhui and Shi, Zhichao and Tan, Hexiang and Zhai, Xuehao and Xu, Chengjin and Li, Wei and Shen, Yinghan and Ma, Shengjie and Liu, Honghao and Wang, Saizhuo and Zhang, Kun and Wang, Yuanzhuo and Gao, Wen and Ni, Lionel and Guo, Jian},
  year = {2025},
  number = {arXiv:2411.15594},
  eprint = {2411.15594},
  primaryclass = {cs},
  publisher = {arXiv},
  doi = {10.48550/arXiv.2411.15594},
  archiveprefix = {arXiv}
}

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

什么是AIGC？AI&AIGC&AGI的区别解析

2048 AI社区

CodexField 热度登顶：内容资产化赛道的加速信号

在生成式 AI 带来内容爆发式增长的当下，如何让这些数字创作真正“拥有价值”，正成为整个产业关注的焦点。CodexField 进一步从底层基础设施出发，构建出一套让内容、模型与算法能够被确权、计量并实现收益回流的 Web3 原生系统，其旨在以协议化方式，让每一份代码、语料、Prompt 或模型都能以资产的形态在链上流通与结算。该体系的核心，是将内容的生产与使用转化为可验证的

2048 AI社区

多智能体协作提升价值投资决策质量

本文旨在探索人工智能技术在价值投资领域的创新应用，特别是如何通过多智能体协作机制来提升投资决策的质量和效率。多智能体系统在金融决策中的应用价值投资决策过程的智能化改造协作算法的设计与实现实际投资场景中的验证与应用背景介绍：建立基本认知框架核心概念：理解多智能体系统与价值投资的结合点算法原理：揭示系统工作的技术细节数学模型：提供理论支撑和量化分析项目实战：通过代码实现展示具体应用应用场景：探讨实际商