CVPR 2025|VL-RewardBench:视觉语言生成式奖励模型的挑战性基准测试
本文提出VL-RewardBench基准测试集,用于评估视觉-语言生成式奖励模型(VL-GenRMs)的性能。该基准包含1250个高质量测试样本,覆盖通用多模态指令、视觉幻觉检测和多模态推理三类任务,通过AI辅助标注和人工验证确保数据质量。实验评估16个主流模型发现,商用模型表现中等(GPT-4o准确率65.4%),开源模型难以超越随机水平。关键发现包括:模型失效主要源于视觉感知而非推理能力;测试
文章目录
1 论文信息
- 题目
VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models - 作者
Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu; - 单位
HKU(香港大学),SCUT(华南理工大学),SJTU(上海交通大学),PKU(北京大学),UW(华盛顿大学),Allen AI(艾伦人工智能研究院) - 会议 CVPR 2025
- 论文地址
https://openaccess.thecvf.com/content/CVPR2025/html/Li_VL-RewardBench_A_Challenging_Benchmark_for_Vision-Language_Generative_Reward_Models_CVPR_2025_paper.html - 代码和数据集地址:
https://vl-rewardbench.github.io.
2 论文摘要
- 研究背景 VL-GenRMs(视觉-语言生成式奖励模型:一类针对多模态任务的生成式评估模型,核心功能是对视觉-语言模型生成的响应进行偏好判断与质量量化,即判断AI处理图文任务的效果是否好)对多模态AI很重要,但自身评估不足;现有评估方法存在偏差,难以挑战最优模型。
- 研究方案:提出VL-RewardBench基准,涵盖三类任务,通过AI辅助+人工验证构建1250个高质量测试用例,用于探测VL-GenRMs的缺陷。
- 实验结果:16个主流模型在该基准上表现不佳(GPT-4o仅65.4%);领先的商用模型性能是中等水平,开源模型性能难以超过随机水平;与MMMU-Pro的准确率(多模态AI模型在“MMMU-Pro基准测试”中的答对率,考察AI理解图文结合内容+用专业知识进行推理的能力)呈强相关性(皮尔逊系数r>0.9,接近完全正相关)
- MMMU-Pro:增强型多学科多模态理解基准,Multimodal Multi-discipline Understanding,核心设计:排除纯文本就能回答的题目,把选项从4->10,要求模型从图文混合的截图中提取信息,更严格的衡量了文本视觉-文本信息整合能力与专业领域知识运用能力)
- 关键发现:模型失效于视觉感知而非推理,推理规模随模型容量差异大;训练“评判能力”可显著提升性能。
- 研究意义:VL-RewardBench及洞见将助力VL-GenRMs的发展

图1: VL-RewardBench 中的一个示例,要求判断卫生间内的视觉细节。开源的 VL-GenRM 模型(Qwen2VL-7B 和 Llama-3.2-90B )以及商用模型 Claude-3.5-Sonnet 均未能做出准确的判断 - 问:公共卫生间里有多少个洗手池和镜子?
- 回答 1(优选响应):公共卫生间里有 3 个水槽和 3 面镜子。
- 回答2(被拒响应)图像中包含 2 个水槽和 4 面镜子,镜子配备有感应水龙头,其上方悬挂着一套配套的干手器。
3 论文引言
像GPT-4o这样的大型视觉-语言模型已在各类多模态感知与认知任务中展现出卓越的能力,依托这些能力,他们被用作视觉-语言生成式奖励模型,自动评估模型的响应效果。
当前评估视觉-语言模型生成式奖励模型的研究主要采用两种方法,均存在显著局限性:
- 依赖人工智能生成的偏好标注->引入系统性偏差,可能倾向于模型生成的响应或表现出对特定风格的偏好
- 对带有预定义标签的传统学术基准测试集进行适配,聚焦于图像描述生成等传统视觉 - 语言任务中的偏好对齐->采用简单化的查询,无法捕捉真实应用场景中的细微需求
有效的视觉-语言模型基准测试集需满足三个要求(现有研究均未能满足):
- 覆盖多样化的真实应用场景
- 具备足够难度以暴露当前模型的局限性
- 拥有客观的标签
因此,本论文提出VL-RewardBench 基准测试集。
该基准测试集从三个关键应用领域对视觉 - 语言生成式奖励模型(VL-GenRMs)进行评估:
(1)源自真实场景的通用多模态查询->测试对日常多模态查询的响应评估能力;
(2)视觉幻觉检测任务->测试识别“模型生成与图像内容不符“的能力;
采用针对性的筛选策略:对于带有偏好对的源数据集,联合使用小型大型视觉 - 语言模型(LVLMs)筛选出具有挑战性的高难度样本;
对于无标注标签的推理任务,借助性能强大的商用模型生成带有明确推理过程的响应,再由 GPT-4o 进行质量评估。
(3)多模态知识与数学推理任务->测试对复杂知识/数学推理的评估能力
所有偏好标签均经过人工验证,以剔除模糊或错误的样本对。
测试集:包含来自7个不同数据集的1250个高质量样本,对16个当前最先进的视觉-语言生成式奖励模型进行全面评估
本论文还为其改进提出了三个关键洞见:
1)性能的主要瓶颈在于视觉感知而非推理能力 —— 模型在存在性 / 识别类任务中的错误率(>67%)显著高于推理类任务(41.8%);
2)测试时缩放(test-time scaling)的效果因模型容量而异:该策略能为大型模型带来性能提升,但可能导致小型模型性能下降;
3)通过训练让视觉 - 语言生成式奖励模型(VL-GenRMs)学习 “评判能力”,可大幅提升其判断性能 —— 例如 LLaVA-OneVision-7B-ov 模型的准确率提升了 14.7%[25],且平均而言,逐点评估(pointwise evaluation)的表现优于成对评分(pairwise scoring)
逐点评估:针对多模态查询(图像 + 文本指令)对应的单个候选响应,模型独立输出其质量分数或优劣等级的评估范式,不依赖与其他响应的对比
成对评估:针对多模态查询对应的两个候选响应(理论优选响应和理论较差相应)模型直接输出二者的偏好关系的评估范式,核心是 “相对优劣判断” 而非 “绝对质量量化”
4 VL-RewardBench
VL-RewardBench由偏好对构成 Preference Pair = ( x , y w , y l ) \text{Preference Pair} = (x, y_{w}, y_{l}) Preference Pair=(x,yw,yl)
其中 x x x代表包含一张图像和一条用户提示的多模态查询, y w y_{w} yw和 y l y_{l} yl分别代表优选响应和被拒响应。
三类多模态数据源->集成筛选和AI辅助标注->人类验证->形成VL-RewardBench->利用该基准测试主流VL-GenRM的评估性能
图 2. VL-RewardBench 的构建流程概述。
针对不同数据集采用两种策略:
(1)集成过滤流程 —— 利用小型大型视觉 - 语言模型(LVLMs)从通用查询和幻觉导向查询中筛选出具有挑战性的样本->人类验证
(2)多模态推理任务->AI 辅助偏好标注 —— 由商用模型生成候选响应,再通过这些模型生成偏好标签及理由->人类验证
4.1 数据集来源
从三个领域选择数据集:通用多模态指令,hullucination-oriented任务和多模态推理任务
- 通用多模态指令(General Instruction)
包含来自不同领域的各种多模态指令
VLFeedback和WildVision是两个带有注释AI/人类反馈的通用多模态偏好数据集。
使用VLFeedback中经过人工验证的子集,包含681个样本,并从WildVision数据集中选取了6484个英文样本用于后续处理。 - 面向幻觉的查询(Hallucination Oriented)
聚焦于大视觉语言模型(LVLMs)的幻觉问题,涉及与图像中视觉内容相关的问题。
选取了公开可用的POVID 、RLAIF-V 和RLHFV 数据集,都带有标注的偏好标签。在偏好标注方面,POVID通过向基准图像描述中注入噪声来生成被拒绝的响应;RLAIF-V创新性地开发了一种分治框架来标注响应的可信度;而RLHF-V则依靠人工来标注偏好。所有样本都被纳入作为初始候选样本。
分治标注:将 “评估完整响应的可信度” 拆解为 “评估多个原子声明的可信度”,再聚合结果生成整体判断 ->“分而治之”
- 多模态推理任务(Multimodel Reasoning)
用来评估具有挑战性的多模态推理任务的LVLM。选择最近的MMMU-Pro和MathVerse来降低数据集污染风险。MMMU-Pro是大规模多学科多模态理解和推理(MMMU)基准的强大版本,采用了1,568个单图像样本。MathVerse作为了LVLM的视觉数学推理基准。选择Vision Dominant和Vision Intensive的子集,以确保高度依赖视觉输入,从而产生1,546个样本。
4.2 偏好注释
4.2.1 小型模型集成滤波
基于假设:当多个小型模型在某些情况下失败时,归因于根本性的限制而非特定模型的弱点
实验包含三个步骤:
- 集成构建 将多个小型视觉-语言模型集成为弱评判器
- 难度评估 每个偏好对都由小型模型进行3次判断,且随机调整相应位置以减轻位置偏差,基于三次评估的投票,将所有模型都持续误判的偏好对构建一个“共同集”->3785个高难度偏好对
- 人工验证 由三位熟悉元数据集和问题设置的作者进行初步标注,另外两位进行最终验证,验证流程包括:
(i)标签准确性检查:我们首先检查偏好标签,剔除那些首选响应不如被拒绝响应的,或两个响应均不正确的配对;
(ii)质量和模糊性过滤:我们移除可能导致模糊评估的配对,包括
(a)两个响应均正确但仅在风格上有差异(例如,冗长程度)
(b)质量或分辨率有问题的图像
(c)需要超出研究生水平知识的领域专业知识才能回答的问题。
(iii)错误类型分类:对于其余具有明确偏好标签的挑战性配对,我们对错误进行分类。
分为识别错误、计数错误、视觉属性识别错误、对象存在错误以及其他未分类错误。
->932对高质量样本
4.2.2 推理任务的人工智能辅助偏好标注
(一)初始标签生成: GPT-4o使用结构化模板分析每个响应对,以生成带有支撑原理的偏好标签草案。
(二)人工验证:
三位作者按照以下标准审查这些人工智能生成的标签:
(a)丢弃两个答案都不正确的对;
(b)保留部分正确答案的对;
(c)对于具有一个正确答案和一个错误答案时,优先选择正确的回答;
(d)对于有两个正确答案的配对,优先选择推理步骤更完整、更具逻辑性的回答。
另外两位作者进行最终验证,有争议的案例通过讨论解决。
->318个高质量的挑战性样本(带有经过验证的多模态推理任务偏好标签)
4.3 数据集统计

VL-RewardBench的组成和特征的统计数据如表1所示
任务分布:基准包括三个主要类别:hallucination-related查询(749对,59.9%)、多模态推理提示(318对,25.4%)和一般指令(183对,14.7%)
鉴于任务不平衡,使用宏平均指标来更全面地评估不同任务类型的模型性能
数据来源:总数7个9现有偏好数据集5个,新标注数据集2个)
错误标签类型分布:
带有错误标签注释的有895对
存在错误占59.3%(531/895),表明在正确识别图像中对象的存在或不存在方面存在重大挑战。
识别错误占20.6%(184/895)
属性识别占7.7%(69/895)
计数错误占6.7%(60/895)
多样化的错误分布展示了VL-RewardBench对各种故障模式的覆盖范围。
文本长度分布差异:
为检验潜在的 “基于长度的偏好偏差”,要分析了优选响应与劣选响应之间的词数差异(图 3)。结果呈现的 “以零为中心的钟形分布” 证实,偏好标签不受响应长度的影响,确保评估是基于响应质量而非冗长程度。
上表中数据分析
查询(问题)词长:6(25 分位)、9(50 分位)、31(75 分位)→ 大部分问题长度在 6-31 词之间
响应(回答)词长:48(25 分位)、99(50 分位)、136(75 分位)→ 回答长度普遍长于问题,集中在 48-136 词之间
图3. 优选响应与劣选响应之间的词数差异(相对于优选响应的词数)的分布情况。
上图以零为中心的钟形分布证实偏好标签不受响应长度的影响,从而能够根据响应质量而不是冗长进行评估。
注释者之间的一致性:在100个样本子集上测量的交叉注释者一致性显示出实质性的一致性。
用科恩kappa分数范围量化为为0.56到0.90,平均值为0.70(kappa>=0.6代表”实质性一致“,kappa>=0.8代表“几乎完全一致”)
5 实验
5.1 评估模型
评估16个最先进的大型视觉语言模型(LVLM),包括开源模型和商业模型。
开源:LLaVA-OneVision-7B-ov 、InternVL2-8B 、Phi-3.5-Vision(42亿)、Qwen2-VL(70亿/720亿)、Llama-3.2(110亿/900亿)、Molmo-(70亿/720亿)、Pixtral12B 和NVLM-D-72B 。
商业:GPT-4o/4o-mini、Gemini-1.5Flash/Pro和Claude-3.5-Sonnet
引入了LLaVA-Critic模型用于研究学习判断对VL-GenRMs的影响
5.2 评估设置
遵循LLM-as-a-Justin范式
每个测试样本都通过标准化的评估模版为模型提供一个多模态输入查询和两个候选响应(首选和拒绝)。
为减轻位置偏差,对每个偏好对进行独立评估,并采用随机排序。
计算两个主要指标:
总体准确性:模型决策与人类偏好匹配的百分比
宏观平均准确性:跨不同任务类别的平均准确性,解决任务分布不平衡问题。
5.3 评估结果

表2显示了VL-RewardBench上各种VL-GenRMs的综合评估结果。小模型筛选出的高难度案例,对不同类型、更大规模的 “VL-GenRM” 模型也持续构成挑战。表格中加粗字体代表最佳结果,下划线字体代表次佳结果。
整体准确率:评估所有样本的全局表现->正确预测样本数/总样本数
宏平均准确率:评估模型在每个任务上的平均表现->每个任务单独算后取算术平均
(i)基准测试揭示了当前模型之间明显的性能差距,Gemini-1.5-Pro和GPT-4o以62.5%和62.4%的宏观平均准确率领先,其次是Llama-3.2-90B等开源模型,准确率为53.9%
而大多数7B规模的模型几乎没有超过随机机会。这一差距验证了集成过滤过程的有效性,为VL-GenRMs找到具有普遍挑战性的样本。
(ii)在不同难度级别的任务类别中始终观察到性能分层。多模态推理任务的准确率最高(51.1%到70.5%),这表明模型在判断涉及推理路径的响应方面已经发展了一定的能力。
相比之下,通用指令最具挑战性(28.0%到50.8%)->开放式查询有很大的改进空间。幻觉任务性能即使是顶级模型也很困难
(iii)模型尺度成为关键的性能驱动因素
Llama-3.2(11B至90B: 42.8%至53.9%)
Qwen2-VL(7B至72B:33.9%至43.0%)Molmo系列(7B至72B:39.7%至43.7%)。
商业模型:GPT-4o(62.4%)性能显著优于GPT-4o-mini(44.8%)
VL-RewardBench提出了传统数据集之外的独特挑战,即使是最先进的模型也只能取得一般的性能。
为验证这些挑战源于有针对性的示例选择而非任务分布,采用遵循相同任务分布的随机抽样示例进行消融研究。
VL-GenRMs在随机抽样的样本对上始终能取得更好的结果,例如,Gemini模型的准确率超过95%,证实了数据筛选策略在识别具有挑战性的案例方面的有效性。
图4为视觉 - 语言生成式奖励模型(VL-GenRMs)在 VL-RewardBench 基准测试集上的准确率,与其作为 “最优 N 选 1(Best-of-N)选择器” 时带来的性能提升呈正相关。
Best-of-N selector(最优 N 选 1 选择器):指从模型生成的 N 个候选响应中,筛选出质量最优响应的工具 / 模块。在多模态 AI 对齐任务中,该功能可有效提升模型输出质量。
左图(基础模型是 Qwen2-VL-7B):皮尔逊相关系数r=0.946,p=0.004(相关性极强且显著);
右图(基础模型是 LLaVA-OneVision-7B-ov):皮尔逊相关系数r=0.914,p=0.011
(同样相关性强且显著)
皮尔逊相关系数:量化两个变量之间的线性相关程度
统计显著性p值:判断相关关系是否偶然,量化两变量相关关系的偶然性,p<0.05表示“相关关系具有统计显著性(非偶然结果)”
在MMMU-Pro基准测试上使用两个基础模型(Qwen2VL-7B和LLaVA-OneVision-7B-ov)进行实验。对于每个查询,我们生成N=8个候选响应,并使用六个不同的VL-GenRM进行 pairwise评分和选择。这种设置使我们能够衡量每个VL-GenRM的偏好判断能力如何转化为实际的性能提升。
结果揭示了VL-RewardBench性能与下游有效性之间的明确关系。性能最强的模型GPT-4o显著提高了LLaVA-OneVision-7B-ov的准确率(从35.7%提升至52.5%)。这种模式在所有VL-GenRM中都具有普遍性,表明VL-RewardBench的准确率与BoN性能提升之间存在很强的相关性
6 分析

图5. 不同类型的错误率分析。与推理任务相比,VL-GenRMs更容易出现与感知相关的错误,且模型规模的扩大能持续降低错误率。
6.1 误差分析
把模型的错误分类,发现:
感知类任务(如存在性错误、识别错误)是 VL-GenRMs 的主要错误来源,且错误率与模型能力负相关(如 GPT-4o 的存在性错误率仅 6.9%);
推理类任务的错误率较低且在模型间差异较小->模型的推理能力提升较难
6.2 推理时缩放有帮助吗?
聚焦于每个查询的多个独立评判产生的影响,采用在纯文本场景中被证明有效的多数投票策略。在每次评估中,我们收集K个独立评判(K的范围为1到9),并随机化响应顺序以减少位置偏差。
图6所示的结果揭示了不同模型的三种明显缩放模式:(i)GPT-4o展现出传统的缩放优势,随着K从1增加到7,宏准确率从60.3%提升至62.7%,这表明其强大的评判能力能从额外计算中获益;
(ii)GPT-4o-mini在不同K值下的性能相对稳定,这意味着额外的评判对其决策过程既无帮助也无损害;
(iii)部分开源大型视觉-语言模型(LVLMs)的性能随着K的增加而下降,包括Qwen2-VL-72B和Molmo-72B,当从K=1缩放至K=5时,准确率分别下降了1.7和2.6个百分点。
结论:纯文本领域中成功的推理时缩放策略可能无法直接迁移到视觉-语言评判任务中,因此,为视觉-语言生成式评判模型(VL-GenRMs)开发专门缩放方法是必要的。
6.3 批评训练改进VL-GenRMs
鉴于大多数模型在推理时扩展的收益有限,探索替代的增强策略:批评训练。
提出基于专门训练的“批评模型”优化其判断能力
这种方法通过精心筛选的指令微调样本,专门训练多模态大语言模型(LVLMs)来评判响应质量。
(i)逐点评判,独立为单个答案评分;
(ii)成对评判,直接比较两个候选答案。
图 7. LLaVA-Critic 模型在 VL-RewardBench 基准测试集上的评估结果。评判训练(Critic Training)显著提升了判断准确率。
结论:
- 评论者训练显著增强了评判能力,两种方法相较于基础模型都有显著提升,即逐点评判和成对评判分别提升了14.7%和9.2%。
- 逐点评判取整体性能更好(52.9%对47.4%),但每种方法都有其独特优势:逐点评判在幻觉子集上表现更优(比成对高9.1%),而成对在推理任务上展现出60.0%的优异准确率。这些结果表明,评判训练为改进视觉-语言生成奖励模型(VL-GenRMs)提供了一条可靠的路径,不同的评分范式在各种评估场景中能带来互补的收益。
6.4 结论
推进VLGenRM发展的三个方向
(i)改进视觉感知:尽管VL-GenRMs在推理任务中展现出潜力,但它们在基本感知和识别方面存在错误最多,应优先增强视觉感知能力;
(ii)改进缩放方法
(iii)实现协同进化:MMMUPro与VL-RewardBench性能之间的强相关性表明了一个很有前景的改进循环:强大的大型视觉语言模型(LVLMs)能助力构建更好的视觉语言生成奖励模型(VLGenRMs),而这又可以筛选出更高质量的训练数据,进而推动大型视觉语言模型的进一步改进。这个循环提供了一个系统框架,通过迭代增强来解决感知和缩放方面的挑战。
7 相关工作
大型视觉-语言模型(LVLMs)通过将大型语言模型(LLMs)与视觉编码器相结合而迅速发展,在各种任务中展现出令人印象深刻的能力。主要进展包括架构创新、高质量数据集整理、通过反馈实现的对齐以及系统的设计空间探索等。
对这些最先进的LVLMs进行了评估后,发现它们作为视觉-语言生成奖励模型(VL-GenRMs)的能力有限。
基于模型自身反馈的子监督改进:相关研究验证了 “模型自我评估 + 迭代优化” 的有效性,本文的贡献在于构建了更全面的 VL-RewardBench 基准,并验证了批评训练在 VL-GenRMs 中的适配性
8 结论
本文构建了VL-RewardBench这一基准,它通过系统筛选的具有挑战性的案例和复杂的多模态推理任务,提高了评估VL-GenRMs的标准。
主要有三个核心贡献
- 对16个最先进的大型视觉语言模型(LVLMs)的综合分析揭示了当前顶尖 VL-GenRMs 仍存在显著局限性;
- 通过实验可知推理阶段缩放策略的收益不稳定,但批评训练可有效提升模型性能;
- 这些发现为构建更可靠、更强大的 VL-GenRMs 提供了实践指导。
更多推荐

所有评论(0)