论文地址:https://arxiv.org/pdf/2405.17220
发布时间:2024年5月27日 =》2025 年 10 月 29 日 v3版本
论文主要由豆包AI翻译

论文总结

核心目标

解决现有多模态大语言模型的幻觉问题,突破传统RLHF依赖人工标注、现有RLAIF依赖专有模型的局限,通过全开源范式构建高质量反馈,实现模型可信度与人类偏好的对齐。

核心创新

  1. 去混淆响应生成:相同条件下多轮采样解码,消除文本风格干扰,凸显可信度真实差异;
  2. 分而治之反馈标注:将响应拆解为原子声明,转换为极性问题评估,降低开源模型标注难度;
  3. 迭代反馈学习:动态更新反馈分布,解决DPO训练中的分布偏移问题;
  4. 推理自反馈机制:利用DPO对齐模型的奖励分数,结合长度归一化策略,优化推理阶段性能。

关键结果

  1. 幻觉抑制显著:RLAIF-V 7B将物体幻觉率降低80.7%,RLAIF-V 12B整体幻觉率超越GPT-4V;
  2. 性能保持均衡:提升可信度的同时不牺牲有用性,MMStar基准分数较基准模型显著提升;
  3. 开源生态友好:支持自对齐(单模型同时作为基准和标注模型),反馈数据可泛化到多种开源模型;
  4. 推理优化有效:自反馈BoN策略进一步降低幻觉率,长度归一化解决短响应偏好问题。

Best of N 策略说明

在论文RLAIF-V中,Best of N(简称BoN) 是一种用于提升多模态大语言模型(MLLMs)推理阶段可信度的核心策略,其核心逻辑是“从多个候选响应中选择最优结果”,结合模型自反馈机制进一步降低幻觉、提升输出质量。以下从定义、原理、实现细节、实验效果及核心价值五个维度详细解释:

一、核心定义

Best of N(BoN):在模型推理时,对同一个输入(图像+提示词)生成N个不同的候选响应,通过预设的评分标准(如RLAIF-V的自反馈奖励分数)筛选出分数最高的1个响应作为最终输出,本质是“多候选择优”的推理优化策略。

二、设计原理

  1. 解决的核心问题:单轮推理的随机性可能导致模型输出存在幻觉或信息偏差,而多轮采样能覆盖更丰富的输出空间;同时,DPO对齐后的模型自带“奖励评估能力”,可通过自反馈区分候选响应的可信度差异。
  2. 与自反馈的结合逻辑
    • RLAIF-V的核心创新是将DPO对齐后的模型同时作为“生成器”和“评估器”:生成器负责产生N个候选响应,评估器通过自反馈奖励函数对每个响应打分;
    • 奖励函数已通过“长度归一化”修正了DPO固有的“短响应偏好”,确保评分公平性(避免因响应长度而非内容质量导致的误选)。

三、具体实现细节

1. 候选响应生成
  • 采样方式:采用核采样(nucleus sampling, top-p) 而非贪心搜索,目的是在保证输出多样性的同时避免无意义的随机文本(核采样通过控制累积概率分布筛选候选词,平衡多样性与合理性);
  • 采样数量(N的选择):论文根据模型规模调整N以控制计算成本:
    • RLAIF-V 7B(小参数量模型):采样32个候选响应;
    • RLAIF-V 12B(大参数量模型):采样16个候选响应;
      (核心原因:大模型单轮生成成本更高,且本身输出稳定性更强,无需过多候选即可找到最优解)。
2. 评分与筛选
  • 评分依据:使用RLAIF-V的自反馈奖励分数,公式为:
    [r(y)=\frac{\beta}{T} log \frac{\pi_{\theta}(y)}{\pi_{ref }(y)}]
    其中:
    • (r(y)) 为响应y的最终奖励分数;
    • (\beta) 为控制与基准策略偏离程度的参数;
    • (T) 为响应长度(长度归一化项,修正短响应偏好);
    • (\pi_{\theta}(y)) 为DPO对齐后模型的输出概率;
    • (\pi_{ref}(y)) 为基准模型的输出概率。
  • 筛选规则:直接选择奖励分数最高的候选响应作为最终输出,无需额外人工干预。

四、实验效果(论文关键结果)

BoN策略显著提升了模型的可信度和有用性,具体表现为:

  1. 幻觉率进一步降低
    • RLAIF-V 7B + BoN:Object HalBench响应级幻觉率从10.5%降至6.8(相对降低35.2%),提及级幻觉率从5.2%降至3.8%;
    • RLAIF-V 12B + BoN:MHumanEval整体幻觉率从35.6%降至29.5%(相对降低17.1%),且在RefoMB基准的“可信度胜率”从58.1%提升至62.9%。
  2. 有用性保持甚至提升:在MMStar基准(评估模型综合有用性)中,RLAIF-V 7B + BoN的分数从47.2提升至55.7,RLAIF-V 12B + BoN从58.1提升至62.9,证明BoN仅优化可信度,不牺牲模型的任务解决能力。
  3. 长度偏差修正有效:BoN选择的响应平均长度从“-7.7个词”(无长度归一化时偏短)变为“+3.9个词”,说明长度归一化策略成功避免了模型因偏好短响应而丢失关键信息。

五、核心价值与适用场景

  1. 核心价值
    • 无需额外训练:仅在推理阶段优化,不增加模型训练成本;
    • 通用性强:可适配任何具备“自评估能力”的对齐模型(不仅限于RLAIF-V);
    • 成本可控:通过调整N的大小,可在“性能提升”与“推理速度”之间灵活权衡(N越大效果越好,但推理时间越长)。
  2. 适用场景
    • 对输出可信度要求高的场景(如视觉问答、图像描述、专业知识问答);
    • 模型单轮推理稳定性不足的场景(如小参数量模型、低资源微调模型)。

六、与其他“多候选策略”的区别

策略 核心逻辑 评分依据 适用场景
Best of N(RLAIF-V) 多候选采样+自反馈评分 模型自反馈奖励(带长度归一化) 开源对齐模型,追求全自动化
人类筛选 多候选采样+人工评分 人类偏好 高价值场景(如学术写作)
集成推理(Ensemble) 多模型生成+投票/加权融合 模型输出一致性 无自评估能力的基础模型

总结

RLAIF-V中的Best of N是一种“低成本、高收益”的推理优化策略,其核心是通过“多候选采样+自反馈评分+择优输出”,在不增加训练成本、不牺牲有用性的前提下,进一步降低模型幻觉,提升输出可信度。该策略尤其适配开源对齐模型,为实际部署场景提供了简单有效的性能优化方案。

摘要

RLAIF-V框架,通过全开源范式对齐多模态大语言模型,从偏好学习的高质量反馈数据生成和推理阶段的自反馈引导两个维度充分挖掘开源模型潜力。在六个基准测试的自动与人工评估中,RLAIF-V显著提升了模型在偏好学习和推理阶段的可信度:RLAIF-V 7B模型将物体幻觉率降低80.7%,整体幻觉率降低33.7%;更值得关注的是,RLAIF-V 12B模型展现了开源模型的自对齐潜力,通过学习自身反馈实现了超越GPT-4V的可信度。

1. 引言

多模态大语言模型在大规模多模态语料训练下具备深厚的世界知识,能够处理各类多模态任务,但这类模型容易自信地生成与人类偏好不符的错误内容(幻觉问题)。基于人类反馈的强化学习(RLHF)是主流的对齐方法,但依赖大量人工标注,难以覆盖模型与人类偏好的广泛错位。
在这里插入xxx描述
(a) 本研究旨在转变当前多模态大语言模型(MLLMs)的对齐范式 —— 从依赖更优教师模型的反馈进行对齐,转变为利用能力相当或同等水平的 peer 模型反馈实现对齐。(b) RLAIF-V 与其他方法的可信度对比。我们通过人工评估基准 MHumanEval [66] 评估生成式可信度,通过自动评估基准 AMBER [58] 评估判别式可信度。

基于AI反馈的强化学习(RLAIF)以模型偏好替代人类偏好,展现出替代RLHF的潜力,但当前方案面临两大挑战:

  1. 标注模型要求过高:现有RLAIF方法依赖昂贵的专有模型提取反馈,若直接替换为能力较弱的开源模型,会因模型容量限制导致反馈质量不佳;
  2. 推理阶段扩展有限:现有多模态模型研究多聚焦偏好学习阶段的高质量反馈利用,忽视了推理阶段反馈的重要性,且盲目增加推理计算资源难以提升性能。

RLAIF-V通过两大创新解决上述问题:

  1. 高质量反馈生成:提出去混淆候选响应生成策略提升数据效率,采用分而治之方法提高成对偏好准确率。去混淆策略通过相同条件下的多轮采样解码生成候选响应,消除文本风格等干扰因素分而治之方法将复杂的响应评估拆解为简单的声明评估,降低对标注模型的能力要求
  2. 推理阶段扩展引导:提出基于直接偏好优化(DPO)对齐模型的自反馈方法,利用对齐模型生成的奖励分数作为自我反馈,并设计长度归一化策略抑制DPO奖励对短响应的偏好偏见。此外,该奖励机制还能泛化到其他开源模型,提升其可信度。

2. RLAIF-V框架

RLAIF-V 框架总览。(1) 给定输入图像和提示词后,通过去混淆策略生成多个候选响应。(2) 每个响应被拆分为原子声明,由开源多模态大语言模型(MLLM)分别赋予可信度分数。(3) 在偏好学习阶段,模型通过迭代反馈学习方法进行对齐,该方法会定期更新反馈数据。(4) 在推理阶段,通过自反馈引导进一步提升已对齐模型的性能。
在这里插入图片描述

2.1 响应生成

为凸显响应间可信度的真实差异,RLAIF-V采用去混淆策略:**对同一输入(图像+提示词),通过不同随机种子进行采样解码,生成n个候选响应。**这些响应来自相同分布,具备相似的文本风格和语言模式,使模型在训练时能专注于可信度差异而非表面特征。

2.2 反馈标注

采用分而治之方法简化反馈标注任务:

  • 拆分(Divide):将响应拆解为原子声明(排除观点和主观表述),每个声明可独立评估;
  • 评估(Conquer):将每个原子声明转换为极性问题(如将“时钟显示约11:20”转换为“时钟是否显示约11:20?”),由开源模型生成同意和不同意的置信度作为声明分数;
  • 合并(Combine):统计响应中“不同意概率>同意概率”的声明数量,以该数量的负值作为响应最终分数,分数越高表示内容错误越少。基于分数构建偏好数据集,保留分数更高的响应作为优选响应。

2.3 迭代反馈学习

为解决DPO训练中偏好数据静态化与模型输出分布动态变化的分布偏移问题,RLAIF-V采用迭代训练方式:每次迭代开始时,使用最新模型生成候选响应,通过分而治之方法获取反馈并构建训练数据集,再通过DPO训练更新模型,使反馈分布随模型迭代动态调整。

2.4 推理阶段自反馈

DPO对齐后的模型可同时作为策略模型和奖励模型,奖励函数定义为:
在这里插入图片描述
其中β为控制与基准策略偏离程度的参数,y为响应token序列。为解决短响应偏好偏见,通过归一化处理得到最终奖励分数:
r(y)=βTlogπθ(y)πref(y)r(y)=\frac{\beta}{T} log \frac{\pi_{\theta}(y)}{\pi_{ref }(y)}r(y)=Tβlogπref(y)πθ(y)
推理时采用最佳N选择(BoN)策略,从多个采样响应中选择奖励分数最高的作为模型输出,并通过核采样提升候选响应多样性。

3. 实验

3.1 实验设置

  • 模型:以LLaVA 1.5 7B为基准模型,LLaVA-NeXT 34B为标注模型;极端场景下采用OmniLMM 12B同时作为基准模型和标注模型;
  • 训练数据:来自MSCOCO、ShareGPT-4V等多个数据集,包含图像描述、视觉问答等多种任务;
  • 评估基准:可信度评估采用Object HalBench、MMHal-Bench等五个基准,有用性评估采用MMStar基准;
  • 基线模型:包括通用多模态模型(如LLaVA 1.5、Qwen-VL-Chat)、反馈学习模型(如RLHF-V、Silkie)、无反馈幻觉抑制模型(如VCD、OPERA)及专有模型GPT-4V。

3.2 主要结果

  • 可信度超越:RLAIF-V在开源模型中实现最先进的可信度性能,甚至超越GPT-4V。LLaVA 1.5 7B经RLAIF-V优化后,Object HalBench物体幻觉率降低80.7%;RLAIF-V 12B在MHumanEval的整体幻觉率仅为35.6%,大幅超越GPT-4V;
  • 有用性保持:在提升可信度的同时,模型在MMStar基准的有用性分数较基准模型显著提升,证明RLAIF-V不会牺牲其他任务性能;
  • 自对齐潜力:OmniLMM 12B作为自标注模型时,仍实现显著的幻觉抑制,在多个基准上超越GPT-4V,展现开源模型自对齐的可行性;
  • 推理优化:通过自反馈的BoN策略,RLAIF-V 7B和12B的可信度进一步提升,验证了推理阶段自反馈的有效性。
    在这里插入图片描述
    本研究从不同粒度维度报告幻觉率,包括响应级(Rsp.)与提及级(Men.)。表中缩写说明:MHum. 代表 MHumanEval 基准,Hall. 代表幻觉率,Trust. 代表可信度胜率,Win. 代表综合胜率。最优结果以粗体标注。 关于 BoN(最佳 N 选择)策略的说明:在 RLAIF-V 7B 和 RLAIF-V 12B 模型中应用自反馈机制执行 BoN 策略时,为控制评估成本,我们分别采样 32 个和 16 个候选样本。N/A 表示:由于选择题和是非题仅需输出单个词元(token),因此无 BoN 策略对应的实验结果。

3.3 消融实验

  • 去混淆策略:移除该策略后,模型在Object HalBench和AMBER基准的性能显著下降,证明其能有效提升学习效率;
    在这里插入图片描述
    不同响应生成方法的实验结果 ObjHal.:物体幻觉基准测试(Object HalBench)
  • 分而治之策略:与直接整体评估相比,该策略生成的反馈数据人类一致性更高(96.7% vs 66.7%),模型性能更优,且反馈质量可媲美GPT-4V生成的反馈。

在这里插入图片描述
ObjHal. 代表物体幻觉基准测试(Object HalBench);smaller labeler 指代 OmniLMM 12B 模型;Agree. 代表所构建偏好样本对的人类一致性(Human agreement);d&c 代表分而治之策略(divide-and-conquer strategy)。VL-Feedback 方法指从 GPT-4V 中获取高质量反馈

3.4 分析

  • 兼容性:RLAIF-V可与HA-DPO的启发式反馈、RLHF-V的人工反馈互补,进一步提升模型可信度;
    在这里插入图片描述
    RLAIF-V 与其他反馈结合的实验结果。本图针对生成式可信度,报告了在物体幻觉基准测试(Object HalBench)上的响应级无幻觉率

  • 泛化性:RLAIF-V 12B生成的反馈数据可有效降低LLaVA 1.5 7B/13B、MiniCPM-V等其他多模态模型的幻觉率,展现良好的跨模型泛化性;
    在这里插入图片描述
    利用 RLAIF-V 12B 第一轮训练迭代产生的数据,对其他多模态大语言模型(MLLMs)的幻觉抑制效果。在物体幻觉基准测试(Object HalBench)上,我们报告了针对生成式幻觉的响应级幻觉率降低幅度;在 AMBER 基准上,我们报告了针对判别式幻觉的错误率降低幅度。

  • 推理提升:RLAIF-V奖励机制在不同开源模型上均能持续提升生成可信度,且长度归一化策略有效解决了短响应偏好问题。
    在这里插入图片描述
    不同模型在推理阶段的性能扩展效果。我们在物体幻觉基准测试(Object HalBench)上,报告了用于评估生成式可信度的响应级无幻觉率。Reference PPL(基准困惑度):指使用 OmniLMM 模型计算得到的困惑度。

4. 相关工作

  • 反馈学习:PPO是早期主流对齐方法,DPO简化了训练流程但存在分布偏移问题,RLAIF-V通过迭代反馈解决该问题;
  • 多模态反馈收集:早期依赖人工标注或专有模型,RLAIF-V首次实现全开源设置下的高质量反馈收集;
  • 无反馈幻觉抑制:通过视觉对比解码、EOS决策优化等方法降低幻觉,但效果不及基于反馈的学习方法。

5. 结论

RLAIF-V框架通过开源AI反馈显著提升了多模态大语言模型的可信度,其去混淆采样和分而治之策略优化了反馈的效率和质量,自反馈引导实现了推理阶段的性能提升。该框架生成的反馈具有良好的泛化性,可适配多种开源模型。未来将探索更复杂的反馈形式,以提升模型的逻辑推理和复杂任务处理能力。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐