20260113论文阅读记录《强化学习:GDPO》和《视频推理:VideoAuto-R1》
强化学习
GDPO:面向多奖励强化学习优化的分组奖励解耦归一化策略优化
这篇论文摘要探讨了**大语言模型(LLM)强化学习(RL)**中的一个前沿且具体的技术问题:如何在“多奖励(Multi-Reward)”场景下有效地优化模型策略。
简单来说,作者发现目前流行的方法(GRPO)在处理多个不同的奖励信号时存在严重的数学缺陷,导致训练效果不好。为此,他们提出了一种改进方法(GDPO)。
以下是对该摘要的详细深度解读:
1. 研究背景:由于需求复杂,强化学习需要“多奖励”
-
现状: 随着LLM越来越强,我们对它的要求不仅是“答对问题”(准确性),还要求它“行为得体”(例如:格式规范、语气正确、长度适中、无害性等)。
-
方法: 为了实现这些多重目标,研究人员在RL流水线(如RLHF或RLAIF)中引入了多种奖励信号。
-
例子: 训练一个数学模型,可能有一个奖励是“答案正确性(Accuracy Reward)”,另一个奖励是“解题步骤格式清晰度(Format Reward)”。
-
-
目的: 希望模型能同时最大化这些不同的奖励,从而兼顾各个方面的偏好。
2. 核心问题:GRPO 在多奖励场景下的“水土不服”
-
当前的“版本答案”: GRPO (Group Relative Policy Optimization) 是近期非常流行的策略优化算法(DeepSeek-Math 等工作曾使用类似思想)。它的核心思想是:对于同一个问题,生成一组回答(Group),比较这组回答的优劣,而不是依赖一个额外的价值模型(Critic Model)来打分,从而节省计算资源。
-
发现的缺陷: 作者指出,虽然GRPO在单奖励下表现很好,但当研究人员直接把多个奖励加在一起(或组合)扔给GRPO处理时,会出现问题。
-
数学机制失效: 当对组合后的奖励进行**归一化(Normalization)处理时,不同奖励组合计算出的优势值(Advantage Values)**会变得非常趋同(Identical)。
-
后果:
-
信号模糊: 模型分不清哪个回答是因为“格式好”得分高,哪个是因为“答案对”得分高。训练信号失去了“分辨能力”。
-
次优收敛: 模型学不到最好的策略,只能达到一个普通的水平。
-
训练失败: 在某些情况下,甚至会导致模型训练崩溃。
-
-
3. 提出的解决方案:GDPO (Group reward-Decoupled Normalization Policy Optimization)
为了解决上述问题,作者提出了 GDPO,全称是“群体奖励解耦归一化策略优化”。
-
核心创新:解耦归一化(Decoupled Normalization)
-
GRPO的做法(错误): 先把所有奖励加起来变成一个总分,然后对总分进行归一化。这会掩盖单一奖励的特性。
-
GDPO的做法(正确):
-
先把每一种奖励信号(如准确性、格式、长度)单独拿出来。
-
对每种奖励分别进行归一化处理(计算各自的相对优势)。
-
最后再将处理后的归一化值组合起来用于更新策略。
-
-
-
优势: 这样做保留了每个奖励信号内部的相对差异(Relative Differences)。模型能更清晰地接收到来自不同维度的反馈信号,知道自己在哪个具体方面做得好或不好。
4. 实验验证与结果
作者在三个高难度任务上进行了对比测试:
-
工具调用(Tool Calling): 考察API使用的准确度。
-
数学推理(Math Reasoning): 考察逻辑和算数。
-
代码推理(Code Reasoning): 考察编程能力。
评估指标:
-
正确性: 准确率、错误率。
-
约束遵循性: 格式是否合规、长度是否符合要求。
结论:
-
在所有实验中,GDPO 均优于 GRPO。
-
证明了GDPO在处理多目标优化时的有效性和通用性,能让模型更稳定地训练,并同时满足多种偏好。
总结(一句话省流)
目前的流行算法(GRPO)在处理“既要答案对、又要格式好”这种多目标训练时,因为把分算混了(归一化问题)导致效果不好;这篇论文提出的 GDPO 通过分开算分再组合(解耦归一化),成功解决了这个问题,让模型训练得更好、更稳定。
视频理解、推理
VideoAuto-R1:通过一次思考,两次作答实现视频自动推理
Abstract
思维链(Chain-of-Thought, CoT)推理已成为多模态大语言模型在视频理解任务中的一项有力工具。然而,其相对于直接作答的必要性与优势尚未得到充分探讨。本文首先表明,对于经过强化学习(RL)训练的视频模型而言,尽管CoT推理在计算成本上更高,且能够生成逐步分析过程,但直接作答往往能达到甚至超越CoT的性能表现。受此启发,我们提出VideoAuto-R1——一种基于“按需推理”策略的视频理解框架。在训练阶段,该方法采用“一次思考,两次作答”的范式:模型首先生成初始答案,随后进行推理过程,最终输出经过审校的修订答案。两个答案均通过可验证的奖励信号进行监督。在推理阶段,模型根据初始答案的置信度分数,自动判断是否需要启动推理流程。在多个视频问答(Video QA)与视频定位(grounding)基准测试中,VideoAuto-R1实现了当前最优的准确率,同时显著提升了运行效率,平均响应长度减少约3.3倍(例如,从149个token降至仅44个token)。此外,我们观察到:在以感知为主的任务中,模型激活“推理模式”的频率较低;而在需要深度推理的任务中,该模式的使用率则明显提高。这一现象表明,显式的语言化推理在大多数情况下具有实际益处,但并非在所有场景下都为必要。
一句话总结
Meta AI、KAUST 和普林斯顿大学提出 VideoAuto-R1,一种视频理解框架,采用“思考一次,回答两次”的范式,模型先生成初始答案,再进行有依据的复核,两者均通过可验证奖励进行监督。推理时,基于置信度的早期退出机制动态激活推理,仅在必要时进行,使平均响应长度减少 3.3 倍,同时在视频问答和定位基准测试中达到最先进准确率,表明显式推理虽有益,但并非总是必需。
主要贡献
- 现有的视频理解链式思维(CoT)方法通常带来高昂的计算成本,且并未持续提升准确率,因为强化学习训练的模型在感知导向任务中常能通过直接回答达到相当或更优性能。
- 本文提出 VideoAuto-R1,一种“思考一次,回答两次”的框架,训练模型先生成初始答案,再进行推理并输出修正答案,两者均通过可验证奖励监督,实现高效、自适应推理,无需显式“思考/不思考”标签。
- 在视频问答和定位基准测试中,VideoAuto-R1 达到最先进准确率,同时平均响应长度减少约 3.3 倍(从 149 降至 44 个 token),推理时基于置信度的早期退出机制可动态决定是否仅输出直接答案,仅在必要时激活推理。
更多推荐


所有评论(0)