跨越奖励鸿沟:RLVR 如何在多领域 Agentic 环境中实现高效扩展

最近,腾讯AI Lab发布了一篇重磅论文《Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains》(arXiv:2503.23829v2),首次将Reinforcement Learning with Verifiable Rewards(RLVR) 从传统的数学和编程领域,成功扩展到医学、化学、心理学、经济学、教育等广泛的真实世界领域,并在自由格式(free-form)回答场景下显著超越了Qwen2.5-72B-Instruct和DeepSeek-R1-Distill-Qwen-32B等SOTA开源对齐模型。

这篇工作的核心亮点在于Agentic Environment 的可扩展性(agentic env scaling):如何在缺乏结构化答案、标注成本高、领域多样化的复杂环境中,高效构建可靠的强化学习奖励信号,从而让小模型(7B)通过RL获得远超大模型的推理能力。

这篇文章到底解决了什么问题?

传统RLVR(如GRPO、DeepSeekMath、Math-Shepherd等)之所以成功,主要依赖两点:

  1. 答案高度结构化(如数学最终答案是数字,代码可以通过单元测试验证);
  2. 可以用简单规则(rule-based verifier)给出可靠的二元奖励(对/错)。

但在真实世界中,大多数推理任务的参考答案是自由格式的长文本(例如医学诊断解释、经济学分析、心理学案例讨论),无法用规则精确匹配。这导致:

  • 二元奖励难以实现(只有约45%的多领域问题能用规则验证);
  • 传统RLVR无法扩展到更广泛的agentic环境;
  • 奖励模型训练通常需要海量领域特定标注,成本极高。

论文的核心问题就是:如何在多领域、自由格式、无结构化答案的agentic环境中,实现可验证、可扩展、高效的强化学习?

核心方法:生成式软奖励 + 跨领域奖励模型蒸馏

作者提出了一个全新的RLVR框架,关键创新点有三:

  1. 生成式软奖励(Generative Soft Rewards)
    放弃传统的二元奖励(0/1),改用生成式验证器(generative verifier)输出软分数。具体做法是:

    • 让验证器LLM在看到问题、参考答案、模型输出后,只生成一个token:“1”(正确)或“0”(错误);
    • 软奖励取该token的概率:如果输出“1”,奖励为P(1);如果输出“0”,奖励为1-P(0);
    • 这样既保留了可验证性,又提供了更细粒度的信号,尤其适合自由格式答案(部分正确也能给部分奖励)。
  2. 无需大量标注的跨领域奖励模型训练
    传统训练奖励模型需要人工标注偏好对或step-by-step rationale。作者用了一种极简高效的蒸馏方式:

    • 用大模型(Qwen2.5-72B-Instruct)作为“教师”给出硬判断(0/1);
    • 在RL探索阶段,让7B actor生成多样化响应,收集{(问题, 参考答案, 响应, 教师判断)}四元组;
    • 用这些带噪声但真实的样本,监督微调一个小模型(Qwen2.5-7B),得到跨领域生成式奖励模型;
    • 整个过程只用了160k样本,且无需任何人工标注rationale。
  3. 奖励归一化 + KL惩罚
    使用z-score归一化奖励,并加入轻量KL惩罚(β=0.01),保证训练稳定,避免模型崩坏。

数据构造:大规模真实考试题 + 自由格式参考答案

这是这篇工作能实现agentic env scaling的关键基础。

  1. 数学数据集

    • 773k中文教育网站真实考试题(小学、初中、高中),带有专家撰写的自由格式参考答案(平均长度30~50+词);
    • 远比GSM8K/MATH更真实、更长、更无结构。
  2. 多领域数据集(ExamQA)

    • 638k大学级多科目选择题(覆盖48个一级学科),去除选项后转为自由问答;
    • 答案由考试专家撰写,客观性极高;
    • 覆盖医学、化学、心理学、经济学、计算机、管理、法学等,分布广泛(见论文Figure 2)。

所有数据均通过GPT-4o-mini翻译成英文,确保实验可复现。作者还公开了570k多领域自由格式数据和训练好的奖励模型(Hugging Face链接在论文中)。

最核心:Agentic Environment 是如何搭建的?

这篇工作的agentic env scaling,核心在于构建了一个低成本、高一致性、可跨领域的奖励环境

  1. 环境组成

    • Prompt(x):真实考试题;
    • Reference Answer(a):专家撰写的自由格式答案(客观ground truth);
    • Response(y):actor模型生成;
    • Reward:生成式验证器基于(x, a, y)给出软奖励。
  2. 奖励信号的高一致性

    • 作者验证了不同LLM(GPT-4o vs Qwen2.5-72B)在有参考答案时的判断一致性极高(Cohen’s Kappa > 0.88),说明“有参考答案的验证”远比“无参考答案的判断”可靠且容易。
  3. 环境扩展性(Scaling)

    • 因为奖励判断高度一致 + 生成式软奖励鲁棒性强,环境可以轻松扩展到新领域,只要有专家参考答案即可;
    • 不依赖规则匹配,也不依赖大量人工标注,极大降低了构建多领域agentic环境的门槛。
  4. 训练流程(三阶段,如论文Figure 1所示)

    • Step 1:用教师大模型蒸馏生成奖励模型训练数据;
    • Step 2:训练7B跨领域生成式奖励模型;
    • Step 3:用该奖励模型对7B actor进行RL(REINFORCE / RLOO / REINFORCE++)。

在这里插入图片描述

最终结果:7B模型在多领域自由格式任务上,准确率提升最高达8%,全面超越72B和32B的SOTA对齐模型。

总结:对Agentic RL的深远意义

这篇论文真正“跨越了奖励鸿沟”,证明了:

  • RLVR不再局限于数学/编程,而是可以扩展到几乎所有有客观参考答案的推理领域;
  • 通过生成式软奖励 + 蒸馏式奖励模型,小模型也能在复杂agentic环境中实现高效强化学习;
  • 构建多领域、高质量、可验证的RL环境,成本远低于想象。

这为未来构建通用agentic系统(例如科学助手、医疗诊断agent、教育辅导agent)提供了全新的、可落地的技术路径。强烈推荐关注RLVR方向的同学阅读原文,并尝试复现他们公开的数据和模型!

论文链接:https://arxiv.org/abs/2503.23829
数据&模型:https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f

后记

2025年12月30日于上海。在grok fast辅助下完成。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐