论文Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains
这篇工作的核心亮点在于Agentic Environment 的可扩展性(agentic env scaling):如何在缺乏结构化答案、标注成本高、领域多样化的复杂环境中,高效构建可靠的强化学习奖励信号,从而让小模型(7B)通过RL获得远超大模型的推理能力。
跨越奖励鸿沟:RLVR 如何在多领域 Agentic 环境中实现高效扩展
最近,腾讯AI Lab发布了一篇重磅论文《Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains》(arXiv:2503.23829v2),首次将Reinforcement Learning with Verifiable Rewards(RLVR) 从传统的数学和编程领域,成功扩展到医学、化学、心理学、经济学、教育等广泛的真实世界领域,并在自由格式(free-form)回答场景下显著超越了Qwen2.5-72B-Instruct和DeepSeek-R1-Distill-Qwen-32B等SOTA开源对齐模型。
这篇工作的核心亮点在于Agentic Environment 的可扩展性(agentic env scaling):如何在缺乏结构化答案、标注成本高、领域多样化的复杂环境中,高效构建可靠的强化学习奖励信号,从而让小模型(7B)通过RL获得远超大模型的推理能力。
这篇文章到底解决了什么问题?
传统RLVR(如GRPO、DeepSeekMath、Math-Shepherd等)之所以成功,主要依赖两点:
- 答案高度结构化(如数学最终答案是数字,代码可以通过单元测试验证);
- 可以用简单规则(rule-based verifier)给出可靠的二元奖励(对/错)。
但在真实世界中,大多数推理任务的参考答案是自由格式的长文本(例如医学诊断解释、经济学分析、心理学案例讨论),无法用规则精确匹配。这导致:
- 二元奖励难以实现(只有约45%的多领域问题能用规则验证);
- 传统RLVR无法扩展到更广泛的agentic环境;
- 奖励模型训练通常需要海量领域特定标注,成本极高。
论文的核心问题就是:如何在多领域、自由格式、无结构化答案的agentic环境中,实现可验证、可扩展、高效的强化学习?
核心方法:生成式软奖励 + 跨领域奖励模型蒸馏
作者提出了一个全新的RLVR框架,关键创新点有三:
-
生成式软奖励(Generative Soft Rewards)
放弃传统的二元奖励(0/1),改用生成式验证器(generative verifier)输出软分数。具体做法是:- 让验证器LLM在看到问题、参考答案、模型输出后,只生成一个token:“1”(正确)或“0”(错误);
- 软奖励取该token的概率:如果输出“1”,奖励为P(1);如果输出“0”,奖励为1-P(0);
- 这样既保留了可验证性,又提供了更细粒度的信号,尤其适合自由格式答案(部分正确也能给部分奖励)。
-
无需大量标注的跨领域奖励模型训练
传统训练奖励模型需要人工标注偏好对或step-by-step rationale。作者用了一种极简高效的蒸馏方式:- 用大模型(Qwen2.5-72B-Instruct)作为“教师”给出硬判断(0/1);
- 在RL探索阶段,让7B actor生成多样化响应,收集{(问题, 参考答案, 响应, 教师判断)}四元组;
- 用这些带噪声但真实的样本,监督微调一个小模型(Qwen2.5-7B),得到跨领域生成式奖励模型;
- 整个过程只用了160k样本,且无需任何人工标注rationale。
-
奖励归一化 + KL惩罚
使用z-score归一化奖励,并加入轻量KL惩罚(β=0.01),保证训练稳定,避免模型崩坏。
数据构造:大规模真实考试题 + 自由格式参考答案
这是这篇工作能实现agentic env scaling的关键基础。
-
数学数据集
- 773k中文教育网站真实考试题(小学、初中、高中),带有专家撰写的自由格式参考答案(平均长度30~50+词);
- 远比GSM8K/MATH更真实、更长、更无结构。
-
多领域数据集(ExamQA)
- 638k大学级多科目选择题(覆盖48个一级学科),去除选项后转为自由问答;
- 答案由考试专家撰写,客观性极高;
- 覆盖医学、化学、心理学、经济学、计算机、管理、法学等,分布广泛(见论文Figure 2)。
所有数据均通过GPT-4o-mini翻译成英文,确保实验可复现。作者还公开了570k多领域自由格式数据和训练好的奖励模型(Hugging Face链接在论文中)。
最核心:Agentic Environment 是如何搭建的?
这篇工作的agentic env scaling,核心在于构建了一个低成本、高一致性、可跨领域的奖励环境:
-
环境组成:
- Prompt(x):真实考试题;
- Reference Answer(a):专家撰写的自由格式答案(客观ground truth);
- Response(y):actor模型生成;
- Reward:生成式验证器基于(x, a, y)给出软奖励。
-
奖励信号的高一致性:
- 作者验证了不同LLM(GPT-4o vs Qwen2.5-72B)在有参考答案时的判断一致性极高(Cohen’s Kappa > 0.88),说明“有参考答案的验证”远比“无参考答案的判断”可靠且容易。
-
环境扩展性(Scaling):
- 因为奖励判断高度一致 + 生成式软奖励鲁棒性强,环境可以轻松扩展到新领域,只要有专家参考答案即可;
- 不依赖规则匹配,也不依赖大量人工标注,极大降低了构建多领域agentic环境的门槛。
-
训练流程(三阶段,如论文Figure 1所示):
- Step 1:用教师大模型蒸馏生成奖励模型训练数据;
- Step 2:训练7B跨领域生成式奖励模型;
- Step 3:用该奖励模型对7B actor进行RL(REINFORCE / RLOO / REINFORCE++)。

最终结果:7B模型在多领域自由格式任务上,准确率提升最高达8%,全面超越72B和32B的SOTA对齐模型。
总结:对Agentic RL的深远意义
这篇论文真正“跨越了奖励鸿沟”,证明了:
- RLVR不再局限于数学/编程,而是可以扩展到几乎所有有客观参考答案的推理领域;
- 通过生成式软奖励 + 蒸馏式奖励模型,小模型也能在复杂agentic环境中实现高效强化学习;
- 构建多领域、高质量、可验证的RL环境,成本远低于想象。
这为未来构建通用agentic系统(例如科学助手、医疗诊断agent、教育辅导agent)提供了全新的、可落地的技术路径。强烈推荐关注RLVR方向的同学阅读原文,并尝试复现他们公开的数据和模型!
论文链接:https://arxiv.org/abs/2503.23829
数据&模型:https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f
后记
2025年12月30日于上海。在grok fast辅助下完成。
更多推荐



所有评论(0)