论文Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains

这篇工作的核心亮点在于Agentic Environment 的可扩展性（agentic env scaling）：如何在缺乏结构化答案、标注成本高、领域多样化的复杂环境中，高效构建可靠的强化学习奖励信号，从而让小模型（7B）通过RL获得远超大模型的推理能力。

阿正的梦工坊

697人浏览 · 2025-12-30 17:38:17

阿正的梦工坊 · 2025-12-30 17:38:17 发布

跨越奖励鸿沟：RLVR 如何在多领域 Agentic 环境中实现高效扩展

最近，腾讯AI Lab发布了一篇重磅论文《Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains》（arXiv:2503.23829v2），首次将Reinforcement Learning with Verifiable Rewards（RLVR） 从传统的数学和编程领域，成功扩展到医学、化学、心理学、经济学、教育等广泛的真实世界领域，并在自由格式（free-form）回答场景下显著超越了Qwen2.5-72B-Instruct和DeepSeek-R1-Distill-Qwen-32B等SOTA开源对齐模型。

这篇工作的核心亮点在于Agentic Environment 的可扩展性（agentic env scaling）：如何在缺乏结构化答案、标注成本高、领域多样化的复杂环境中，高效构建可靠的强化学习奖励信号，从而让小模型（7B）通过RL获得远超大模型的推理能力。

这篇文章到底解决了什么问题？

传统RLVR（如GRPO、DeepSeekMath、Math-Shepherd等）之所以成功，主要依赖两点：

答案高度结构化（如数学最终答案是数字，代码可以通过单元测试验证）；
可以用简单规则（rule-based verifier）给出可靠的二元奖励（对/错）。

但在真实世界中，大多数推理任务的参考答案是自由格式的长文本（例如医学诊断解释、经济学分析、心理学案例讨论），无法用规则精确匹配。这导致：

二元奖励难以实现（只有约45%的多领域问题能用规则验证）；
传统RLVR无法扩展到更广泛的agentic环境；
奖励模型训练通常需要海量领域特定标注，成本极高。

论文的核心问题就是：如何在多领域、自由格式、无结构化答案的agentic环境中，实现可验证、可扩展、高效的强化学习？

核心方法：生成式软奖励 + 跨领域奖励模型蒸馏

作者提出了一个全新的RLVR框架，关键创新点有三：

生成式软奖励（Generative Soft Rewards）
放弃传统的二元奖励（0/1），改用生成式验证器（generative verifier）输出软分数。具体做法是：
- 让验证器LLM在看到问题、参考答案、模型输出后，只生成一个token：“1”（正确）或“0”（错误）；
- 软奖励取该token的概率：如果输出“1”，奖励为P(1)；如果输出“0”，奖励为1-P(0)；
- 这样既保留了可验证性，又提供了更细粒度的信号，尤其适合自由格式答案（部分正确也能给部分奖励）。
无需大量标注的跨领域奖励模型训练
传统训练奖励模型需要人工标注偏好对或step-by-step rationale。作者用了一种极简高效的蒸馏方式：
- 用大模型（Qwen2.5-72B-Instruct）作为“教师”给出硬判断（0/1）；
- 在RL探索阶段，让7B actor生成多样化响应，收集{(问题, 参考答案, 响应, 教师判断)}四元组；
- 用这些带噪声但真实的样本，监督微调一个小模型（Qwen2.5-7B），得到跨领域生成式奖励模型；
- 整个过程只用了160k样本，且无需任何人工标注rationale。
奖励归一化 + KL惩罚
使用z-score归一化奖励，并加入轻量KL惩罚（β=0.01），保证训练稳定，避免模型崩坏。

数据构造：大规模真实考试题 + 自由格式参考答案

这是这篇工作能实现agentic env scaling的关键基础。

数学数据集
- 773k中文教育网站真实考试题（小学、初中、高中），带有专家撰写的自由格式参考答案（平均长度30~50+词）；
- 远比GSM8K/MATH更真实、更长、更无结构。
多领域数据集（ExamQA）
- 638k大学级多科目选择题（覆盖48个一级学科），去除选项后转为自由问答；
- 答案由考试专家撰写，客观性极高；
- 覆盖医学、化学、心理学、经济学、计算机、管理、法学等，分布广泛（见论文Figure 2）。

所有数据均通过GPT-4o-mini翻译成英文，确保实验可复现。作者还公开了570k多领域自由格式数据和训练好的奖励模型（Hugging Face链接在论文中）。

最核心：Agentic Environment 是如何搭建的？

这篇工作的agentic env scaling，核心在于构建了一个低成本、高一致性、可跨领域的奖励环境：

环境组成：
- Prompt（x）：真实考试题；
- Reference Answer（a）：专家撰写的自由格式答案（客观ground truth）；
- Response（y）：actor模型生成；
- Reward：生成式验证器基于(x, a, y)给出软奖励。
奖励信号的高一致性：
- 作者验证了不同LLM（GPT-4o vs Qwen2.5-72B）在有参考答案时的判断一致性极高（Cohen’s Kappa > 0.88），说明“有参考答案的验证”远比“无参考答案的判断”可靠且容易。
环境扩展性（Scaling）：
- 因为奖励判断高度一致 + 生成式软奖励鲁棒性强，环境可以轻松扩展到新领域，只要有专家参考答案即可；
- 不依赖规则匹配，也不依赖大量人工标注，极大降低了构建多领域agentic环境的门槛。
训练流程（三阶段，如论文Figure 1所示）：
- Step 1：用教师大模型蒸馏生成奖励模型训练数据；
- Step 2：训练7B跨领域生成式奖励模型；
- Step 3：用该奖励模型对7B actor进行RL（REINFORCE / RLOO / REINFORCE++）。