Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation
阅读日期:2026-03-27。
·
中文阅读理解笔记
阅读日期:2026-03-27
📄 基本信息
- 标题: Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation
- 机构: NVIDIA
- 模型: Nemotron-Cascade-2-30B-A3B (30B MoE,激活 3B 参数)
- 领域: LLM 后训练、强化学习、数学推理、代码生成
🎯 核心成果
突破性性能
Nemotron-Cascade-2-30B-A3B 是一个开源的 30B MoE 模型(激活 3B 参数),尽管体积紧凑,却实现了:
| 竞赛 | 成绩 | 意义 |
|---|---|---|
| IMO 2025 (国际数学奥林匹克) | 金牌 (35/42 分) | 全球第二开源模型达成 |
| IOI 2025 (国际信息学奥林匹克) | 金牌 (439.28/600) | 全球第二开源模型达成 |
| ICPC World Finals 2025 | 金牌 (10/12 题) | 全球第四团队 |
关键亮点:
- 用20 倍更少参数达到顶尖闭源模型(如 Gemini Deep Think)和超大开源模型(如 DeepSeek-Math-V2-671B)的水平
- 第二个实现 IMO+IOI 双金牌的开源权重 LLM(第一个是 DeepSeek-V3.2-Speciale-671B-A37B)
💡 核心技术改进
与 Nemotron-Cascade 1 的对比
Nemotron-Cascade 1 → Nemotron-Cascade 2
三大改进:
-
大幅扩展 Cascade RL 范围
- 覆盖更广泛的推理和智能体领域
- 包括:指令跟随、STEM 推理、长上下文、代码、软件工程智能体
-
引入多域在线策略蒸馏 (MOPD)
- 在 Cascade RL 过程中,从每个领域的最强中间教师模型蒸馏知识
- 有效恢复基准性能回退,同时保持性能提升
-
多域联合 RL 训练
- 对响应格式相似、验证成本相当的任务组进行联合训练
- 在跨任务干扰最小的情况下扩展更多 RL 环境
🔄 训练框架
完整训练流程
Base Model (Nemotron-3-Nano-30B-A3B)
↓
[1] SFT (监督微调)
↓
[2] IF-RL (指令跟随 RL) ← 第一阶段
↓
[3] 多域 RL (STEM+ 工具调用 + 结构化输出)
↓
[4] MOPD (多域在线策略蒸馏) ← 关键创新
↓
[5] RLHF (人类反馈 RL)
↓
[6] 长上下文 RL
↓
[7] Code RL (竞赛代码)
↓
[8] SWE RL (软件工程智能体)
↓
Nemotron-Cascade-2-30B-A3B
核心创新:MOPD(多域在线策略蒸馏)
问题背景:
- Cascade RL 虽减少灾难性遗忘,但随着训练环境增加仍会出现能力漂移
- 某些 RL 训练会减少模型熵、缩短推理链,负面影响数学推理
- RLHF 优化可能以指令跟随为代价
MOPD 解决方案:
从 Cascade RL 流水线中选择各领域的最强检查点作为教师
↓
学生模型采样响应
↓
选择对应领域的教师进行 token 级蒸馏
↓
优化目标:让教师更喜欢的 token 概率更高
MOPD 优势:
- 教师来源方便:直接从 Cascade RL 流水线中按领域选择最强检查点
- 分布偏移小:教师和学生共享相同的 token 化和词表(同一 SFT 初始化)
- 训练效率高:提供密集的 token 级优势信号,相比稀疏的序列级奖励更高效
效率对比(Table 3):
| 方法 | Steps | ArenaHard Hard Prompt | ArenaHard 创意写作 |
|---|---|---|---|
| 初始 | 0 | 71.5 | 40.6 |
| RLHF | 160 | 80.7 | 71.2 |
| MOPD | 52 | 85.5 ↑ | 71.0 ↑ |
结论:MOPD 在更少步骤内达到更强的性能
📊 主要实验结果
Table 1:全面基准测试(核心结果)
数学推理
| 基准 | Nemotron-Cascade-2-30B | Qwen3.5-35B | DeepSeek-Math-V2-671B |
|---|---|---|---|
| IMO 2025 | 35 pts (金牌) | - | - |
| IMO AnswerBench | 79.3 | 74.8 | 77.2 |
| IMO Proof Bench | 72.9 | - | 72.9 |
| AIME 2025 | 92.4 (98.6†) | 91.9 | 90.2 |
| AIME 2026 | 90.9 (95.0†) | 91.1 | 89.8 |
| HMMT Feb25 | 94.6 | 89.0 | 93.7 |
† 工具集成推理 (TIR) 结果
代码推理
| 基准 | Nemotron-Cascade-2-30B | Qwen3.5-35B | Kimi-K2.5-1T-397B |
|---|---|---|---|
| IOI 2025 | 439.28 (金牌) | - | - |
| ICPC WF 2025 | 10/12 (金牌) | - | - |
| LiveCodeBench v6 | 87.2 (88.4†) | 74.6 | 83.6 |
| LiveCodeBench Pro 25Q2 Easy | 87.0 (89.3†) | 81.1 | 81.7 |
| LiveCodeBench Pro 25Q2 Med | 27.6 (36.8†) | 17.8 | 23.2 |
对齐与指令跟随
| 基准 | Nemotron-Cascade-2-30B | Qwen3.5-35B |
|---|---|---|
| ArenaHard v2 (平均) | 83.5 | 65.4 |
| IFBench (prompt) | 82.9 | 70.2 |
| Scale AI Multi-Challenge | 45.3 | 60.0 |
长上下文
| 基准 | Nemotron-Cascade-2-30B | Qwen3.5-35B |
|---|---|---|
| AA-LCR | 39.1 | 58.5 |
| LongBench v2 | 40.3 | 59.0 |
| NIAH@1M (RULER) | 99.0 | 94.3 |
| CL-Bench | 12.2 | 15.5 |
Table 2:三大竞赛详细成绩
| 竞赛 | 题目 | 得分 | 奖牌 |
|---|---|---|---|
| IMO 2025 | P1-P6 | 35/42 | 金牌 |
| IOI 2025 | P1-P6 | 439.28/600 | 金牌 |
| ICPC WF 2025 | A-L | 10/12 | 金牌 |
🔑 核心洞察
1. 小模型可以实现顶级推理能力
- 30B MoE (激活 3B) 达到了 671B 模型(DeepSeek-Math-V2)和顶级闭源模型的水平
- 证明训练方法和数据质量比单纯的参数规模更重要
- 智能体密度(intelligence density)极高
2. Cascade RL 顺序设计至关重要
设计原则:
- 缓解领域间干扰:找出最小化负面干扰的顺序
- 识别基础先验 vs 专业细化:哪些任务作为基础,哪些作为细化
- MOPD 作为稳定点:在领域间能力漂移时恢复平衡
IF-RL 作为第一阶段的理由:
- IF-RL 可能负面影响人类对齐能力(如 ArenaHard)
- 但后续 RLHF 对指令跟随影响很小
- 优先最大化指令跟随,后续恢复对齐能力
- 早期 IF-RL 产生更好的教师用于 MOPD
3. 在线蒸馏 vs 传统 RL
| 维度 | GRPO (传统 RL) | MOPD (在线蒸馏) |
|---|---|---|
| 奖励信号 | 稀疏序列级 | 密集 token 级 |
| 样本效率 | 低 | 高 |
| 收敛步数 | 需要更多 | 需要更少 |
| 实现复杂度 | 高(需环境验证) | 低(教师评分) |
4. 测试时扩展 (Test-Time Scaling) 的重要性
IMO 2025 解决方案:
- 使用 self-improving framework(generate-verify-refine)
- 迭代生成候选解 → 验证 → 优化
- 最多 40×50 = 2000 次模型生成
- 第 2 题仅用 5 轮(200 次生成)就达到 86+ 分
IMO-Proof Bench(Figure 4):
- 1 轮:40.7 分
- 5 轮:53.4 分
- 逐步逼近 DeepSeek-Math-V2
⚠️ 局限性
1. 知识和智能体任务表现不足
- MMLU-Pro:79.8 vs Qwen3.5-35B 的 85.3
- GPQA-Diamond:76.1 vs Qwen3.5-35B 的 84.2
- SWE Verified:50.2 vs Qwen3.5-35B 的 69.2
原因:
- 知识密集型预训练较弱
- 智能体 RL 需要加强
2. 长上下文基准有差距
- 多项长上下文基准低于 Qwen3.5-35B
- 尽管 NIAH@1M 达到 99.0
3. 多语言性能略低
- MMLU-ProX:72.5 vs Qwen3.5-35B 的 81.0
- WMT24++:84.1 vs Qwen3.5-35B 的 87.6
4. 推理效率问题
- 专家审查发现某些证明过长,包含多余中间步骤
- 偶尔暴露中间推理痕迹
- 偶尔存在拼写错误
📝 思考与启发
对 LLM 后训练的启示
- 领域顺序设计:Cascade RL 的顺序不是固定的,需要根据模型行为动态调整
- 在线蒸馏的价值:在复杂 RL 环境中,MOPD 可以作为稳定点恢复性能
- 数据质量优先:精心策划的 SFT 数据比单纯的参数规模更重要
- 测试时扩展:生成 - 验证 - 优化框架显著提升难题解决能力
可能的扩展方向
- 知识增强预训练:改进知识密集型任务的预训练数据
- 智能体 RL 扩展:加强软件工程、终端等智能体任务
- 多语言优化:扩展多语言 RL 训练
- 效率优化:减少证明长度,优化推理效率
开源贡献
完全开源:
- ✅ 模型权重
- ✅ 训练数据(SFT + RL)
- ✅ 方法细节
资源位置:
- 模型:NVIDIA Nemotron 系列开源仓库
- 数据:Nemotron-Cascade-2-SFT-Data, Nemotron-Cascade-2-RL-Data
🏆 关键里程碑
双金牌成就的意义
历史对比:
| 模型 | 参数 | IMO | IOI | ICPC WF |
|---|---|---|---|---|
| Nemotron-Cascade-2 | 30B (3B 激活) | ✅ 金牌 | ✅ 金牌 | ✅ 金牌 |
| DeepSeek-Math-V2 | 671B (37B 激活) | ✅ 金牌 | ❌ | ❌ |
| Gemini Deep Think | 闭源 | ✅ 金牌 | ✅ 金牌 | ❌ |
突破性:
- 首次有 30B 级别模型在 IMO+IOI 双竞赛中获金牌
- 参数效率是 DeepSeek-Math-V2 的20 倍
- 证明MoE 架构 + 精心设计的 RL可以超越大参数稠密模型
🔗 代码与资源
- arXiv: https://arxiv.org/abs/2603.19220
- HTML 版本: https://arxiv.org/html/2603.19220v2
- 模型与数据 (HuggingFace): https://huggingface.co/collections/nvidia/nemotron-cascade-2
- IMO 2025 完整解答: Appendix E
- Prompt 模板: Appendix C
📌 关键术语
| 术语 | 解释 |
|---|---|
| Cascade RL | 级联强化学习,按领域顺序进行 RL 训练 |
| MOPD | 多域在线策略蒸馏,从各领域的教师模型蒸馏知识 |
| IMO 2025 | 2025 年国际数学奥林匹克竞赛 |
| IOI 2025 | 2025 年国际信息学奥林匹克竞赛 |
| ICPC WF | ICPC 世界总决赛 |
| TIR | Tool-Integrated Reasoning,工具集成推理 |
| MoE | Mixture of Experts,混合专家模型 |
更多推荐

所有评论(0)