Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

阅读日期：2026-03-27。

eowyn0406

17人浏览 · 2026-03-27 17:34:16

eowyn0406 · 2026-03-27 17:34:16 发布

中文阅读理解笔记
阅读日期：2026-03-27

📄 基本信息

标题: Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation
机构: NVIDIA
模型: Nemotron-Cascade-2-30B-A3B (30B MoE，激活 3B 参数)
领域: LLM 后训练、强化学习、数学推理、代码生成

🎯 核心成果

突破性性能

Nemotron-Cascade-2-30B-A3B 是一个开源的 30B MoE 模型（激活 3B 参数），尽管体积紧凑，却实现了：

竞赛	成绩	意义
IMO 2025 (国际数学奥林匹克)	金牌 (35/42 分)	全球第二开源模型达成
IOI 2025 (国际信息学奥林匹克)	金牌 (439.28/600)	全球第二开源模型达成
ICPC World Finals 2025	金牌 (10/12 题)	全球第四团队

关键亮点：

用20 倍更少参数达到顶尖闭源模型（如 Gemini Deep Think）和超大开源模型（如 DeepSeek-Math-V2-671B）的水平
第二个实现 IMO+IOI 双金牌的开源权重 LLM（第一个是 DeepSeek-V3.2-Speciale-671B-A37B）

💡 核心技术改进

与 Nemotron-Cascade 1 的对比

Nemotron-Cascade 1 → Nemotron-Cascade 2

三大改进：

大幅扩展 Cascade RL 范围
- 覆盖更广泛的推理和智能体领域
- 包括：指令跟随、STEM 推理、长上下文、代码、软件工程智能体
引入多域在线策略蒸馏 (MOPD)
- 在 Cascade RL 过程中，从每个领域的最强中间教师模型蒸馏知识
- 有效恢复基准性能回退，同时保持性能提升
多域联合 RL 训练
- 对响应格式相似、验证成本相当的任务组进行联合训练
- 在跨任务干扰最小的情况下扩展更多 RL 环境

🔄 训练框架

完整训练流程

Base Model (Nemotron-3-Nano-30B-A3B)
       ↓
[1] SFT (监督微调)
       ↓
[2] IF-RL (指令跟随 RL) ← 第一阶段
       ↓
[3] 多域 RL (STEM+ 工具调用 + 结构化输出)
       ↓
[4] MOPD (多域在线策略蒸馏) ← 关键创新
       ↓
[5] RLHF (人类反馈 RL)
       ↓
[6] 长上下文 RL
       ↓
[7] Code RL (竞赛代码)
       ↓
[8] SWE RL (软件工程智能体)
       ↓
Nemotron-Cascade-2-30B-A3B

核心创新：MOPD（多域在线策略蒸馏）

问题背景：

Cascade RL 虽减少灾难性遗忘，但随着训练环境增加仍会出现能力漂移
某些 RL 训练会减少模型熵、缩短推理链，负面影响数学推理
RLHF 优化可能以指令跟随为代价

MOPD 解决方案：

从 Cascade RL 流水线中选择各领域的最强检查点作为教师
       ↓
学生模型采样响应
       ↓
选择对应领域的教师进行 token 级蒸馏
       ↓
优化目标：让教师更喜欢的 token 概率更高

MOPD 优势：

教师来源方便：直接从 Cascade RL 流水线中按领域选择最强检查点
分布偏移小：教师和学生共享相同的 token 化和词表（同一 SFT 初始化）
训练效率高：提供密集的 token 级优势信号，相比稀疏的序列级奖励更高效

效率对比（Table 3）：

方法	Steps	ArenaHard Hard Prompt	ArenaHard 创意写作
初始	0	71.5	40.6
RLHF	160	80.7	71.2
MOPD	52	85.5 ↑	71.0 ↑

结论：MOPD 在更少步骤内达到更强的性能

📊 主要实验结果

Table 1：全面基准测试（核心结果）

数学推理

基准	Nemotron-Cascade-2-30B	Qwen3.5-35B	DeepSeek-Math-V2-671B
IMO 2025	35 pts (金牌)	-	-
IMO AnswerBench	79.3	74.8	77.2
IMO Proof Bench	72.9	-	72.9
AIME 2025	92.4 (98.6†)	91.9	90.2
AIME 2026	90.9 (95.0†)	91.1	89.8
HMMT Feb25	94.6	89.0	93.7

† 工具集成推理 (TIR) 结果

代码推理

基准	Nemotron-Cascade-2-30B	Qwen3.5-35B	Kimi-K2.5-1T-397B
IOI 2025	439.28 (金牌)	-	-
ICPC WF 2025	10/12 (金牌)	-	-
LiveCodeBench v6	87.2 (88.4†)	74.6	83.6
LiveCodeBench Pro 25Q2 Easy	87.0 (89.3†)	81.1	81.7
LiveCodeBench Pro 25Q2 Med	27.6 (36.8†)	17.8	23.2

对齐与指令跟随

基准	Nemotron-Cascade-2-30B	Qwen3.5-35B
ArenaHard v2 (平均)	83.5	65.4
IFBench (prompt)	82.9	70.2
Scale AI Multi-Challenge	45.3	60.0

长上下文

基准	Nemotron-Cascade-2-30B	Qwen3.5-35B
AA-LCR	39.1	58.5
LongBench v2	40.3	59.0
NIAH@1M (RULER)	99.0	94.3
CL-Bench	12.2	15.5

Table 2：三大竞赛详细成绩

竞赛	题目	得分	奖牌
IMO 2025	P1-P6	35/42	金牌
IOI 2025	P1-P6	439.28/600	金牌
ICPC WF 2025	A-L	10/12	金牌

🔑 核心洞察

1. 小模型可以实现顶级推理能力

30B MoE (激活 3B) 达到了 671B 模型（DeepSeek-Math-V2）和顶级闭源模型的水平
证明训练方法和数据质量比单纯的参数规模更重要
智能体密度（intelligence density）极高

2. Cascade RL 顺序设计至关重要

设计原则：

缓解领域间干扰：找出最小化负面干扰的顺序
识别基础先验 vs 专业细化：哪些任务作为基础，哪些作为细化
MOPD 作为稳定点：在领域间能力漂移时恢复平衡

IF-RL 作为第一阶段的理由：

IF-RL 可能负面影响人类对齐能力（如 ArenaHard）
但后续 RLHF 对指令跟随影响很小
优先最大化指令跟随，后续恢复对齐能力
早期 IF-RL 产生更好的教师用于 MOPD

3. 在线蒸馏 vs 传统 RL

维度	GRPO (传统 RL)	MOPD (在线蒸馏)
奖励信号	稀疏序列级	密集 token 级
样本效率	低	高
收敛步数	需要更多	需要更少
实现复杂度	高（需环境验证）	低（教师评分）

4. 测试时扩展 (Test-Time Scaling) 的重要性

IMO 2025 解决方案：

使用 self-improving framework（generate-verify-refine）
迭代生成候选解 → 验证 → 优化
最多 40×50 = 2000 次模型生成
第 2 题仅用 5 轮（200 次生成）就达到 86+ 分

IMO-Proof Bench（Figure 4）：

1 轮：40.7 分
5 轮：53.4 分
逐步逼近 DeepSeek-Math-V2

⚠️ 局限性

1. 知识和智能体任务表现不足

MMLU-Pro：79.8 vs Qwen3.5-35B 的 85.3
GPQA-Diamond：76.1 vs Qwen3.5-35B 的 84.2
SWE Verified：50.2 vs Qwen3.5-35B 的 69.2

原因：

知识密集型预训练较弱
智能体 RL 需要加强

2. 长上下文基准有差距

多项长上下文基准低于 Qwen3.5-35B
尽管 NIAH@1M 达到 99.0

3. 多语言性能略低

MMLU-ProX：72.5 vs Qwen3.5-35B 的 81.0
WMT24++：84.1 vs Qwen3.5-35B 的 87.6

4. 推理效率问题

专家审查发现某些证明过长，包含多余中间步骤
偶尔暴露中间推理痕迹
偶尔存在拼写错误

📝 思考与启发

对 LLM 后训练的启示

领域顺序设计：Cascade RL 的顺序不是固定的，需要根据模型行为动态调整
在线蒸馏的价值：在复杂 RL 环境中，MOPD 可以作为稳定点恢复性能
数据质量优先：精心策划的 SFT 数据比单纯的参数规模更重要
测试时扩展：生成 - 验证 - 优化框架显著提升难题解决能力

可能的扩展方向

知识增强预训练：改进知识密集型任务的预训练数据
智能体 RL 扩展：加强软件工程、终端等智能体任务
多语言优化：扩展多语言 RL 训练
效率优化：减少证明长度，优化推理效率

开源贡献

完全开源：

✅ 模型权重
✅ 训练数据（SFT + RL）
✅ 方法细节

资源位置：

模型：NVIDIA Nemotron 系列开源仓库
数据：Nemotron-Cascade-2-SFT-Data, Nemotron-Cascade-2-RL-Data

🏆 关键里程碑

双金牌成就的意义

历史对比：

模型	参数	IMO	IOI	ICPC WF
Nemotron-Cascade-2	30B (3B 激活)	✅ 金牌	✅ 金牌	✅ 金牌
DeepSeek-Math-V2	671B (37B 激活)	✅ 金牌	❌	❌
Gemini Deep Think	闭源	✅ 金牌	✅ 金牌	❌

突破性：

首次有 30B 级别模型在 IMO+IOI 双竞赛中获金牌
参数效率是 DeepSeek-Math-V2 的20 倍
证明MoE 架构 + 精心设计的 RL可以超越大参数稠密模型

🔗 代码与资源

arXiv: https://arxiv.org/abs/2603.19220
HTML 版本: https://arxiv.org/html/2603.19220v2
模型与数据 (HuggingFace): https://huggingface.co/collections/nvidia/nemotron-cascade-2
IMO 2025 完整解答: Appendix E
Prompt 模板: Appendix C

📌 关键术语

术语	解释
Cascade RL	级联强化学习，按领域顺序进行 RL 训练
MOPD	多域在线策略蒸馏，从各领域的教师模型蒸馏知识
IMO 2025	2025 年国际数学奥林匹克竞赛
IOI 2025	2025 年国际信息学奥林匹克竞赛
ICPC WF	ICPC 世界总决赛
TIR	Tool-Integrated Reasoning，工具集成推理
MoE	Mixture of Experts，混合专家模型

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

小白从零开始勇闯人工智能：LLM Agent与Function Call简介

LLM（大语言模型）是一种专注于理解和生成自然语言的深度学习模型，擅长文本生成、翻译、问答等任务。它就像一个知识渊博的学者，但只能“动口不动手”。Agent（智能体）则是一个更广泛的概念，它能够在特定环境中自主感知、决策并执行动作，以实现目标。Agent 不仅包含语言处理能力，还具备规划、记忆、工具使用和行动能力。LLM 是 Agent 的“大脑”，但 Agent 还拥有“手脚”，可以与外部世