中文阅读理解笔记
阅读日期:2026-03-27


📄 基本信息

  • 标题: Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation
  • 机构: NVIDIA
  • 模型: Nemotron-Cascade-2-30B-A3B (30B MoE,激活 3B 参数)
  • 领域: LLM 后训练、强化学习、数学推理、代码生成

🎯 核心成果

突破性性能

Nemotron-Cascade-2-30B-A3B 是一个开源的 30B MoE 模型(激活 3B 参数),尽管体积紧凑,却实现了:

竞赛 成绩 意义
IMO 2025 (国际数学奥林匹克) 金牌 (35/42 分) 全球第二开源模型达成
IOI 2025 (国际信息学奥林匹克) 金牌 (439.28/600) 全球第二开源模型达成
ICPC World Finals 2025 金牌 (10/12 题) 全球第四团队

关键亮点

  • 20 倍更少参数达到顶尖闭源模型(如 Gemini Deep Think)和超大开源模型(如 DeepSeek-Math-V2-671B)的水平
  • 第二个实现 IMO+IOI 双金牌的开源权重 LLM(第一个是 DeepSeek-V3.2-Speciale-671B-A37B)

💡 核心技术改进

与 Nemotron-Cascade 1 的对比

Nemotron-Cascade 1 → Nemotron-Cascade 2

三大改进

  1. 大幅扩展 Cascade RL 范围

    • 覆盖更广泛的推理和智能体领域
    • 包括:指令跟随、STEM 推理、长上下文、代码、软件工程智能体
  2. 引入多域在线策略蒸馏 (MOPD)

    • 在 Cascade RL 过程中,从每个领域的最强中间教师模型蒸馏知识
    • 有效恢复基准性能回退,同时保持性能提升
  3. 多域联合 RL 训练

    • 对响应格式相似、验证成本相当的任务组进行联合训练
    • 在跨任务干扰最小的情况下扩展更多 RL 环境

🔄 训练框架

完整训练流程

Base Model (Nemotron-3-Nano-30B-A3B)
       ↓
[1] SFT (监督微调)
       ↓
[2] IF-RL (指令跟随 RL) ← 第一阶段
       ↓
[3] 多域 RL (STEM+ 工具调用 + 结构化输出)
       ↓
[4] MOPD (多域在线策略蒸馏) ← 关键创新
       ↓
[5] RLHF (人类反馈 RL)
       ↓
[6] 长上下文 RL
       ↓
[7] Code RL (竞赛代码)
       ↓
[8] SWE RL (软件工程智能体)
       ↓
Nemotron-Cascade-2-30B-A3B

核心创新:MOPD(多域在线策略蒸馏)

问题背景

  • Cascade RL 虽减少灾难性遗忘,但随着训练环境增加仍会出现能力漂移
  • 某些 RL 训练会减少模型熵、缩短推理链,负面影响数学推理
  • RLHF 优化可能以指令跟随为代价

MOPD 解决方案

从 Cascade RL 流水线中选择各领域的最强检查点作为教师
       ↓
学生模型采样响应
       ↓
选择对应领域的教师进行 token 级蒸馏
       ↓
优化目标:让教师更喜欢的 token 概率更高

MOPD 优势

  1. 教师来源方便:直接从 Cascade RL 流水线中按领域选择最强检查点
  2. 分布偏移小:教师和学生共享相同的 token 化和词表(同一 SFT 初始化)
  3. 训练效率高:提供密集的 token 级优势信号,相比稀疏的序列级奖励更高效

效率对比(Table 3):

方法 Steps ArenaHard Hard Prompt ArenaHard 创意写作
初始 0 71.5 40.6
RLHF 160 80.7 71.2
MOPD 52 85.5 71.0

结论:MOPD 在更少步骤内达到更强的性能


📊 主要实验结果

Table 1:全面基准测试(核心结果)

数学推理
基准 Nemotron-Cascade-2-30B Qwen3.5-35B DeepSeek-Math-V2-671B
IMO 2025 35 pts (金牌) - -
IMO AnswerBench 79.3 74.8 77.2
IMO Proof Bench 72.9 - 72.9
AIME 2025 92.4 (98.6†) 91.9 90.2
AIME 2026 90.9 (95.0†) 91.1 89.8
HMMT Feb25 94.6 89.0 93.7

† 工具集成推理 (TIR) 结果

代码推理
基准 Nemotron-Cascade-2-30B Qwen3.5-35B Kimi-K2.5-1T-397B
IOI 2025 439.28 (金牌) - -
ICPC WF 2025 10/12 (金牌) - -
LiveCodeBench v6 87.2 (88.4†) 74.6 83.6
LiveCodeBench Pro 25Q2 Easy 87.0 (89.3†) 81.1 81.7
LiveCodeBench Pro 25Q2 Med 27.6 (36.8†) 17.8 23.2
对齐与指令跟随
基准 Nemotron-Cascade-2-30B Qwen3.5-35B
ArenaHard v2 (平均) 83.5 65.4
IFBench (prompt) 82.9 70.2
Scale AI Multi-Challenge 45.3 60.0
长上下文
基准 Nemotron-Cascade-2-30B Qwen3.5-35B
AA-LCR 39.1 58.5
LongBench v2 40.3 59.0
NIAH@1M (RULER) 99.0 94.3
CL-Bench 12.2 15.5

Table 2:三大竞赛详细成绩

竞赛 题目 得分 奖牌
IMO 2025 P1-P6 35/42 金牌
IOI 2025 P1-P6 439.28/600 金牌
ICPC WF 2025 A-L 10/12 金牌

🔑 核心洞察

1. 小模型可以实现顶级推理能力

  • 30B MoE (激活 3B) 达到了 671B 模型(DeepSeek-Math-V2)和顶级闭源模型的水平
  • 证明训练方法和数据质量比单纯的参数规模更重要
  • 智能体密度(intelligence density)极高

2. Cascade RL 顺序设计至关重要

设计原则

  1. 缓解领域间干扰:找出最小化负面干扰的顺序
  2. 识别基础先验 vs 专业细化:哪些任务作为基础,哪些作为细化
  3. MOPD 作为稳定点:在领域间能力漂移时恢复平衡

IF-RL 作为第一阶段的理由

  • IF-RL 可能负面影响人类对齐能力(如 ArenaHard)
  • 但后续 RLHF 对指令跟随影响很小
  • 优先最大化指令跟随,后续恢复对齐能力
  • 早期 IF-RL 产生更好的教师用于 MOPD

3. 在线蒸馏 vs 传统 RL

维度 GRPO (传统 RL) MOPD (在线蒸馏)
奖励信号 稀疏序列级 密集 token 级
样本效率
收敛步数 需要更多 需要更少
实现复杂度 高(需环境验证) 低(教师评分)

4. 测试时扩展 (Test-Time Scaling) 的重要性

IMO 2025 解决方案

  • 使用 self-improving framework(generate-verify-refine)
  • 迭代生成候选解 → 验证 → 优化
  • 最多 40×50 = 2000 次模型生成
  • 第 2 题仅用 5 轮(200 次生成)就达到 86+ 分

IMO-Proof Bench(Figure 4):

  • 1 轮:40.7 分
  • 5 轮:53.4 分
  • 逐步逼近 DeepSeek-Math-V2

⚠️ 局限性

1. 知识和智能体任务表现不足

  • MMLU-Pro:79.8 vs Qwen3.5-35B 的 85.3
  • GPQA-Diamond:76.1 vs Qwen3.5-35B 的 84.2
  • SWE Verified:50.2 vs Qwen3.5-35B 的 69.2

原因

  • 知识密集型预训练较弱
  • 智能体 RL 需要加强

2. 长上下文基准有差距

  • 多项长上下文基准低于 Qwen3.5-35B
  • 尽管 NIAH@1M 达到 99.0

3. 多语言性能略低

  • MMLU-ProX:72.5 vs Qwen3.5-35B 的 81.0
  • WMT24++:84.1 vs Qwen3.5-35B 的 87.6

4. 推理效率问题

  • 专家审查发现某些证明过长,包含多余中间步骤
  • 偶尔暴露中间推理痕迹
  • 偶尔存在拼写错误

📝 思考与启发

对 LLM 后训练的启示

  1. 领域顺序设计:Cascade RL 的顺序不是固定的,需要根据模型行为动态调整
  2. 在线蒸馏的价值:在复杂 RL 环境中,MOPD 可以作为稳定点恢复性能
  3. 数据质量优先:精心策划的 SFT 数据比单纯的参数规模更重要
  4. 测试时扩展:生成 - 验证 - 优化框架显著提升难题解决能力

可能的扩展方向

  1. 知识增强预训练:改进知识密集型任务的预训练数据
  2. 智能体 RL 扩展:加强软件工程、终端等智能体任务
  3. 多语言优化:扩展多语言 RL 训练
  4. 效率优化:减少证明长度,优化推理效率

开源贡献

完全开源

  • ✅ 模型权重
  • ✅ 训练数据(SFT + RL)
  • ✅ 方法细节

资源位置

  • 模型:NVIDIA Nemotron 系列开源仓库
  • 数据:Nemotron-Cascade-2-SFT-Data, Nemotron-Cascade-2-RL-Data

🏆 关键里程碑

双金牌成就的意义

历史对比

模型 参数 IMO IOI ICPC WF
Nemotron-Cascade-2 30B (3B 激活) ✅ 金牌 ✅ 金牌 ✅ 金牌
DeepSeek-Math-V2 671B (37B 激活) ✅ 金牌
Gemini Deep Think 闭源 ✅ 金牌 ✅ 金牌

突破性

  • 首次有 30B 级别模型在 IMO+IOI 双竞赛中获金牌
  • 参数效率是 DeepSeek-Math-V2 的20 倍
  • 证明MoE 架构 + 精心设计的 RL可以超越大参数稠密模型

🔗 代码与资源

  • arXiv: https://arxiv.org/abs/2603.19220
  • HTML 版本: https://arxiv.org/html/2603.19220v2
  • 模型与数据 (HuggingFace): https://huggingface.co/collections/nvidia/nemotron-cascade-2
  • IMO 2025 完整解答: Appendix E
  • Prompt 模板: Appendix C

📌 关键术语

术语 解释
Cascade RL 级联强化学习,按领域顺序进行 RL 训练
MOPD 多域在线策略蒸馏,从各领域的教师模型蒸馏知识
IMO 2025 2025 年国际数学奥林匹克竞赛
IOI 2025 2025 年国际信息学奥林匹克竞赛
ICPC WF ICPC 世界总决赛
TIR Tool-Integrated Reasoning,工具集成推理
MoE Mixture of Experts,混合专家模型
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐