【论文解读】为什么自蒸馏(Self-Distillation)有时会降低 LLM 的推理能力?

原文标题: Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs? 原文链接: Notion Blog 论文: arXiv:2603.24472 关联论文: Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty (arXiv:2603.15500) 作者: Jeonghye Kim, Xufang Luo, Minbeom Kim, Sangmook Lee, Dohyung Kim, Jiwon Jeon, Dongsheng Li, Yuqing Yang 日期: 2026年3月26日

一、文章定位与背景

1.1 自蒸馏(Self-Distillation)是什么?

自蒸馏是一种 LLM 后训练(post-training)方法。核心设定:

  • Teacher(教师模型): 同一模型的另一个版本,可以访问正确答案(conditioned on rich context),提供 token 级别的奖励信号
  • Student(学生模型): 无法访问答案,根据教师的信号来学习
  • 相比 RLVR 方法仅依赖二元奖励(0/1),自蒸馏提供了更细粒度的信号

1.2 自蒸馏此前的成功

  • Agent 场景科学推理(如化学、物理 Q&A)中表现优异
  • 一个显著趋势:回复长度减少的同时,性能反而提升 → 推理更简洁高效
  • 代表工作:SDPO(Reinforcement Learning via Self-Distillation)

1.3 本文发现的"反常"现象

  • 数学推理 任务上,自蒸馏有时出现截然不同的结果:
    • 回复长度确实在下降(与此前一致)
    • 模型丢失了原有的推理能力,性能下降
  • 这就引出了核心问题:为什么即便训练目标是朝正确答案优化,性能仍然会退化?

二、核心概念:认知性语言表达(Epistemic Verbalization)

2.1 什么是 Epistemic Verbalization?

定义: 模型在推理过程中 显式表达自身不确定性 的行为。

  • 强推理模型(如 DeepSeek-R1)频繁使用如 “Wait”、“Hmm”、“Let me reconsider” 等自我纠正性短语
  • 这些表达表面上看起来不直接推进推理,但实际上 携带了重要信息 :它们标记了推理可能出错的位置

2.2 Epistemic Verbalization 的作用机制

  • 没有这些信号时: 模型基于纯程序性步骤推理 → 容易 过早锁定错误假设 (premature commitment),且难以纠正
  • 有这些信号时: 提供额外的信息信号 → 缓解错误承诺,支持渐进式不确定性降低
  • 本质上是一种 自贝叶斯推理(self-Bayesian reasoning) 的外化表现

2.3 为什么自蒸馏会压制 Epistemic Verbalization?

核心因果链:

  1. 教师模型已经知道正确答案
  2. → 教师推理时更自信、更线性,几乎不表达不确定性
  3. → 学生学到这种"自信"的推理模式
  4. → 学生也不再表达不确定性 = epistemic verbalization 被压制
  5. → 推理鲁棒性下降,尤其在 OOD(分布外)问题上

🧊 这是本文最核心的 insight。类比人类:一个看了答案再写解题过程的人,写出来的过程一定比独立思考时更"流畅"——但这种流畅是因为知道终点在哪,而非推理能力更强。模型学了这种"虚假的自信",在遇到没见过的题时就露馅了。

三、实验验证

3.1 实验一:有答案 vs 无答案时模型的行为差异(Section 3)

实验设计:

  • 数据集:DAPO-Math-17k,选 100 道基础模型正确率在 12.5%-50% 的题
  • 对比:无引导生成(unguided) vs 答案引导生成(solution-guided)
  • 定义了 10 个 epistemic tokens 作为不确定性表达的指标

关键数据:

DeepSeek-R1-Distill-Qwen-7B:

  • 无引导:平均回复长度 13,054 | epistemic token 数 182.5
  • 答案引导:平均回复长度 1,873 | epistemic token 数 8.8
  • 差异:长度 -11,181 | epistemic tokens -173.7

Qwen3-8B(思考模式 ON):

  • 无引导:平均回复长度 20,216 | epistemic token 数 238.5
  • 答案引导:平均回复长度 1,781 | epistemic token 数 21.8
  • 差异:长度 -18,436 | epistemic tokens -216.7

Qwen3-8B(思考模式 OFF):

  • 无引导:平均回复长度 3,397 | epistemic token 数 3.6
  • 答案引导:平均回复长度 1,562 | epistemic token 数 1.0
  • 差异:长度 -1,835 | epistemic tokens -2.6

结论: 当模型知道答案时,回复长度大幅缩短(约 6-11 倍),epistemic token 数量断崖式下降(约 3-21 倍)。知道答案后模型确实不再需要"犹豫",但 这种不犹豫不代表推理能力更强

3.2 实验二:离线自蒸馏 SFT 训练(Section 4)

实验设计:

  • 模型:DeepSeek-R1-Distill-Qwen-7B
  • 两个训练集各 800 样本:
    • Unguided Dataset(无引导): 模型自主生成的正确回答,平均长度 12k
    • Solution-Guided Dataset(答案引导): 模型看到答案后生成的回答,平均长度 2k

关键发现:

  • Solution-Guided Dataset 上训练严重退化原始推理性能 (尽管数据集全是正确解!)
  • Unguided Dataset 上训练 → 性能没有显著变化

🧊 这个实验堪称"打脸"级别——数据全是正确答案,但训出来的模型反而更差了。问题不在数据的正确性,而在数据的推理模式。答案引导数据中缺失了表达不确定性的过程,模型学到的是"过于自信地推理"这个坏习惯。

3.3 实验三:在线自蒸馏 — GRPO vs SDPO(Section 5)

实验设计:

  • 在线对比 GRPO 和 SDPO 在 DAPO-Math-17k 上的训练
  • 评估基准:AIME24、AMC23(OOD 评估)
5.1 DeepSeek-R1-Distill-Qwen-7B 结果

训练动态:

  • GRPO:回复长度略微增加,整体变化不大
  • SDPO:回复长度和性能初期 急剧下降 ;性能后来有所恢复,但在 100 步内未达到 GRPO 水平

OOD 评估(核心数据):

  • GRPO:AIME24 Acc@16: 54.7 → 56.0(+1.3)| AMC23 Acc@16: 89.3 → 91.1(+1.8)
  • SDPO:AIME24 下降约 40% | AMC23 下降约 15%

推理模式变化:

  • GRPO 倾向于 增加 epistemic tokens 的使用(尤其是 “wait”)
  • SDPO 压制 不确定性表达
5.2 Qwen3-8B(思考模式 OFF)结果

训练动态:

  • GRPO:快速增加回复长度,迅速达到高训练分数
  • SDPO:回复长度持续下降,性能提升远慢于 GRPO

OOD 评估(微妙结果):

  • SDPO 在 AMC23 (较简单): acc@16 从 0.67 → 0.73,回复长度缩短约一半 ✅
  • SDPO 在 AIME24 (较难): acc@16 从 0.25 → 0.23
  • GRPO 在两者上都大幅提升(AMC23 提升约 36 个点),但回复更长

🧊 SDPO 在简单题上能"压缩"推理不损失性能,但在难题上会"裁剪"掉实际需要的推理步骤。这说明 自蒸馏的压缩效果是有条件的——取决于任务难度和分布覆盖度

四、深入分析:任务覆盖度与泛化的关系(Section 6)

4.1 为什么科学 Q&A 上自蒸馏有效,数学上不行?

任务覆盖度分析:

  • 化学数据集(ScienceQA): 题目虽多,但核心只有约 6 种题型,差异仅在表面细节
  • LiveCodeBench v6: 题目多样但仅 131 道,训练中反复曝光,训练集 = 评估集
  • DAPO-Math-17k: 14,000 道不同题目,覆盖广泛、不重叠,评估集包含未见题型

关键结论:

  • 任务覆盖度小 → 自蒸馏可以安全压缩推理,性能不降甚至更好
  • 任务覆盖度大 → 自蒸馏压制不确定性表达 → 阻碍对完整分布的学习 → OOD 性能退化

4.2 系统性实验:控制训练题目数量

实验设计:

  • 限制 DAPO-Math-17k 训练题数 |D| = {1, 8, 64, 128, 512}
  • 用 Qwen3-8B(思考模式 OFF)分别做 GRPO 和 SDPO

核心发现:

训练阶段:

  • |D| ≤ 128 时:SDPO 快速达到约 0.8 分,回复长度缩短达 8 倍训练效率显著优于 GRPO
  • |D| = 512 时:回复长度的进一步缩短开始 负面影响 训练分数

OOD 评估阶段:

  • GRPO:随 |D| 增大(8→16→64→128→512),最终性能 持续提升 ,伴随回复长度增加
  • SDPO:所有 |D| 设置下 OOD 性能均低于 base model ;|D| 越小退化越严重

推理模式:

  • GRPO:随 |D| 从 1→64→512,epistemic verbalization 显著增加
  • SDPO:|D| = 512 时压制最小,|D| = 1 时压制最大

🧊 这组实验将整个论点串了起来——模型面对越多样的问题,就越需要"说出自己的不确定性"来应对。GRPO 自然地做到了这一点(通过增加 epistemic tokens),而 SDPO 的教师信号反而压制了这种能力。这就像让一个学生只学"自信地写答案",但从不练习"面对不会的题如何思考"。

五、文章总结与启示

5.1 文章三大核心发现

  1. 自蒸馏会移除对有效推理至关重要的 epistemic verbalization,有时导致性能退化
  2. 这种效应取决于任务覆盖度: 小覆盖度 → 自蒸馏鼓励简洁推理,加速性能提升;大覆盖度 → 不确定性被压制,阻碍全分布学习,OOD 性能退化
  3. 即使目标函数在数学上是合理的(旨在引出正确 CoT),性能仍可能退化 → 仅靠优化不够,还需关注模型的推理行为

5.2 文章原文结论

In this work, we analyzed why self-distillation can degrade a base model’s reasoning ability in the math domain from a behavioral perspective. We showed that although on-policy self-distillation enables finer-grained credit assignment than GRPO, and may therefore appear superior as an optimization objective, it can induce undesirable reasoning behaviors that ultimately hurt performance.

Epistemic verbalization 的价值随泛化需求而增长:对于熟悉、重复的任务(小 |D|)基本冗余可以去除,但随着任务多样性增长,其重要性日益增加。

  • 当前 LLM 后训练的讨论大多聚焦于 优化指标,对 模型推理行为的变化 关注不足
  • 理解基础模型本身的推理行为、以及后训练如何重塑这些行为,对构建更有效的训练流程 至关重要

六、冰块の深入分析

6.1 与 RL 探索-利用困境的联系

自蒸馏导致的推理退化,本质上是一个 探索(exploration)被过早截断 的问题。Epistemic verbalization 可以类比为 RL 中的探索行为——它允许模型在推理链中"回溯"和"尝试替代路径"。SDPO 的教师信号相当于一个过于确定的奖励信号,将学生导向了利用(exploitation)而抛弃了探索。这在分布内任务上是高效的,但在需要泛化的场景下就成了致命弱点。

6.2 对"Think Token"压缩趋势的警示

当前业界有一股强烈的趋势要压缩推理链(减少"废话")。本文清晰地指出:并非所有看似冗余的 token 都是可以安全删除的。 那些表达不确定性的 token(“Wait”、“Hmm”、“Let me reconsider”)可能是推理过程中的关键"检查点"。压缩推理链需要更精细地区分:

  • 真正冗余的内容(重复、套话)→ 可以安全压缩
  • epistemic verbalization(不确定性表达)→ 不能盲目压缩

6.3 对蒸馏范式的反思

本文的发现对"用大模型蒸馏小模型"的通用范式也有启发:

  • 大模型(或看到答案的模型)生成的"标准答案"可能天然缺乏不确定性表达
  • 小模型学了这种表达方式后,在见过的题上很快,但 在没见过的题上很脆弱
  • 启示:蒸馏数据中应该 刻意保留甚至增加 表达不确定性的推理轨迹

6.4 对 GUI Agent / Visual Grounding 的潜在启示

虽然本文聚焦数学推理,但其核心机制——通过不确定性表达来支持复杂决策——在其他需要多步推理的场景中同样适用。例如在 GUI Agent 中,模型面对不确定的 UI 状态时,如果能"说出"自己的犹豫(“这个按钮可能是 X 也可能是 Y”),可能有助于做出更鲁棒的操作决策。

七、实验细节备忘

训练超参

  • 通用(GRPO/SDPO): max_response_length=20480, training batch=256, mini batch=64/128, clip_ratio_high=0.28, clip_ratio_low=0.2, no KL loss
  • GRPO: lr=1e-6, rollout temperature=1.0
  • SDPO: lr=1e-5, Jensen-Shannon divergence, Top-K distillation=100, EMA update rate=0.0
  • 硬件: 4×B200 GPUs

评估超参

  • DeepSeek-R1-Distill-Qwen-7B / Qwen3-8B (思考 ON): max tokens=38912, temp=0.6, TopP=0.95, TopK=20
  • Qwen3-8B (思考 OFF): max tokens=38912, temp=0.7, TopP=0.8, TopK=20

八、参考文献

  1. Kim et al., “Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty,” arXiv 2026.
  2. Hubotter et al., “Reinforcement Learning via Self-Distillation,” arXiv 2026.
  3. Zhao et al., “Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models,” arXiv 2026.
  4. Shenfeld et al., “Self-Distillation Enables Continual Learning,” arXiv 2026.
  5. Yu et al., “DAPO: An open-source LLM reinforcement learning system at scale,” NeurIPS 2025.
  6. Song et al., “Expanding the Capabilities of Reinforcement Learning via Text Feedback,” arXiv 2026.
  7. Ye et al., “On-Policy Context Distillation for Language Models,” arXiv 2026.
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐