【论文解读】为什么自蒸馏（Self-Distillation）有时会降低 LLM 的推理能力？

Marlowee

579人浏览 · 2026-03-26 21:22:24

Marlowee · 2026-03-26 21:22:24 发布

【论文解读】为什么自蒸馏（Self-Distillation）有时会降低 LLM 的推理能力？

原文标题： Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs? 原文链接： Notion Blog 论文： arXiv:2603.24472 关联论文： Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty (arXiv:2603.15500) 作者： Jeonghye Kim, Xufang Luo, Minbeom Kim, Sangmook Lee, Dohyung Kim, Jiwon Jeon, Dongsheng Li, Yuqing Yang 日期： 2026年3月26日

一、文章定位与背景

1.1 自蒸馏（Self-Distillation）是什么？

自蒸馏是一种 LLM 后训练（post-training）方法。核心设定：

Teacher（教师模型）： 同一模型的另一个版本，可以访问正确答案（conditioned on rich context），提供 token 级别的奖励信号
Student（学生模型）： 无法访问答案，根据教师的信号来学习
相比 RLVR 方法仅依赖二元奖励（0/1），自蒸馏提供了更细粒度的信号

1.2 自蒸馏此前的成功

在 Agent 场景和 科学推理（如化学、物理 Q&A）中表现优异
一个显著趋势：回复长度减少的同时，性能反而提升 → 推理更简洁高效
代表工作：SDPO（Reinforcement Learning via Self-Distillation）

1.3 本文发现的"反常"现象

在 数学推理 任务上，自蒸馏有时出现截然不同的结果：
- 回复长度确实在下降（与此前一致）
- 但 模型丢失了原有的推理能力，性能下降
这就引出了核心问题：为什么即便训练目标是朝正确答案优化，性能仍然会退化？

二、核心概念：认知性语言表达（Epistemic Verbalization）

2.1 什么是 Epistemic Verbalization？

定义： 模型在推理过程中 显式表达自身不确定性 的行为。

强推理模型（如 DeepSeek-R1）频繁使用如 “Wait”、“Hmm”、“Let me reconsider” 等自我纠正性短语
这些表达表面上看起来不直接推进推理，但实际上 携带了重要信息 ：它们标记了推理可能出错的位置

2.2 Epistemic Verbalization 的作用机制

没有这些信号时： 模型基于纯程序性步骤推理 → 容易 过早锁定错误假设 （premature commitment），且难以纠正
有这些信号时： 提供额外的信息信号 → 缓解错误承诺，支持渐进式不确定性降低
本质上是一种 自贝叶斯推理（self-Bayesian reasoning） 的外化表现

2.3 为什么自蒸馏会压制 Epistemic Verbalization？

核心因果链：

教师模型已经知道正确答案
→ 教师推理时更自信、更线性，几乎不表达不确定性
→ 学生学到这种"自信"的推理模式
→ 学生也不再表达不确定性 = epistemic verbalization 被压制
→ 推理鲁棒性下降，尤其在 OOD（分布外）问题上

🧊 这是本文最核心的 insight。类比人类：一个看了答案再写解题过程的人，写出来的过程一定比独立思考时更"流畅"——但这种流畅是因为知道终点在哪，而非推理能力更强。模型学了这种"虚假的自信"，在遇到没见过的题时就露馅了。

三、实验验证

3.1 实验一：有答案 vs 无答案时模型的行为差异（Section 3）

实验设计：

数据集：DAPO-Math-17k，选 100 道基础模型正确率在 12.5%-50% 的题
对比：无引导生成（unguided） vs 答案引导生成（solution-guided）
定义了 10 个 epistemic tokens 作为不确定性表达的指标

关键数据：

DeepSeek-R1-Distill-Qwen-7B：

无引导：平均回复长度 13,054 | epistemic token 数 182.5
答案引导：平均回复长度 1,873 | epistemic token 数 8.8
差异：长度 -11,181 | epistemic tokens -173.7

Qwen3-8B（思考模式 ON）：

无引导：平均回复长度 20,216 | epistemic token 数 238.5
答案引导：平均回复长度 1,781 | epistemic token 数 21.8
差异：长度 -18,436 | epistemic tokens -216.7

Qwen3-8B（思考模式 OFF）：

无引导：平均回复长度 3,397 | epistemic token 数 3.6
答案引导：平均回复长度 1,562 | epistemic token 数 1.0
差异：长度 -1,835 | epistemic tokens -2.6

结论： 当模型知道答案时，回复长度大幅缩短（约 6-11 倍），epistemic token 数量断崖式下降（约 3-21 倍）。知道答案后模型确实不再需要"犹豫"，但 这种不犹豫不代表推理能力更强 。

3.2 实验二：离线自蒸馏 SFT 训练（Section 4）

实验设计：

模型：DeepSeek-R1-Distill-Qwen-7B
两个训练集各 800 样本：
- Unguided Dataset（无引导）： 模型自主生成的正确回答，平均长度 12k
- Solution-Guided Dataset（答案引导）： 模型看到答案后生成的回答，平均长度 2k

关键发现：

在 Solution-Guided Dataset 上训练 → 严重退化原始推理性能 （尽管数据集全是正确解！）
在 Unguided Dataset 上训练 → 性能没有显著变化

🧊 这个实验堪称"打脸"级别——数据全是正确答案，但训出来的模型反而更差了。问题不在数据的正确性，而在数据的推理模式。答案引导数据中缺失了表达不确定性的过程，模型学到的是"过于自信地推理"这个坏习惯。

3.3 实验三：在线自蒸馏 — GRPO vs SDPO（Section 5）

实验设计：

在线对比 GRPO 和 SDPO 在 DAPO-Math-17k 上的训练
评估基准：AIME24、AMC23（OOD 评估）

5.1 DeepSeek-R1-Distill-Qwen-7B 结果

训练动态：

GRPO：回复长度略微增加，整体变化不大
SDPO：回复长度和性能初期 急剧下降 ；性能后来有所恢复，但在 100 步内未达到 GRPO 水平

OOD 评估（核心数据）：

GRPO：AIME24 Acc@16: 54.7 → 56.0（+1.3）| AMC23 Acc@16: 89.3 → 91.1（+1.8）
SDPO：AIME24 下降约 40% | AMC23 下降约 15%

推理模式变化：

GRPO 倾向于增加 epistemic tokens 的使用（尤其是 “wait”）
SDPO 压制不确定性表达

5.2 Qwen3-8B（思考模式 OFF）结果

训练动态：

GRPO：快速增加回复长度，迅速达到高训练分数
SDPO：回复长度持续下降，性能提升远慢于 GRPO

OOD 评估（微妙结果）：

SDPO 在 AMC23 （较简单）: acc@16 从 0.67 → 0.73，回复长度缩短约一半 ✅
SDPO 在 AIME24 （较难）: acc@16 从 0.25 → 0.23 ❌
GRPO 在两者上都大幅提升（AMC23 提升约 36 个点），但回复更长

🧊 SDPO 在简单题上能"压缩"推理不损失性能，但在难题上会"裁剪"掉实际需要的推理步骤。这说明 自蒸馏的压缩效果是有条件的——取决于任务难度和分布覆盖度 。

四、深入分析：任务覆盖度与泛化的关系（Section 6）

4.1 为什么科学 Q&A 上自蒸馏有效，数学上不行？

任务覆盖度分析：

化学数据集（ScienceQA）： 题目虽多，但核心只有约 6 种题型，差异仅在表面细节
LiveCodeBench v6： 题目多样但仅 131 道，训练中反复曝光，训练集 = 评估集
DAPO-Math-17k： 14,000 道不同题目，覆盖广泛、不重叠，评估集包含未见题型

关键结论：

任务覆盖度小 → 自蒸馏可以安全压缩推理，性能不降甚至更好
任务覆盖度大 → 自蒸馏压制不确定性表达 → 阻碍对完整分布的学习 → OOD 性能退化

4.2 系统性实验：控制训练题目数量

实验设计：

限制 DAPO-Math-17k 训练题数 |D| = {1, 8, 64, 128, 512}
用 Qwen3-8B（思考模式 OFF）分别做 GRPO 和 SDPO

核心发现：

训练阶段：

|D| ≤ 128 时：SDPO 快速达到约 0.8 分，回复长度缩短达 8 倍 → 训练效率显著优于 GRPO
|D| = 512 时：回复长度的进一步缩短开始 负面影响 训练分数

OOD 评估阶段：

GRPO：随 |D| 增大（8→16→64→128→512），最终性能 持续提升 ，伴随回复长度增加
SDPO：所有 |D| 设置下 OOD 性能均低于 base model ；|D| 越小退化越严重

推理模式：

GRPO：随 |D| 从 1→64→512，epistemic verbalization 显著增加
SDPO：|D| = 512 时压制最小，|D| = 1 时压制最大

🧊 这组实验将整个论点串了起来——模型面对越多样的问题，就越需要"说出自己的不确定性"来应对。GRPO 自然地做到了这一点（通过增加 epistemic tokens），而 SDPO 的教师信号反而压制了这种能力。这就像让一个学生只学"自信地写答案"，但从不练习"面对不会的题如何思考"。

五、文章总结与启示

5.1 文章三大核心发现

自蒸馏会移除对有效推理至关重要的 epistemic verbalization，有时导致性能退化
这种效应取决于任务覆盖度： 小覆盖度 → 自蒸馏鼓励简洁推理，加速性能提升；大覆盖度 → 不确定性被压制，阻碍全分布学习，OOD 性能退化
即使目标函数在数学上是合理的（旨在引出正确 CoT），性能仍可能退化 → 仅靠优化不够，还需关注模型的推理行为

5.2 文章原文结论

In this work, we analyzed why self-distillation can degrade a base model’s reasoning ability in the math domain from a behavioral perspective. We showed that although on-policy self-distillation enables finer-grained credit assignment than GRPO, and may therefore appear superior as an optimization objective, it can induce undesirable reasoning behaviors that ultimately hurt performance.

Epistemic verbalization 的价值随泛化需求而增长：对于熟悉、重复的任务（小 |D|）基本冗余可以去除，但随着任务多样性增长，其重要性日益增加。

当前 LLM 后训练的讨论大多聚焦于 优化指标，对 模型推理行为的变化 关注不足
理解基础模型本身的推理行为、以及后训练如何重塑这些行为，对构建更有效的训练流程 至关重要

六、冰块の深入分析

6.1 与 RL 探索-利用困境的联系

自蒸馏导致的推理退化，本质上是一个 探索（exploration）被过早截断 的问题。Epistemic verbalization 可以类比为 RL 中的探索行为——它允许模型在推理链中"回溯"和"尝试替代路径"。SDPO 的教师信号相当于一个过于确定的奖励信号，将学生导向了利用（exploitation）而抛弃了探索。这在分布内任务上是高效的，但在需要泛化的场景下就成了致命弱点。

6.2 对"Think Token"压缩趋势的警示

当前业界有一股强烈的趋势要压缩推理链（减少"废话"）。本文清晰地指出：并非所有看似冗余的 token 都是可以安全删除的。 那些表达不确定性的 token（“Wait”、“Hmm”、“Let me reconsider”）可能是推理过程中的关键"检查点"。压缩推理链需要更精细地区分：

真正冗余的内容（重复、套话）→ 可以安全压缩
epistemic verbalization（不确定性表达）→ 不能盲目压缩

6.3 对蒸馏范式的反思

本文的发现对"用大模型蒸馏小模型"的通用范式也有启发：

大模型（或看到答案的模型）生成的"标准答案"可能天然缺乏不确定性表达
小模型学了这种表达方式后，在见过的题上很快，但 在没见过的题上很脆弱
启示：蒸馏数据中应该 刻意保留甚至增加 表达不确定性的推理轨迹

6.4 对 GUI Agent / Visual Grounding 的潜在启示

虽然本文聚焦数学推理，但其核心机制——通过不确定性表达来支持复杂决策——在其他需要多步推理的场景中同样适用。例如在 GUI Agent 中，模型面对不确定的 UI 状态时，如果能"说出"自己的犹豫（“这个按钮可能是 X 也可能是 Y”），可能有助于做出更鲁棒的操作决策。

七、实验细节备忘

训练超参

通用（GRPO/SDPO）： max_response_length=20480, training batch=256, mini batch=64/128, clip_ratio_high=0.28, clip_ratio_low=0.2, no KL loss
GRPO： lr=1e-6, rollout temperature=1.0
SDPO： lr=1e-5, Jensen-Shannon divergence, Top-K distillation=100, EMA update rate=0.0
硬件： 4×B200 GPUs

评估超参

DeepSeek-R1-Distill-Qwen-7B / Qwen3-8B (思考 ON): max tokens=38912, temp=0.6, TopP=0.95, TopK=20
Qwen3-8B (思考 OFF): max tokens=38912, temp=0.7, TopP=0.8, TopK=20

八、参考文献

Kim et al., “Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty,” arXiv 2026.
Hubotter et al., “Reinforcement Learning via Self-Distillation,” arXiv 2026.
Zhao et al., “Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models,” arXiv 2026.
Shenfeld et al., “Self-Distillation Enables Continual Learning,” arXiv 2026.
Yu et al., “DAPO: An open-source LLM reinforcement learning system at scale,” NeurIPS 2025.
Song et al., “Expanding the Capabilities of Reinforcement Learning via Text Feedback,” arXiv 2026.
Ye et al., “On-Policy Context Distillation for Language Models,” arXiv 2026.

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

TurboVec 深度解析：一个 Rust 向量索引如何在内存与速度上同时超越 FAISS

2048 AI社区

Hermes Agent 学习笔记 05：Memory 系统，为什么长期 Agent 不能每次都从零开始？

我的理解是，Hermes Memory 的核心价值不是简单保存聊天记录，而是让 Agent 能够跨会话保留用户偏好、项目背景、环境事实和长期经验。也就是说，如果 Agent 在当前会话中写入了新的 memory，这个 memory 会保存到磁盘中，但它不一定会立即出现在当前会话的系统提示中。下一期，我将继续学习 Hermes Agent 的 Skills 系统，重点分析 skills 和 memo