强师未必出高徒?复旦提出 RSR 教你挑对大模型蒸馏的 “黄金数据”
论文链接:https://arxiv.org/abs/2601.14249发布时间:2026.02.02对于大模型炼丹师而言,不知道大家有没有这种经历,每次做的时候,心里其实特别虚。随手拿一批看似比较好的数据来训练,结果折腾半天,评估指标纹丝不动,甚至还倒退了。刚看到的这篇论文,它就把这种“炼丹玄学”用科学的方法给量化了。我们来看看它是怎样用一个指标把大模型蒸馏需要的的。

论文链接:https://arxiv.org/abs/2601.14249
发布时间:2026.02.02
对于大模型炼丹师而言,不知道大家有没有这种经历,每次做蒸馏的时候,心里其实特别虚。
随手拿一批看似比较好的数据来训练,结果折腾半天,评估指标纹丝不动,甚至还倒退了。
刚看到的这篇论文,它就把这种“炼丹玄学”用科学的方法给量化了。
我们来看看它是怎样用一个指标把大模型蒸馏需要的优质数据给筛选出来的。
核心痛点:为什么“名师”带不出“高徒”?
之前大家默认,用参数更多、推理能力更强的教师模型生成的轨迹数据,蒸馏后学生模型效果会更好。
但实验结果打了脸:教师的强弱和学生的提升效果没有直接关系。
论文用了 11 个不同规模的教师模型和 5 个学生模型做配对实验,结果显示,同一位教师教不同学生,效果天差地别。
比如 671B 参数的 Deepseek-R1 教 Qwen-2.5-3B 时,学生只拿到 29.6 的分数;而 4B 参数的 Qwen-3-4B-Thinking 教这个学生,分数反而能到 33.3。
这说明,数据和学生模型的适配性,比教师模型本身的强弱更重要。
现有方法的问题:只看概率,要么没营养要么学不会
之前选蒸馏数据,主要看学生模型对数据的预测概率。
但这里有两个问题:
- 概率太高,数据和学生现有能力太匹配,学不到新东西,没信息量;
- 概率太低,数据太陌生,学生根本学不会。
简单说,现有的方法没平衡好 “数据信息量” 和 “学生适配性” 这两个关键需求。
数据筛选标准:RSR(Rank-Surprisal Ratio)
为了让咱们不再盲目喂数据,论文提出了一个超简洁的指标——RSR。
先明确两个基础概念:
-
排名(Rank):衡量数据的适配性,公式的核心是统计词汇表中比目标 token 预测概率更高的 token 数量。数值越小,表示当前 token 排名越靠前,代表模型对该 token 的预测倾向性越强、适配度越高。
Rank(tk)=1+∑t′∈VI[pθ(t′∣ck)>pθ(tk∣ck)]Rank(t_k) = 1+\sum_{t'\in\mathcal{V}}\mathbb{I}[p_{\theta}(t'|c_k)>p_{\theta}(t_k|c_k)]Rank(tk)=1+t′∈V∑I[pθ(t′∣ck)>pθ(tk∣ck)] -
惊讶度(Surprisal):衡量数据的信息量,公式使用 token 的负对数似然进行计算。数值越高,表示模型对这个 token 越陌生。
Surprisal(tk)=−logpθ(tk∣ck)Surprisal(t_k) = -log p_{\theta}(t_k | c_k)Surprisal(tk)=−logpθ(tk∣ck)
RSR 是平均排名和平均惊讶度的比值,为了避免极端值干扰,还会对排名做截断处理,最终公式:
RSR(x)=∑kmin(Rank(tk),rmax)∑kSurprisal(tk)RSR(x)=\frac{\sum_{k} min(Rank(t_k), r_{max})}{\sum_{k} Surprisal(t_k)}RSR(x)=∑kSurprisal(tk)∑kmin(Rank(tk),rmax)
从公式可以看出,我们要找那种RSR 越小越好的数据。这意味着这段数据既有“新知识”,又是学生“跳一跳就能摸到”的。
看到这里你可能有一个疑问,Rank 和 Surprisal 都是通过 token 概率统计出来的,不是一个意思吗?
确实都是通过概率统计出来,但Rank 是衡量相对概率的位置,而 Surprisal 是衡量绝对概率的高低。
有可能出现 Surprisal 很高(token 概率很低),但 Rank 很低(token 排序靠前)的情况。这种情况下所有 token 的概率分布比较平均,且概率都偏小。那这种情况正是黄金学习数据,正如下图所示。

真的管用吗?看试验结果
论文在 5 种学生模型和 11 种教师模型上做了海量实验,结果非常惊艳:
- 预判性能超准:RSR 这个指标跟学生模型训练后的真实性能,相关性竟然高达 0.86。相比之下,传统的 Perplexity 指标(Avg-Surprisal)相关性较小。

- 不仅可以用来挑数据,还能挑老师:论文提出的 RSR 方法,在所有学生模型上的平均成绩(48.3),几乎追平 “Oracle(最强教师模型)” 的平均成绩(48.7),说明 RSR 选教师的效果已接近 “已知最优教师” 的水平。

个人思考
论文是在数学推理上进行的验证,但感觉这个方法应该也可以迁移到代码生成、对话生成等任务的蒸馏中,说不定也能发挥大作用。
以后做模型蒸馏,终于不用再盲目堆数据,而是精准挑选好数据了。
更多推荐

所有评论(0)