从零开始学大模型知识蒸馏:黑盒白盒技术详解,一篇全掌握!
这篇文章系统调研了大模型知识蒸馏技术,将其分为黑盒(仅访问教师模型的输入输出)和白盒(可访问中间状态)两类。介绍了代表性文献,包括综述研究和具体实现方法,如DeepSeek-R1的黑盒蒸馏和DistilQwen2.5的黑白盒结合方法。还讨论了蒸馏效果的量化评估方法,内容全面覆盖知识蒸馏的理论基础、技术分类、实践案例和评估方法,适合研究者和开发者学习参考。
简介
这篇文章系统调研了大模型知识蒸馏技术,将其分为黑盒(仅访问教师模型的输入输出)和白盒(可访问中间状态)两类。介绍了代表性文献,包括综述研究和具体实现方法,如DeepSeek-R1的黑盒蒸馏和DistilQwen2.5的黑白盒结合方法。还讨论了蒸馏效果的量化评估方法,内容全面覆盖知识蒸馏的理论基础、技术分类、实践案例和评估方法,适合研究者和开发者学习参考。
调研了一下大模型知识蒸馏方向近几年的一些工作。
概述
知识蒸馏的目的是将知识从大型复杂模型转移到更小更高效的模型中。
按照实现类型,大体可分为两种:
- 黑盒蒸馏(Black-box):学生模型仅可访问教师模型的输入和输出
- 白盒蒸馏(White-box):除了教师模型输入输出外,教师模型的输出分布或中间隐藏状态也可访问
当前的主要趋势是:黑盒蒸馏在工业界使用更广泛,因为黑盒蒸馏能利用闭源模型的能力。学术界用白盒蒸馏的研究也比较多,容易挖掘创新点。此外,也有一些工作开始采用白盒蒸馏与黑盒蒸馏相结合,逐渐成为新的发展方向。
代表性文献
综述性文章
A Comprehensive Survey on Knowledge Distillation[1] 这篇是25年10月的综述,内容比较详尽,它将白盒蒸馏和黑盒蒸馏细分成以下几个类别:

其中,白盒蒸馏是根据模型的架构去分,分成基于BERT和只基于Decoder的,这种分发个人觉得比较粗暴,不是很合理。
黑盒蒸馏是根据方法区分,比较合理,主要分为以下三种:
- 思维链(Chain of Thought):教师模型对已有数据生成思维链,供学生模型训练
- 指令遵循(Instruction Following):教师模型对训练数据生成指令、输入和输出样本,供学生模型训练
- 上下文学习(In-context Learning):构造任务,收集教师模型在不同上下文情况下的输出,结果供学生模型训练
Survey on Knowledge Distillation for Large Language Models: Methods, Evaluation, and Application[2] 是另一篇综述性的研究,发布时间是24年1月,内容不如上一篇丰富,不过也提出了一些不同的梳理和思考。

A Survey on Knowledge Distillation of Large Language Models[3]这篇24年的文章则是根据具体的方法论,汇总了各种知识蒸馏的方法,研究细分领域可以参考。

黑盒蒸馏文章
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning[4]这篇文章就是黑盒蒸馏的典型代表。
在这篇文章中,有6个蒸馏的小模型,4个基座是Qwen,两个基座是Llama3.1。

DeepSeek-R1小模型的蒸馏方式:将DeepSeek-v3(671B)模型生成的数据作为小模型训练集。
训练数据量包含两部分:推理数据(60w)+非推理数据(20w)

MiniPLM: Knowledge Distillation for Pre-Training Language Models[5]是最新比较典型的黑盒蒸馏方法。
具体思路是:根据教师模型和学生模型之间的输出概率分布差异,调整学生模型预训练数据的语料库。

根据概率分布,做出以下调整:
- 减少简单样本
- 增加复杂/多样性样本
- 提出噪音/有害样本

它的实验中教师模型参数量为1.8B,学生模型的参数量为200M/500M/1.2B。

其中,Pre-Train w/o KD为未经蒸馏的小模型性能表现。
黑盒与白盒结合蒸馏文章
DistilQwen2.5: Industrial Practices of Training Distilled Open Lightweight Language Models[6] 是通义实验室发布的一篇比较经典的黑白盒相结合的文章。
具体方案是:
- 黑盒蒸馏:使用Qwen3-Max(1T)和GPT-4o(闭源)作为教师模型,来生成小模型的训练数据
- 指令问题生成:根据问题指令,输出相关响应
- 优化训练数据:为原始训练数据增加思维链(CoT)
- 训练数据筛选:根据信息量、任务平衡性筛选数据
- 验证问题正确性:对已有答案进行事实核验
- 白盒蒸馏:让学生模型的输出和教师模型输出尽可能接近
白盒蒸馏除交叉熵损失外,还采用知识蒸馏损失来最小化学生模型与教师模型的输出的Token序列之间的散度。
模型蒸馏前后的性能如下表所示:

蒸馏前后总体会有提升,部分任务可能无变化或下降。
后面我会进一步从代码角度分析这篇文章的思路。
蒸馏效果评估
在调研具体方法时,还发现了Quantification of Large Language Model Distillation[7]这一篇有关蒸馏效果量化评估的工作。
里面解释了一个有趣的现象:当问大模型身份性问题时,它可能会答出其它厂商的答案。
比如,问Qwen-Max它的开发团队是谁,它会说它是由Anthropic开发的。

按照这篇文章提出的评估方法,蒸馏水平越靠近右上角,采用蒸馏的程度越高。

图中表明,Claude、Doubao和Gemini的蒸馏程度较低,而Qwen-Max的蒸馏程度最高。
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包:
- ✅AI大模型学习路线图
- ✅Agent行业报告
- ✅100集大模型视频教程
- ✅大模型书籍PDF
- ✅DeepSeek教程
- ✅AI产品经理入门资料
完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型?
人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。
AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。


资料包有什么?
①从入门到精通的全套视频教程⑤⑥
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线

③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!


如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

更多推荐

所有评论(0)