收藏备用｜大模型知识蒸馏入门详解（小白/程序员必看，附经典文献+行业趋势）

对于刚入门大模型、想落地轻量模型的程序员和小白来说，知识蒸馏是绕不开的核心技术——它的核心目标，就是把大型复杂模型（业内统称“教师模型”）里沉淀的知识、推理逻辑和决策能力，高效迁移到参数更少、运行速度更快、部署成本更低的小型模型（“学生模型”）中，最终实现“轻量不缩水、小模型也有强性能”的效果，完美适配边缘设备、低算力服务器等资源受限的实际开发场景，也是程序员落地大模型项目的关键突破口。

程序汪小陈

1161人浏览 · 2026-02-09 14:10:43

程序汪小陈 · 2026-02-09 14:10:43 发布

很多小白刚开始会混淆知识蒸馏的分类，其实按照知识迁移过程中，我们能访问教师模型的权限不同，知识蒸馏可清晰划分为两大核心类型，用通俗的话讲明白，小白也能快速区分：

黑盒蒸馏（Black-box）：学生模型只能获取教师模型的“输入-输出”映射关系，看不到模型内部的结构、中间层输出和参数分布，就相当于“只看标准答案，慢慢摸索解题方法”，不用懂底层原理也能上手模仿。
白盒蒸馏（White-box）：除了基础的输入输出，还能直接访问教师模型的中间隐藏状态、注意力权重、输出概率分布等核心内部信息，属于“看透底层原理后，精准模仿甚至优化”，更适合想深入研究技术的程序员。

结合当前大模型行业落地现状和学术研究方向，核心趋势非常明确，不管是小白入门还是程序员选型，都值得重点关注（建议收藏，避免后续找不到）：

工业界优先选黑盒蒸馏：无需获取模型源码、参数，能直接借助GPT-4、Qwen-Max等成熟闭源大模型的强大能力，落地成本低、见效快，是程序员实际项目中最常用的方式，小白入门也可从这里切入。
学术界聚焦白盒蒸馏：重点深挖模型内部的知识传递机制，更容易提出创新性方法和理论突破，适合想深耕大模型技术、往学术或高级开发方向发展的程序员。
混合蒸馏成新热点：把黑盒蒸馏的“数据驱动”（高效借力）和白盒蒸馏的“结构对齐”（精准优化）结合起来，兼顾效果与效率，目前已经逐渐成为高性能轻量模型的主流方案，也是未来的核心发展方向。

代表性文献

综述性文章

A Comprehensive Survey on Knowledge Distillation[1] 这篇是25年10月的综述，内容比较详尽，它将白盒蒸馏和黑盒蒸馏细分成以下几个类别：

其中，白盒蒸馏是根据模型的架构去分，分成基于BERT和只基于Decoder的，这种分发个人觉得比较粗暴，不是很合理。

黑盒蒸馏是根据方法区分，比较合理，主要分为以下三种：

思维链(Chain of Thought)：教师模型对已有数据生成思维链，供学生模型训练
指令遵循(Instruction Following)：教师模型对训练数据生成指令、输入和输出样本，供学生模型训练
上下文学习(In-context Learning)：构造任务，收集教师模型在不同上下文情况下的输出，结果供学生模型训练

Survey on Knowledge Distillation for Large Language Models: Methods, Evaluation, and Application[2] 是另一篇综述性的研究，发布时间是24年1月，内容不如上一篇丰富，不过也提出了一些不同的梳理和思考。

A Survey on Knowledge Distillation of Large Language Models[3]这篇24年的文章则是根据具体的方法论，汇总了各种知识蒸馏的方法，研究细分领域可以参考。

黑盒蒸馏文章

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning[4]这篇文章就是黑盒蒸馏的典型代表。

在这篇文章中，有6个蒸馏的小模型，4个基座是Qwen，两个基座是Llama3.1。

DeepSeek-R1小模型的蒸馏方式：将DeepSeek-v3(671B)模型生成的数据作为小模型训练集。

训练数据量包含两部分：推理数据(60w)+非推理数据(20w)

MiniPLM: Knowledge Distillation for Pre-Training Language Models[5]是最新比较典型的黑盒蒸馏方法。

具体思路是：根据教师模型和学生模型之间的输出概率分布差异，调整学生模型预训练数据的语料库。

根据概率分布，做出以下调整：

减少简单样本
增加复杂/多样性样本
提出噪音/有害样本

它的实验中教师模型参数量为1.8B，学生模型的参数量为200M/500M/1.2B。

其中，Pre-Train w/o KD为未经蒸馏的小模型性能表现。

黑盒与白盒结合蒸馏文章

DistilQwen2.5: Industrial Practices of Training Distilled Open Lightweight Language Models[6] 是通义实验室发布的一篇比较经典的黑白盒相结合的文章。

具体方案是：

黑盒蒸馏：使用Qwen3-Max(1T)和GPT-4o(闭源)作为教师模型，来生成小模型的训练数据

指令问题生成：根据问题指令，输出相关响应
优化训练数据：为原始训练数据增加思维链(CoT)
训练数据筛选：根据信息量、任务平衡性筛选数据
验证问题正确性：对已有答案进行事实核验

白盒蒸馏：让学生模型的输出和教师模型输出尽可能接近

白盒蒸馏除交叉熵损失外，还采用知识蒸馏损失来最小化学生模型与教师模型的输出的Token序列之间的散度。

模型蒸馏前后的性能如下表所示：

蒸馏前后总体会有提升，部分任务可能无变化或下降。

后面我会进一步从代码角度分析这篇文章的思路。

蒸馏效果评估

在调研具体方法时，还发现了Quantification of Large Language Model Distillation[7]这一篇有关蒸馏效果量化评估的工作。

里面解释了一个有趣的现象：当问大模型身份性问题时，它可能会答出其它厂商的答案。

比如，问Qwen-Max它的开发团队是谁，它会说它是由Anthropic开发的。

按照这篇文章提出的评估方法，蒸馏水平越靠近右上角，采用蒸馏的程度越高。

图中表明，Claude、Doubao和Gemini的蒸馏程度较低，而Qwen-Max的蒸馏程度最高。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

为什么要学习大模型？

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着AI技术飞速发展，预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

在这里插入图片描述

大模型入门到实战全套学习大礼包

1、大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

2、大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

在这里插入图片描述

3、AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

适用人群

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026，豆包微笑曲线横扫AI应用市场，开启霸主新征程！

2048 AI社区

【大模型学习推理】 profile 学习

SGLang 服务器接收到一个请求，并将其与其他请求批处理后，在一个采用张量并行的多 GPU 环境中，执行 Qwen3-MoE 模型的一个 Transformer 层的计算。关键步骤是：调度与分发：SGLang 调度器将请求交给一个 Tensor Parallelism Worker。进入模型层：代码执行进入 Qwen3-MoE 模型的一个 Decoder Layer。MoE 路由与通信。