手把手教你：AI架构师如何用知识蒸馏优化大语言模型

我们需要自定义函数，结合软损失与硬损失。

AI学长带你学AI

276人浏览 · 2026-02-14 21:53:28

AI学长带你学AI · 2026-02-14 21:53:28 发布

手把手教你：AI架构师如何用知识蒸馏优化大语言模型——从理论到工业级实践

摘要/引言

大语言模型（LLM）如GPT-4、LLaMA-7B的性能令人惊叹，但高算力需求却成为其落地的“紧箍咒”：部署一个7B参数的模型需要至少14GB显存，边缘设备（如手机、IoT设备）根本无法承载；即使在云端，大规模推理的成本也会让中小企业望而却步。

有没有办法让小模型“继承”大模型的智慧？答案是知识蒸馏（Knowledge Distillation）——这是AI架构师手中的“模型瘦身术”：通过让小模型（Student）学习大模型（Teacher）的“软知识”（而非仅依赖真实标签的“硬知识”），在缩小模型体积（参数减少70%+）、提升推理速度（3-5倍）的同时，保持80%-95%的原模型性能。

本文将带你从0到1掌握知识蒸馏的全流程：从理论拆解到工业级代码实现，从参数调优到避坑指南。读完本文，你将能独立完成“大模型→小模型”的蒸馏优化，解决LLM部署中的算力瓶颈。

目标读者与前置知识

目标读者

有机器学习基础的AI工程师/研究者；
熟悉PyTorch框架，用过Hugging Face Transformers库；
了解Transformer/LLM基本概念（如注意力机制、因果语言建模）；
想解决“大模型部署成本高”问题的技术负责人。

前置知识要求

掌握损失函数（交叉熵、KL散度）与反向传播；
熟悉Hugging Face的Trainer API或自定义训练循环；
了解LLM的训练任务（如因果语言建模、文本生成）。

文章目录

引言与基础
问题背景：为什么需要知识蒸馏？
核心理论：知识蒸馏的底层逻辑
环境准备：从0搭建蒸馏开发环境
分步实现：工业级蒸馏流程（以LLaMA→TinyLLaMA为例）
关键优化：让蒸馏效果翻倍的技巧
结果验证：用Perplexity量化蒸馏收益
避坑指南：常见问题与解决方案
未来展望：知识蒸馏的进化方向
总结

一、问题背景：为什么需要知识蒸馏？

1.1 大模型的“落地痛点”

大模型的参数规模与性能正呈指数级增长，但算力需求也同步爆炸：

LLaMA-7B：需要14GB显存才能推理，单卡A100（40GB）只能同时处理2-3个请求；
GPT-3（175B）：推理需数百GB显存，仅能在超级计算机上运行；
边缘设备（如手机）：即使是1B参数的模型，也会因显存不足频繁崩溃。

1.2 现有优化方案的局限

为了解决“大模型瘦身”问题，行业提出了多种方案，但各有缺陷：

模型剪枝：删除“不重要”的参数（如权重接近0的神经元），但可能破坏模型的特征提取能力；
模型量化：将32位浮点数（FP32）压缩为8位整数（INT8），但会损失精度（尤其是低精度量化）；
参数共享：让多个层共享权重，减少参数数量，但会限制模型的表达能力。

1.3 知识蒸馏的优势

知识蒸馏的核心是**“迁移知识”而非“裁剪参数”**：

大模型（Teacher）通过“软标签”（带Temperature的概率分布）向小模型（Student）传递更丰富的信息（如“猫”和“老虎”的相似性）；
小模型不仅学习“正确答案”，还学习大模型的“推理过程”；
最终效果：体积缩小70%，速度提升3倍，精度仅下降5%-10%（远优于剪枝/量化）。

二、核心理论：知识蒸馏的底层逻辑

2.1 基本概念

知识蒸馏的本质是**“Teacher-Student”学习框架**：

Teacher模型：性能强但体积大的大模型（如LLaMA-7B）；
Student模型：体积小但需要提升性能的模型（如TinyLLaMA-1.1B）；
软标签：Teacher模型对输入的概率分布（用Temperature平滑后）；
硬标签：真实的Ground Truth标签（如文本生成的下一个token）。

2.2 核心公式：蒸馏损失函数

蒸馏的目标是让Student模型同时拟合Teacher的软标签和真实的硬标签，总损失函数为：
$Loss_{total} = \alpha \times Loss_{soft} + (1-\alpha) \times Loss_{hard}$

（1）软损失（ $Loss_{soft}$ ）：KL散度

软损失用于衡量Student与Teacher的概率分布差异，公式为：
$Loss_{soft} = KL\left( Softmax\left( \frac{Teacher_{logits}}{T} \right) || Softmax\left( \frac{Student_{logits}}{T} \right) \right) \times T^2$

Temperature（T）：控制软标签的“平滑程度”。T越大，概率分布越平，Student能学习到更多类间关系（如“猫”和“老虎”的相似性）；T越小，分布越尖锐，接近硬标签。
$T^2$ ：还原KL散度的尺度（因为Softmax除以T后，KL散度会缩小 $T^2$ 倍）。

（2）硬损失（ $Loss_{hard}$ ）：交叉熵

硬损失用于保证Student模型的“基础准确性”，公式为：
$Loss_{hard} = CrossEntropy\left( Student_{logits}, GroundTruth \right)$

（3）权重系数（α）

α控制软损失与硬损失的比例：

α越大：Student越依赖Teacher的软知识（适合Teacher性能远强于Student的场景）；
α越小：Student越依赖真实标签（适合Student本身已具备一定性能的场景）。

2.3 为什么蒸馏有效？

大模型的软标签包含**“隐式知识”**：比如当输入是“猫”时，Teacher模型的软标签可能是“猫（0.8）、老虎（0.15）、狗（0.05）”——这传递了“猫和老虎更相似”的信息。而硬标签仅能告诉Student“正确答案是猫”。

通过学习软标签，Student模型能继承大模型的“推理逻辑”，而非仅记忆“正确答案”，因此在未见过的数据上表现更鲁棒。

三、环境准备：从0搭建蒸馏开发环境

3.1 硬件要求

显卡：建议使用NVIDIA GPU（如A10、A100），显存≥16GB（若用LLaMA-7B作为Teacher，需≥24GB）；
CPU：≥8核（用于数据预处理）；
内存：≥32GB（避免数据加载时OOM）。

3.2 软件安装

（1）创建虚拟环境

conda create -n distillation python=3.9
conda activate distillation

（2）安装依赖库

# 安装PyTorch（CUDA 11.8版本，根据自己的CUDA版本调整）
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装Hugging Face工具链
pip install transformers datasets accelerate evaluate

# 安装其他依赖
pip install tqdm pandas numpy

（3）验证环境

运行以下代码，若输出模型名称则环境正常：

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("TinyLLaMA/TinyLLaMA-1.1B-Chat-v1.0")
tokenizer = AutoTokenizer.from_pretrained("TinyLLaMA/TinyLLaMA-1.1B-Chat-v1.0")
print(model.__class__.__name__)  # 输出：LlamaForCausalLM

四、分步实现：工业级蒸馏流程

我们以**“LLaMA-2-7B（Teacher）→ TinyLLaMA-1.1B（Student）”**为例，演示蒸馏的全流程。

4.1 步骤1：选择Teacher与Student模型

（1）Teacher模型选择

优先选择性能强、与任务匹配的模型（如文本生成用LLaMA-2，代码生成用CodeLlama）；
若显存不足，可选择量化后的Teacher模型（如LLaMA-2-7B-GGUF，INT4量化后仅需3GB显存）。

（2）Student模型选择

体积要小（通常是Teacher的1/5-1/10），但需保证架构与Teacher兼容（如Teacher是Llama架构，Student也需是Llama架构）；
推荐使用开源的轻量级模型（如TinyLLaMA、Phi-2），避免从头训练。

（3）代码实现

from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载Teacher模型（LLaMA-2-7B）
teacher_model_name = "meta-llama/Llama-2-7b-hf"
teacher_tokenizer = AutoTokenizer.from_pretrained(teacher_model_name)
teacher_model = AutoModelForCausalLM.from_pretrained(
    teacher_model_name,
    torch_dtype=torch.float16,  # 用FP16节省显存
    device_map="auto"  # 自动分配设备
)
teacher_model.eval()  # 固定Teacher模型，不参与训练

# 加载Student模型（TinyLLaMA-1.1B）
student_model_name = "TinyLLaMA/TinyLLaMA-1.1B-Chat-v1.0"
student_tokenizer = AutoTokenizer.from_pretrained(student_model_name)
student_model = AutoModelForCausalLM.from_pretrained(
    student_model_name,
    torch_dtype=torch.float16,
    device_map="auto"
)

# 统一Tokenzier（避免Teacher与Student的Token不一致）
student_tokenizer.pad_token = student_tokenizer.eos_token
teacher_tokenizer.pad_token = teacher_tokenizer.eos_token

4.2 步骤2：准备蒸馏数据集

（1）数据集选择

蒸馏需要大规模、多样化的数据集（避免过拟合），推荐：

通用场景：C4（Common Crawl的清洗版）、OpenWebText；
垂直场景：如代码生成用CodeSearchNet，医疗用PubMed。

（2）数据预处理

需将文本转换为模型可接受的格式（input_ids、attention_mask、labels），并截断到模型的最大序列长度（如512）。

（3）代码实现

from datasets import load_dataset

# 加载C4数据集（仅用1%的数据测试，实际用更大的split）
dataset = load_dataset("allenai/c4", "en", split="train[:1%]")

def preprocess_function(examples):
    # 用Teacher的Tokenizer编码（保证与Teacher的输入一致）
    inputs = teacher_tokenizer(
        examples["text"],
        truncation=True,
        max_length=512,
        padding="max_length"
    )
    # 语言模型任务中，labels等于input_ids（因果语言建模）
    inputs["labels"] = inputs["input_ids"].copy()
    return inputs

# 批量预处理数据
tokenized_dataset = dataset.map(preprocess_function, batched=True, remove_columns=["text"])
tokenized_dataset = tokenized_dataset.shuffle(seed=42)  # 打乱数据

# 分割训练集与验证集
train_dataset = tokenized_dataset.select(range(int(0.9 * len(tokenized_dataset))))
val_dataset = tokenized_dataset.select(range(int(0.9 * len(tokenized_dataset)), len(tokenized_dataset)))

4.3 步骤3：定义蒸馏损失函数

我们需要自定义compute_loss函数，结合软损失与硬损失。

import torch
import torch.nn.functional as F

def compute_distillation_loss(student_logits, teacher_logits, labels, temperature=3.0, alpha=0.8):
    """
    计算蒸馏损失
    Args:
        student_logits: 学生模型的输出（shape: [batch_size, seq_len, vocab_size]）
        teacher_logits: 教师模型的输出（shape: [batch_size, seq_len, vocab_size]）
        labels: 真实标签（shape: [batch_size, seq_len]）
        temperature: 温度参数
        alpha: 软损失的权重
    Returns:
        total_loss: 总损失
    """
    # 调整形状：[batch_size * seq_len, vocab_size]
    student_logits = student_logits.view(-1, student_logits.size(-1))
    teacher_logits = teacher_logits.view(-1, teacher_logits.size(-1))
    labels = labels.view(-1)  # [batch_size * seq_len]

    # 计算软损失（KL散度）
    soft_teacher = F.softmax(teacher_logits / temperature, dim=-1)
    soft_student = F.log_softmax(student_logits / temperature, dim=-1)
    soft_loss = F.kl_div(soft_student, soft_teacher, reduction="mean") * (temperature ** 2)

    # 计算硬损失（交叉熵）
    hard_loss = F.cross_entropy(student_logits, labels, reduction="mean")

    # 总损失
    total_loss = alpha * soft_loss + (1 - alpha) * hard_loss
    return total_loss

4.4 步骤4：自定义Trainer

Hugging Face的Trainer API提供了灵活的训练框架，我们需要继承Trainer类，重写compute_loss方法。

from transformers import Trainer, TrainingArguments

class DistillationTrainer(Trainer):
    def __init__(self, teacher_model, temperature=3.0, alpha=0.8, **kwargs):
        super().__init__(**kwargs)
        self.teacher_model = teacher_model
        self.temperature = temperature
        self.alpha = alpha

    def compute_loss(self, model, inputs, return_outputs=False):
        """
        重写compute_loss方法，加入蒸馏逻辑
        """
        labels = inputs.pop("labels")  # 取出真实标签

        # 教师模型forward（不计算梯度）
        with torch.no_grad():
            teacher_outputs = self.teacher_model(**inputs)

        # 学生模型forward
        student_outputs = model(**inputs)

        # 计算蒸馏损失
        loss = compute_distillation_loss(
            student_logits=student_outputs.logits,
            teacher_logits=teacher_outputs.logits,
            labels=labels,
            temperature=self.temperature,
            alpha=self.alpha
        )

        # 返回损失与输出（方便后续评估）
        return (loss, student_outputs) if return_outputs else loss

4.5 步骤5：配置训练参数并启动训练

（1）训练参数设置

training_args = TrainingArguments(
    output_dir="./distilled-tinyllama",  # 模型保存路径
    per_device_train_batch_size=4,       # 单卡 batch size（根据显存调整）
    gradient_accumulation_steps=4,       # 梯度累积（模拟更大的 batch size）
    learning_rate=5e-5,                  # 学习率（小模型建议5e-5~1e-4）
    num_train_epochs=3,                  # 训练轮数（根据数据量调整）
    fp16=True,                           # 启用FP16混合精度训练
    logging_steps=10,                    # 每10步打印日志
    save_strategy="epoch",               # 每轮保存一次模型
    evaluation_strategy="epoch",         # 每轮评估一次
    optim="adamw_torch",                 # 优化器（AdamW）
    report_to="none"                     # 不向第三方平台汇报（如WandB）
)

（2）启动训练

# 初始化Trainer
trainer = DistillationTrainer(
    teacher_model=teacher_model,
    temperature=3.0,
    alpha=0.8,
    model=student_model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    tokenizer=student_tokenizer
)

# 开始训练
trainer.train()

五、关键优化：让蒸馏效果翻倍的技巧

5.1 温度参数（Temperature）调优

初始值：建议设置为2-5（T=3是常用值）；
调优方法：若Student性能提升不明显，可尝试增大T（如T=4）；若过拟合，可减小T（如T=2）；

动态调整：训练前期用大T（让Student学习软知识），后期用小T（聚焦硬标签），例如：

def get_dynamic_temperature(epoch):
    return max(3.0 - 0.5 * epoch, 1.0)  # 每轮减少0.5，最低1.0

5.2 损失权重（α）调优

初始值：建议设置为0.7-0.9（更重视软损失）；
调优方法：若Student的硬损失（交叉熵）过高，说明真实标签学习不足，可减小α（如α=0.6）；若软损失过高，说明Teacher知识迁移不足，可增大α（如α=0.9）。

5.3 数据增强

随机截断：对长文本进行随机截断，增加数据多样性；
噪声注入：在输入中随机替换少量token（如用同义词替换），让Student更鲁棒；
混合数据：将多个数据集混合（如C4+OpenWebText），避免过拟合。

5.4 教师模型的“中间知识”迁移

除了蒸馏最终的logits，还可以蒸馏中间层的特征（如Transformer的隐藏状态），进一步提升Student的性能。例如：

def compute_feature_distillation_loss(student_hidden, teacher_hidden):
    """
    蒸馏中间层特征（MSE损失）
    """
    return F.mse_loss(student_hidden, teacher_hidden)

# 在DistillationTrainer的compute_loss中加入：
student_hidden = student_outputs.hidden_states[-1]  # 取最后一层隐藏状态
teacher_hidden = teacher_outputs.hidden_states[-1]
feature_loss = compute_feature_distillation_loss(student_hidden, teacher_hidden)
total_loss = alpha * soft_loss + (1 - alpha) * hard_loss + beta * feature_loss  # beta是特征损失的权重

5.5 量化感知训练（QAT）

将蒸馏与量化结合，进一步缩小模型体积：

在训练时模拟量化过程（如INT8），让Student适应低精度计算；
最终模型可直接部署为量化格式（如GGUF），无需额外转换。

六、结果验证：用Perplexity量化蒸馏收益

6.1 评估指标选择

语言模型的核心评估指标是Perplexity（困惑度）：衡量模型预测下一个token的难度，值越小性能越好。

6.2 评估代码实现

import evaluate

def evaluate_perplexity(model, tokenizer, dataset, max_samples=1000):
    """
    计算模型的Perplexity
    """
    perplexity = evaluate.load("perplexity")
    model.eval()
    tokenizer.pad_token = tokenizer.eos_token

    # 取部分样本评估（避免耗时过长）
    texts = dataset["text"][:max_samples]
    encoded_texts = tokenizer(
        texts,
        truncation=True,
        max_length=512,
        return_tensors="pt",
        padding=True
    ).to(model.device)

    with torch.no_grad():
        outputs = model(**encoded_texts)

    # 计算Perplexity
    results = perplexity.compute(
        predictions=outputs.logits,
        references=encoded_texts["input_ids"]
    )
    return results["perplexity"]

# 评估Teacher模型
teacher_perplexity = evaluate_perplexity(teacher_model, teacher_tokenizer, dataset)
print(f"Teacher Model Perplexity: {teacher_perplexity:.2f}")

# 评估原始Student模型
original_student_perplexity = evaluate_perplexity(student_model, student_tokenizer, dataset)
print(f"Original Student Perplexity: {original_student_perplexity:.2f}")

# 评估蒸馏后的Student模型
distilled_student = AutoModelForCausalLM.from_pretrained("./distilled-tinyllama/checkpoint-xxxx")  # 替换为实际路径
distilled_perplexity = evaluate_perplexity(distilled_student, student_tokenizer, dataset)
print(f"Distilled Student Perplexity: {distilled_perplexity:.2f}")

6.3 预期结果

模型	参数数量	Perplexity（C4）	推理速度（Token/s）	显存占用（GB）
LLaMA-2-7B（Teacher）	7B	9.8	120	14
TinyLLaMA-1.1B（原始）	1.1B	15.2	450	3
TinyLLaMA-1.1B（蒸馏后）	1.1B	11.3	480	3

七、避坑指南：常见问题与解决方案

7.1 问题1：Student模型性能不提升

原因：

Temperature太大（软标签太模糊）；
α太大（Student过度依赖Teacher，未学习真实标签）；
训练数据量太少（Student未充分学习Teacher的知识）。

解决方案：

将Temperature调整为2-3；
减小α到0.6-0.7；
增加训练数据量（如用C4的10%数据）。

7.2 问题2：训练时显存不足

原因：

Batch size太大；
未启用FP16混合精度训练；
Teacher模型体积太大。

解决方案：

减小per_device_train_batch_size（如从4→2）；
启用fp16=True（在TrainingArguments中设置）；
使用量化后的Teacher模型（如LLaMA-2-7B-GGUF INT4）。

7.3 问题3：蒸馏后模型过拟合

原因：

训练轮数太多；
数据量太少；
未加正则化。

解决方案：

减少训练轮数（如从3→2）；
增加数据量或数据增强；
在Student模型中加入Dropout（如dropout=0.1）。

八、未来展望：知识蒸馏的进化方向

8.1 联合蒸馏（Ensemble Distillation）

用多个Teacher模型（如LLaMA-2、Mistral、Zephyr）一起教Student，让Student学习更全面的知识。

8.2 自蒸馏（Self-Distillation）

让模型自己教自己：用大模型的“过去版本”教“当前版本”，无需额外Teacher，适合持续学习场景。

8.3 动态蒸馏（Dynamic Distillation）

根据输入的难度调整蒸馏策略：简单输入用小模型直接推理，复杂输入用Teacher模型辅助，平衡性能与速度。

8.4 多模态蒸馏（Multimodal Distillation）

将图文大模型（如Flamingo）的知识蒸馏到单模态小模型（如TinyLLaMA），保持多模态理解能力。

九、总结

知识蒸馏是AI架构师解决“大模型落地难”的核心工具——它不是“压缩模型”，而是“传递智慧”。通过本文的实践，你已经掌握了：

知识蒸馏的核心理论（软标签、蒸馏损失）；
工业级蒸馏流程（Teacher/Student选择、数据预处理、训练实现）；
关键优化技巧（Temperature调优、中间层蒸馏、量化感知训练）；
避坑指南（解决性能不提升、显存不足等问题）。

未来，随着大模型的普及，知识蒸馏将成为“AI工业化”的必备技术。希望你能将本文的技巧应用到实际项目中，让大模型的智慧“走进”每一台设备。

参考资料

Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv:1503.02531.
Sanh, V., et al. (2019). DistilBERT, a distilled version of BERT. arXiv:1910.01108.
Hugging Face Transformers Documentation: https://huggingface.co/docs/transformers/index
TinyLLaMA Project: https://github.com/jzhang38/TinyLLaMA
Perplexity Metric: https://huggingface.co/spaces/evaluate-metric/perplexity

附录：完整代码与资源

完整训练脚本：https://github.com/your-username/distillation-demo
预训练模型下载：https://huggingface.co/meta-llama/Llama-2-7b-hf（需申请权限）
数据集下载：https://huggingface.co/datasets/allenai/c4

若有疑问，欢迎在GitHub仓库留言，或关注我的公众号“AI架构师笔记”交流。

Happy Distilling! 🚀

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

LeRobot SO-101 机械臂使用文档

如果你想用原文档的训练方式，也可使用：python lerobot/scripts/train.py ...；版本提示：本文以 LeRobot 官方教程与命令行为准，并兼容你原文档中常见的 python 方式（如 python -m lerobot.*）。如果 OpenCV 摄像头出现异步/编码报错，可尝试降低分辨率/帧率，或给 OpenCV 相机配置加 fourcc（如 MJPG）。推理阶段务必

2048 AI社区

《从对话到执行：豆包2.0如何用原生Agent架构颠覆传统大模型？》

2048 AI社区

站在奇点门槛上：风投转向、Agent爆发与AI时代的生存逻辑

这不是一次普通的行业复盘。这是一次关于资本结构、技术跃迁与人类命运的系统性推演。从风投市场的底层变化，到 AI Agent 的觉醒；从 SaaS 的中间层危机，到太空经济的开启；从创业难度的“水涨船高”，到人类延迟满足能力的衰退风险。如果要用一句话概括：我们已经进入指数级加速阶段，而旧的认知模型正在失效。

2048 AI社区

所有评论(0)

查看更多评论

AI学长带你学AI

@2501_91473346

已为社区贡献237条内容

手把手教你：AI架构师如何用知识蒸馏优化大语言模型

AI学长带你学AI

手把手教你：AI架构师如何用知识蒸馏优化大语言模型——从理论到工业级实践

摘要/引言

目标读者与前置知识

目标读者

前置知识要求

文章目录

一、问题背景：为什么需要知识蒸馏？

1.1 大模型的“落地痛点”

1.2 现有优化方案的局限

1.3 知识蒸馏的优势

二、核心理论：知识蒸馏的底层逻辑

2.1 基本概念

2.2 核心公式：蒸馏损失函数

（1）软损失（LosssoftLoss_{soft}Losssoft​）：KL散度

（2）硬损失（LosshardLoss_{hard}Losshard​）：交叉熵

（3）权重系数（α）

2.3 为什么蒸馏有效？

三、环境准备：从0搭建蒸馏开发环境

3.1 硬件要求

3.2 软件安装

（1）创建虚拟环境

（2）安装依赖库

（3）验证环境

四、分步实现：工业级蒸馏流程

4.1 步骤1：选择Teacher与Student模型

（1）Teacher模型选择

（2）Student模型选择

（3）代码实现

4.2 步骤2：准备蒸馏数据集

（1）数据集选择

（2）数据预处理

（3）代码实现

4.3 步骤3：定义蒸馏损失函数

4.4 步骤4：自定义Trainer

4.5 步骤5：配置训练参数并启动训练

（1）训练参数设置

（2）启动训练

五、关键优化：让蒸馏效果翻倍的技巧

5.1 温度参数（Temperature）调优

5.2 损失权重（α）调优

5.3 数据增强

5.4 教师模型的“中间知识”迁移

5.5 量化感知训练（QAT）

六、结果验证：用Perplexity量化蒸馏收益

6.1 评估指标选择

6.2 评估代码实现

6.3 预期结果

七、避坑指南：常见问题与解决方案

7.1 问题1：Student模型性能不提升

7.2 问题2：训练时显存不足

7.3 问题3：蒸馏后模型过拟合

八、未来展望：知识蒸馏的进化方向

8.1 联合蒸馏（Ensemble Distillation）

8.2 自蒸馏（Self-Distillation）

8.3 动态蒸馏（Dynamic Distillation）

8.4 多模态蒸馏（Multimodal Distillation）

九、总结

参考资料

附录：完整代码与资源

所有评论(0)

AI学长带你学AI

（1）软损失（ $Loss_{soft}$ ）：KL散度

（2）硬损失（ $Loss_{hard}$ ）：交叉熵