爆肝总结!大模型开发必备知识体系:从架构模块到面试热点,一篇全掌握!
本文系统化梳理了大模型学习的三大维度:主流大模型架构模块(分词、嵌入、Transformer、训练目标等)、必须掌握的八大基础"八股"(线性代数、概率统计、注意力机制等)以及面试常见延伸考点(稀疏注意力、MoE、Prompt工程等)。文章提供了从打牢基础到动手实践的学习路径,帮助构建完整的大模型知识体系,适合初学者入门和开发者进阶。
以下内容为你从三大维度(主流大模型的架构模块、必须掌握的“八股”基础知识,以及面试/考试中常见的延伸考察点)进行归纳总结,帮助你构建一个系统化的知识框架。
一、主流大模型的架构模块
当下以 Transformer 为核心的大模型(如 BERT、GPT、LLaMA、PaLM、Claude、Mixtral 等)基本都遵循以下模块化设计。下面按照从下游到上游、从训练到推理的顺序逐层归纳:
- Tokenization(分词与词表)
-
将原始文本(UTF-8 字符串)切分成若干个 token;
-
每个 token 映射到一个唯一的整数 ID,构成模型输入序列;
-
处理长度限制(truncation)、填充(padding)、特殊符号插入。
-
字符级/字节级分词(Byte-Pair Encoding、SentencePiece、WordPiece、BPE-Fuse 等)
-
词表(Vocabulary)及其映射映射表(token → id、id → token)
-
特殊标记(
[CLS],[SEP],[BOS],[EOS],[PAD],[UNK]等) -
子模块:
-
功能:
- Embedding 层
-
将离散的 token 序列转换为一组初始向量表示,传入 Transformer 主干;
-
提供“顺序感知”能力,让后续自注意力(Self-Attention)能区分不同位置。
-
Token Embedding:将 token id 投射到连续实数向量空间(通常维度为 768、1024、2048 等)。
-
Position Embedding:为每个位置(序列索引)添加可学习或固定的位置编码(sinusoid、learnable)。
-
(部分模型)Segment/Token-Type Embedding:BERT 中用于表示句子 A/句子 B。
-
子模块:
-
功能:
- Transformer Encoder/Decoder Block(Transformer 编码器/解码器层)
-
小规模模型可能 6 层;中等规模 12–24 层;超大模型 48 层、64 层、甚至上百层。
-
Encoder:仅有自注意力层,注意力可以“看到”所有位置(mask = 0)。
-
Decoder:有两阶段注意力:
-
Query/Key/Value 线性映射
-
Scaled Dot-Product Attention(
softmax(QK^T/√d_k)·V) -
多头注意力(Multi-Head Attention):
head_i = Attention(QW^Q_i, KW^K_i, VW^V_i),然后拼接再线性投影 -
通常是两层线性变换 + 非线性激活(如 GELU、ReLU),中间维度一般为
4×hidden_size -
公式:
FFN(x) = max(0, xW1 + b1)W2 + b2(或GELU激活) -
通用组成:
-
Encoder vs. Decoder 差异:
-
堆叠深度:
-
Masked Self-Attention(只能看到当前位置及之前;下一步预测时防止信息泄露)
-
Encoder-Decoder Attention(将 Decoder 当前隐状态与 Encoder 的输出做注意力交互)
-
LayerNorm(层归一化)
-
Self-Attention(自注意力子层)
-
Residual Connection:将自注意力子层的输入与输出相加
-
Add & Norm:对相加结果进行 LayerNorm
-
Feed-Forward Network(前馈全连接网络)
-
Residual Connection + LayerNorm:将前馈网络的输入与输出相加后归一化
-
Output Layer(投影头/语言模型头)
-
将 Transformer 最终特征转换成下游任务所需的输出格式(语言建模概率、分类概率、序列标注标签等)。
-
线性投影 + Softmax:通常将最后一层 Transformer 的隐状态向量再做一次线性映射到词表大小维度,得到各个 token 的 logits,接着做
softmax得到概率分布。 -
(可选)若干下游任务专用头:分类头(CLS→全连接→Softmax)、抽取式 QA 头(start/end logits)、序列标注头等。
-
子模块:
-
功能:
- Training Objective(训练目标/损失函数)
-
**Masked Language Modeling (MLM)**:随机掩蔽部分 token,预测被掩蔽的 token id(BERT、RoBERTa)。
-
**Causal Language Modeling (CLM)**:依次预测下一个 token(GPT 系列、LLaMA、GLM)。
-
**Sequence-to-Sequence (Seq2Seq)**:下游任务的交叉熵损失(机器翻译、对话生成)。
-
Next Sentence Prediction / Sentence Order Prediction(BERT早期实验/后续改进可能弃用)。
-
对比学习、EMD、Knowledge Distillation、RLHF 等:高级任务拓展。
-
常见方式:
-
损失函数:通常用交叉熵(Cross-Entropy),对于对抗式训练、RLHF 可能带有额外奖励项(Reward+KL 整合)。
- 优化器 & 学习率调度
-
Dropout(在 Attention 概率、FFN 输出层、Embedding 等位置)
-
Label Smoothing(对标签做平滑处理)
-
权重衰减(Weight Decay)、LayerNorm 稳定化
-
Warm-up(线性/余弦/指数 Warm-up)→ 学习率达到峰值后线性/余弦/指数衰减
-
余弦退火(cosine decay)、多段式(Step LR)、周期性学习率等
-
优化器:Adam、AdamW、LAMB、Lion 等;需要掌握它们的动量、权重衰减、超参意义。
-
学习率调度:
-
正则化:
- Advanced Modules(高级模块/扩展结构)
- Sparse Attention(稀疏注意力):如 Longformer、BigBird,用于长序列缩减计算
- Flash Attention / Flash Attention 2:GPU 上的Attention Kernel 优化,加速自注意力计算
- **Mixture of Experts (MoE)**:Sparse MoE 层只激活部分专家,提升参数效率
- Prefix-Tuning / Prompt-Tuning:在输入端添加可学习前缀以做轻量化调优
- **Adapter Layers / Low-Rank Adaptation (LoRA)**:添加小规模适配器、低秩矩阵以微调大模型
- Vision-Language 层:图像特征的 Patch Embedding → 线性投影 → 插入到 Transformer 输入侧,双模式交互层
- LayerDrop / LayerScale / ReZero:改进 Transformer 深度稳定性和性能
- Inference & Serving
-
FlashAttention、Tensor Parallelism、CPU Offload、分块计算(Chunking)
-
KV Cache 机制:一次推理多 token 时缓存 key/value 减少重复计算
-
Beam Search / Sampling 策略:Beam Search、Top-k, Top-p(Nucleus) Sampling,用于生成任务
-
量化(Quantization):8-bit、4-bit、混合精度量化推理
-
剪枝(Pruning):Structured/Unstructured 剪枝,Sparse GPT
-
Distillation:由大模型蒸馏得到小模型(TinyBERT、MiniLM),兼顾速度和精度
-
Pipeline Parallelism / Model Parallelism:针对超大模型进行多卡并行推理
-
内存优化:
二、必须掌握的“八股知识”(核心基础模块)
以下八个方面是学习和面试空间中最常被提及的“底层/基础”知识点,属于必须熟练掌握的“八股”基础:
- 线性代数与张量运算
- 矩阵、向量、张量的基本概念与广播机制(Broadcasting)
- 矩阵乘法、转置、逆、特征值分解、奇异值分解(SVD)基本原理
- 向量内积、范数、正交、梯度维护在张量上的应用
- 概率与统计基础
- 概率密度函数(PDF)与分布函数(CDF)、期望、方差、协方差、联合概率、条件概率
- 交叉熵(Cross-Entropy)、困惑度(Perplexity)、KL 散度(KL Divergence)
- 贝叶斯定理、最大似然估计(MLE)、最大后验(MAP)、正则化与先验关系
- 优化与梯度下降
- 梯度下降(GD)、随机梯度下降(SGD)、动量(Momentum)
- Adam 系列(Adam、AdamW、LAMB、AdaFactor)及其超参:学习率、β1、β2、ε、weight_decay 等
- 学习率调度:线性 Warm-up、余弦衰减(Cosine Decay)、Step LR、多周期策略
- 梯度裁剪(Gradient Clipping)、Batch Norm 与 LayerNorm 差异
- 注意力机制(Attention)
- Scaled Dot-Product Attention 细节:
QK^T / √d_k、Softmax、上下文向量 - 多头注意力(Multi-Head Attention)的并行思想:为什么要分头?如何拼接再线性投影?
- Mask 的使用:Padding Mask、Sequence Mask、Causal Mask(自回归时序)
- 注意力计算复杂度与空间复杂度:O(n²·d)、FlashAttention 提速思路
- Transformer 核心结构
- Encoder / Decoder 结构区别:自注意力 vs. 自回归 & 编码器-解码器注意力
- 前馈网络(FFN)的形状和激活:
Linear → GELU/GeLU → Linear - 残差连接(Residual Connection)和层归一化(LayerNorm)的作用与顺序
- 位置编码(Positional Encoding):固定(Sinusoidal) vs. 可学习(Learnable)
- 语言模型 Objectives
- Autoregressive (AR) Language Modeling:下一 token 预测(GPT 系列)
- Masked Language Modeling (MLM):随机遮蔽 token(BERT、RoBERTa)
- Permuted Language Modeling (PLM):XLNet 方案、类似 MLM 的变体
- Seq2Seq/Encoder-Decoder LM:T5、BART、mBART、mT5
- 额外任务:Next Sentence Prediction (NSP)、Sentence Order Prediction (SOP)、Span Masking
- 模型调优策略(Fine-Tuning & Adaptation)
- 全参数微调(Full Fine-Tuning) vs. 冷冻大部分层(Freeze)
- Prompt Tuning / Prefix Tuning / P-Tuning:在输入添加可学习 prompt token
- Adapter / LoRA / Low-Rank Adaptation:往模型中插入小规模适配器,减少微调开销
- 蒸馏(Knowledge Distillation):Teacher → Student 蒸馏,Temperature、Soft Label 用法
- RLHF(Reinforcement Learning from Human Feedback):策略梯度、Human Preference 数据收集
- 推理优化 & 部署
- Beam Search / Greedy / Top-k / Top-p (Nucleus) Sampling:生成策略的差异与应用场景
- Quantization(量化):Post-Training Quantization、Quantization-Aware Training(QAT)
- Pruning(剪枝):Non-Structured / Structured 剪枝、稀疏化 Sparse GPT
- 并行与分布式:Tensor Parallelism、Pipeline Parallelism、ZeRO 优化(DeepSpeed)
- KV Cache 机制:自回归时减少重复计算
- ONNX / TensorRT / TVM / XLA 加速:导出格式和底层加速原理
三、可能考察的知识点(面试/考试延伸)
下面列出在面试、笔试或技术分享中常见的延伸考察点,这些内容并不一定都要“深度掌握”,但至少需要知道概念、应用场景,能回答“这是什么”“有什么作用”:
- 长序列处理与稀疏注意力
- Longformer、BigBird、Reformer:Sparse Attention 原理
- Linear Attention:如 Performer、Linformer,降低自注意力复杂度
- 混合专家模型(Mixture of Experts)
- MoE 层的基本原理:Gating Network + 多路专家,如何实现稀疏路由
- 优缺点:参数爆炸 vs. 计算稀疏化
- Prompt Engineering & Chain-of-Thought
- Prompt 模式:Zero-shot / Few-shot / Chain-of-Thought(CoT)
- 扩散式思路:如何构造问题才能让 LLM 输出更优解?
- 多模态模型
- Vision Transformer (ViT) / CLIP / Flamingo / PaLI / GPT-4 Vision:图像特征转化为“Patch Embedding”,再与文本交互
- Query/Key/Value 三者如何适配图像与文本
- 大规模预训练数据与数据质量
- Common Crawl、The Pile、LAION-5B、WebText、C4 数据集特点
- 数据清洗:去重、过滤低质量、敏感信息
- 消融实验与性能评估
- Perplexity / BLEU / ROUGE / METEOR / CLIP Score 等评价指标
- 消融实验:移除某个模块或改变某个超参,观察效果变化
- 安全与对齐(Alignment)
- 有毒内容检测、偏见检测(Bias)
- 对齐思路:RLHF(奖励模型训练)、安全拦截、AITesting、红队攻防
- 法律与伦理
- 训练数据版权问题、隐私保护
- 模型输出隐私泄露风险(Membership Inference、PATE 等)
- 数据审查与合规性(GDPR、CCPA、北京 AI 法规等)
- 大模型可解释性
- Attention 可视化:在特定句子上的 Attention 分布
- 反事实解释(Counterfactual Explanations)、Gradient-based 解释法(Integrated Gradients)
- 模型压缩与小模型设计
- TinyBERT、DistilBERT、MobileBERT:蒸馏技巧
- 结构化剪枝、低秩分解、知识蒸馏、量化并用
- 分布式训练与系统优化
- 数据并行 vs. 模型并行 vs. Pipeline 并行 vs. ZeRO 等技术
- 混合精度训练(FP16、BF16)与梯度累积(Gradient Accumulation)
四、小结与学习建议
- 先打牢“八股”基础:线性代数、概率论、优化器、注意力机制、Transformer 基本结构与训练目标、微调方法、推理优化——这八大板块一一过一遍,做到能写出代码、能够回答原理。
- 搭建好“模块化”认知:掌握大模型的各层模块和它们的输入输出是什么、作用是什么。比如从 Embedding → Attention → FFN → 输出层,每层都要弄懂数据流与梯度流。
- 动手实践:至少把一个小型 Transformer(例如用 PyTorch 或 TensorFlow)自己从头搭建、训练一个小数据集,完成前向与反向传播;再使用开源框架(Hugging Face Transformers)微调一个预训练模型。
- 阅读代表性论文与源码:
- Transformer 原始论文 (“Attention Is All You Need”)
- BERT / GPT 系列 / T5 / LLaMA / Bloom / PaLM 等核心论文
- Hugging Face Transformers 源码架构
- 关注实战与面试热点:安全与对齐、长序列扩展、MoE、Prompt 工程、多模态、量化剪枝等;同时积累常见的面试问答:
- “为什么要做 LayerNorm 而不是 BatchNorm?”
- “为什么多头注意力要分
head?有何意义?” - “如何避免梯度消失/爆炸?”
- “解释一下 Self-Attention 的计算流程”
- “如何在有限显存下训练十亿级别模型?”
- 练习刷题与项目:针对不同难度(300M/1B/10B/百亿参数),尝试自己做一个小项目(如文本分类/情感分析/对话生成),熟悉端到端流程。
以上内容从架构模块、基础“八股”知识、到可能延伸考察点都做了较为全面的归纳。建议你循序渐进,先夯实核心知识,再逐步拓展深入。祝你学习顺利,走向“大模型专家”之路!
从三大维度(主流大模型的架构模块、必须掌握的“八股”基础知识,以及面试/考试中常见的延伸考察点)进行归纳总结,帮助你构建一个系统化的知识框架。
一、主流大模型的架构模块
当下以 Transformer 为核心的大模型(如 BERT、GPT、LLaMA、PaLM、Claude、Mixtral 等)基本都遵循以下模块化设计。下面按照从下游到上游、从训练到推理的顺序逐层归纳:
- Tokenization(分词与词表)
-
将原始文本(UTF-8 字符串)切分成若干个 token;
-
每个 token 映射到一个唯一的整数 ID,构成模型输入序列;
-
处理长度限制(truncation)、填充(padding)、特殊符号插入。
-
字符级/字节级分词(Byte-Pair Encoding、SentencePiece、WordPiece、BPE-Fuse 等)
-
词表(Vocabulary)及其映射映射表(token → id、id → token)
-
特殊标记(
[CLS],[SEP],[BOS],[EOS],[PAD],[UNK]等) -
子模块:
-
功能:
- Embedding 层
-
将离散的 token 序列转换为一组初始向量表示,传入 Transformer 主干;
-
提供“顺序感知”能力,让后续自注意力(Self-Attention)能区分不同位置。
-
Token Embedding:将 token id 投射到连续实数向量空间(通常维度为 768、1024、2048 等)。
-
Position Embedding:为每个位置(序列索引)添加可学习或固定的位置编码(sinusoid、learnable)。
-
(部分模型)Segment/Token-Type Embedding:BERT 中用于表示句子 A/句子 B。
-
子模块:
-
功能:
- Transformer Encoder/Decoder Block(Transformer 编码器/解码器层)
-
小规模模型可能 6 层;中等规模 12–24 层;超大模型 48 层、64 层、甚至上百层。
-
Encoder:仅有自注意力层,注意力可以“看到”所有位置(mask = 0)。
-
Decoder:有两阶段注意力:
-
Query/Key/Value 线性映射
-
Scaled Dot-Product Attention(
softmax(QK^T/√d_k)·V) -
多头注意力(Multi-Head Attention):
head_i = Attention(QW^Q_i, KW^K_i, VW^V_i),然后拼接再线性投影 -
通常是两层线性变换 + 非线性激活(如 GELU、ReLU),中间维度一般为
4×hidden_size -
公式:
FFN(x) = max(0, xW1 + b1)W2 + b2(或GELU激活) -
通用组成:
-
Encoder vs. Decoder 差异:
-
堆叠深度:
-
Masked Self-Attention(只能看到当前位置及之前;下一步预测时防止信息泄露)
-
Encoder-Decoder Attention(将 Decoder 当前隐状态与 Encoder 的输出做注意力交互)
-
LayerNorm(层归一化)
-
Self-Attention(自注意力子层)
-
Residual Connection:将自注意力子层的输入与输出相加
-
Add & Norm:对相加结果进行 LayerNorm
-
Feed-Forward Network(前馈全连接网络)
-
Residual Connection + LayerNorm:将前馈网络的输入与输出相加后归一化
-
Output Layer(投影头/语言模型头)
-
将 Transformer 最终特征转换成下游任务所需的输出格式(语言建模概率、分类概率、序列标注标签等)。
-
线性投影 + Softmax:通常将最后一层 Transformer 的隐状态向量再做一次线性映射到词表大小维度,得到各个 token 的 logits,接着做
softmax得到概率分布。 -
(可选)若干下游任务专用头:分类头(CLS→全连接→Softmax)、抽取式 QA 头(start/end logits)、序列标注头等。
-
子模块:
-
功能:
- Training Objective(训练目标/损失函数)
-
**Masked Language Modeling (MLM)**:随机掩蔽部分 token,预测被掩蔽的 token id(BERT、RoBERTa)。
-
**Causal Language Modeling (CLM)**:依次预测下一个 token(GPT 系列、LLaMA、GLM)。
-
**Sequence-to-Sequence (Seq2Seq)**:下游任务的交叉熵损失(机器翻译、对话生成)。
-
Next Sentence Prediction / Sentence Order Prediction(BERT早期实验/后续改进可能弃用)。
-
对比学习、EMD、Knowledge Distillation、RLHF 等:高级任务拓展。
-
常见方式:
-
损失函数:通常用交叉熵(Cross-Entropy),对于对抗式训练、RLHF 可能带有额外奖励项(Reward+KL 整合)。
- 优化器 & 学习率调度
-
Dropout(在 Attention 概率、FFN 输出层、Embedding 等位置)
-
Label Smoothing(对标签做平滑处理)
-
权重衰减(Weight Decay)、LayerNorm 稳定化
-
Warm-up(线性/余弦/指数 Warm-up)→ 学习率达到峰值后线性/余弦/指数衰减
-
余弦退火(cosine decay)、多段式(Step LR)、周期性学习率等
-
优化器:Adam、AdamW、LAMB、Lion 等;需要掌握它们的动量、权重衰减、超参意义。
-
学习率调度:
-
正则化:
- Advanced Modules(高级模块/扩展结构)
- Sparse Attention(稀疏注意力):如 Longformer、BigBird,用于长序列缩减计算
- Flash Attention / Flash Attention 2:GPU 上的Attention Kernel 优化,加速自注意力计算
- **Mixture of Experts (MoE)**:Sparse MoE 层只激活部分专家,提升参数效率
- Prefix-Tuning / Prompt-Tuning:在输入端添加可学习前缀以做轻量化调优
- **Adapter Layers / Low-Rank Adaptation (LoRA)**:添加小规模适配器、低秩矩阵以微调大模型
- Vision-Language 层:图像特征的 Patch Embedding → 线性投影 → 插入到 Transformer 输入侧,双模式交互层
- LayerDrop / LayerScale / ReZero:改进 Transformer 深度稳定性和性能
- Inference & Serving
-
FlashAttention、Tensor Parallelism、CPU Offload、分块计算(Chunking)
-
KV Cache 机制:一次推理多 token 时缓存 key/value 减少重复计算
-
Beam Search / Sampling 策略:Beam Search、Top-k, Top-p(Nucleus) Sampling,用于生成任务
-
量化(Quantization):8-bit、4-bit、混合精度量化推理
-
剪枝(Pruning):Structured/Unstructured 剪枝,Sparse GPT
-
Distillation:由大模型蒸馏得到小模型(TinyBERT、MiniLM),兼顾速度和精度
-
Pipeline Parallelism / Model Parallelism:针对超大模型进行多卡并行推理
-
内存优化:
二、必须掌握的“八股知识”(核心基础模块)
以下八个方面是学习和面试空间中最常被提及的“底层/基础”知识点,属于必须熟练掌握的“八股”基础:
- 线性代数与张量运算
- 矩阵、向量、张量的基本概念与广播机制(Broadcasting)
- 矩阵乘法、转置、逆、特征值分解、奇异值分解(SVD)基本原理
- 向量内积、范数、正交、梯度维护在张量上的应用
- 概率与统计基础
- 概率密度函数(PDF)与分布函数(CDF)、期望、方差、协方差、联合概率、条件概率
- 交叉熵(Cross-Entropy)、困惑度(Perplexity)、KL 散度(KL Divergence)
- 贝叶斯定理、最大似然估计(MLE)、最大后验(MAP)、正则化与先验关系
- 优化与梯度下降
- 梯度下降(GD)、随机梯度下降(SGD)、动量(Momentum)
- Adam 系列(Adam、AdamW、LAMB、AdaFactor)及其超参:学习率、β1、β2、ε、weight_decay 等
- 学习率调度:线性 Warm-up、余弦衰减(Cosine Decay)、Step LR、多周期策略
- 梯度裁剪(Gradient Clipping)、Batch Norm 与 LayerNorm 差异
- 注意力机制(Attention)
- Scaled Dot-Product Attention 细节:
QK^T / √d_k、Softmax、上下文向量 - 多头注意力(Multi-Head Attention)的并行思想:为什么要分头?如何拼接再线性投影?
- Mask 的使用:Padding Mask、Sequence Mask、Causal Mask(自回归时序)
- 注意力计算复杂度与空间复杂度:O(n²·d)、FlashAttention 提速思路
- Transformer 核心结构
- Encoder / Decoder 结构区别:自注意力 vs. 自回归 & 编码器-解码器注意力
- 前馈网络(FFN)的形状和激活:
Linear → GELU/GeLU → Linear - 残差连接(Residual Connection)和层归一化(LayerNorm)的作用与顺序
- 位置编码(Positional Encoding):固定(Sinusoidal) vs. 可学习(Learnable)
- 语言模型 Objectives
- Autoregressive (AR) Language Modeling:下一 token 预测(GPT 系列)
- Masked Language Modeling (MLM):随机遮蔽 token(BERT、RoBERTa)
- Permuted Language Modeling (PLM):XLNet 方案、类似 MLM 的变体
- Seq2Seq/Encoder-Decoder LM:T5、BART、mBART、mT5
- 额外任务:Next Sentence Prediction (NSP)、Sentence Order Prediction (SOP)、Span Masking
- 模型调优策略(Fine-Tuning & Adaptation)
- 全参数微调(Full Fine-Tuning) vs. 冷冻大部分层(Freeze)
- Prompt Tuning / Prefix Tuning / P-Tuning:在输入添加可学习 prompt token
- Adapter / LoRA / Low-Rank Adaptation:往模型中插入小规模适配器,减少微调开销
- 蒸馏(Knowledge Distillation):Teacher → Student 蒸馏,Temperature、Soft Label 用法
- RLHF(Reinforcement Learning from Human Feedback):策略梯度、Human Preference 数据收集
- 推理优化 & 部署
- Beam Search / Greedy / Top-k / Top-p (Nucleus) Sampling:生成策略的差异与应用场景
- Quantization(量化):Post-Training Quantization、Quantization-Aware Training(QAT)
- Pruning(剪枝):Non-Structured / Structured 剪枝、稀疏化 Sparse GPT
- 并行与分布式:Tensor Parallelism、Pipeline Parallelism、ZeRO 优化(DeepSpeed)
- KV Cache 机制:自回归时减少重复计算
- ONNX / TensorRT / TVM / XLA 加速:导出格式和底层加速原理
三、可能考察的知识点(面试/考试延伸)
下面列出在面试、笔试或技术分享中常见的延伸考察点,这些内容并不一定都要“深度掌握”,但至少需要知道概念、应用场景,能回答“这是什么”“有什么作用”:
- 长序列处理与稀疏注意力
- Longformer、BigBird、Reformer:Sparse Attention 原理
- Linear Attention:如 Performer、Linformer,降低自注意力复杂度
- 混合专家模型(Mixture of Experts)
- MoE 层的基本原理:Gating Network + 多路专家,如何实现稀疏路由
- 优缺点:参数爆炸 vs. 计算稀疏化
- Prompt Engineering & Chain-of-Thought
- Prompt 模式:Zero-shot / Few-shot / Chain-of-Thought(CoT)
- 扩散式思路:如何构造问题才能让 LLM 输出更优解?
- 多模态模型
- Vision Transformer (ViT) / CLIP / Flamingo / PaLI / GPT-4 Vision:图像特征转化为“Patch Embedding”,再与文本交互
- Query/Key/Value 三者如何适配图像与文本
- 大规模预训练数据与数据质量
- Common Crawl、The Pile、LAION-5B、WebText、C4 数据集特点
- 数据清洗:去重、过滤低质量、敏感信息
- 消融实验与性能评估
- Perplexity / BLEU / ROUGE / METEOR / CLIP Score 等评价指标
- 消融实验:移除某个模块或改变某个超参,观察效果变化
- 安全与对齐(Alignment)
- 有毒内容检测、偏见检测(Bias)
- 对齐思路:RLHF(奖励模型训练)、安全拦截、AITesting、红队攻防
- 法律与伦理
- 训练数据版权问题、隐私保护
- 模型输出隐私泄露风险(Membership Inference、PATE 等)
- 数据审查与合规性(GDPR、CCPA、北京 AI 法规等)
- 大模型可解释性
- Attention 可视化:在特定句子上的 Attention 分布
- 反事实解释(Counterfactual Explanations)、Gradient-based 解释法(Integrated Gradients)
- 模型压缩与小模型设计
- TinyBERT、DistilBERT、MobileBERT:蒸馏技巧
- 结构化剪枝、低秩分解、知识蒸馏、量化并用
- 分布式训练与系统优化
- 数据并行 vs. 模型并行 vs. Pipeline 并行 vs. ZeRO 等技术
- 混合精度训练(FP16、BF16)与梯度累积(Gradient Accumulation)
四、小结与学习建议
- 先打牢“八股”基础:线性代数、概率论、优化器、注意力机制、Transformer 基本结构与训练目标、微调方法、推理优化——这八大板块一一过一遍,做到能写出代码、能够回答原理。
- 搭建好“模块化”认知:掌握大模型的各层模块和它们的输入输出是什么、作用是什么。比如从 Embedding → Attention → FFN → 输出层,每层都要弄懂数据流与梯度流。
- 动手实践:至少把一个小型 Transformer(例如用 PyTorch 或 TensorFlow)自己从头搭建、训练一个小数据集,完成前向与反向传播;再使用开源框架(Hugging Face Transformers)微调一个预训练模型。
- 阅读代表性论文与源码:
- Transformer 原始论文 (“Attention Is All You Need”)
- BERT / GPT 系列 / T5 / LLaMA / Bloom / PaLM 等核心论文
- Hugging Face Transformers 源码架构
- 关注实战与面试热点:安全与对齐、长序列扩展、MoE、Prompt 工程、多模态、量化剪枝等;同时积累常见的面试问答:
- “为什么要做 LayerNorm 而不是 BatchNorm?”
- “为什么多头注意力要分
head?有何意义?” - “如何避免梯度消失/爆炸?”
- “解释一下 Self-Attention 的计算流程”
- “如何在有限显存下训练十亿级别模型?”
- 练习刷题与项目:针对不同难度(300M/1B/10B/百亿参数),尝试自己做一个小项目(如文本分类/情感分析/对话生成),熟悉端到端流程。
以上内容从架构模块、基础“八股”知识、到可能延伸考察点都做了较为全面的归纳。建议你循序渐进,先夯实核心知识,再逐步拓展深入。祝你学习顺利,走向“大模型专家”之路!
从三大维度(主流大模型的架构模块、必须掌握的“八股”基础知识,以及面试/考试中常见的延伸考察点)进行归纳总结,帮助你构建一个系统化的知识框架。
一、主流大模型的架构模块
当下以 Transformer 为核心的大模型(如 BERT、GPT、LLaMA、PaLM、Claude、Mixtral 等)基本都遵循以下模块化设计。下面按照从下游到上游、从训练到推理的顺序逐层归纳:
- Tokenization(分词与词表)
-
将原始文本(UTF-8 字符串)切分成若干个 token;
-
每个 token 映射到一个唯一的整数 ID,构成模型输入序列;
-
处理长度限制(truncation)、填充(padding)、特殊符号插入。
-
字符级/字节级分词(Byte-Pair Encoding、SentencePiece、WordPiece、BPE-Fuse 等)
-
词表(Vocabulary)及其映射映射表(token → id、id → token)
-
特殊标记(
[CLS],[SEP],[BOS],[EOS],[PAD],[UNK]等) -
子模块:
-
功能:
- Embedding 层
-
将离散的 token 序列转换为一组初始向量表示,传入 Transformer 主干;
-
提供“顺序感知”能力,让后续自注意力(Self-Attention)能区分不同位置。
-
Token Embedding:将 token id 投射到连续实数向量空间(通常维度为 768、1024、2048 等)。
-
Position Embedding:为每个位置(序列索引)添加可学习或固定的位置编码(sinusoid、learnable)。
-
(部分模型)Segment/Token-Type Embedding:BERT 中用于表示句子 A/句子 B。
-
子模块:
-
功能:
- Transformer Encoder/Decoder Block(Transformer 编码器/解码器层)
-
小规模模型可能 6 层;中等规模 12–24 层;超大模型 48 层、64 层、甚至上百层。
-
Encoder:仅有自注意力层,注意力可以“看到”所有位置(mask = 0)。
-
Decoder:有两阶段注意力:
-
Query/Key/Value 线性映射
-
Scaled Dot-Product Attention(
softmax(QK^T/√d_k)·V) -
多头注意力(Multi-Head Attention):
head_i = Attention(QW^Q_i, KW^K_i, VW^V_i),然后拼接再线性投影 -
通常是两层线性变换 + 非线性激活(如 GELU、ReLU),中间维度一般为
4×hidden_size -
公式:
FFN(x) = max(0, xW1 + b1)W2 + b2(或GELU激活) -
通用组成:
-
Encoder vs. Decoder 差异:
-
堆叠深度:
-
Masked Self-Attention(只能看到当前位置及之前;下一步预测时防止信息泄露)
-
Encoder-Decoder Attention(将 Decoder 当前隐状态与 Encoder 的输出做注意力交互)
-
LayerNorm(层归一化)
-
Self-Attention(自注意力子层)
-
Residual Connection:将自注意力子层的输入与输出相加
-
Add & Norm:对相加结果进行 LayerNorm
-
Feed-Forward Network(前馈全连接网络)
-
Residual Connection + LayerNorm:将前馈网络的输入与输出相加后归一化
-
Output Layer(投影头/语言模型头)
-
将 Transformer 最终特征转换成下游任务所需的输出格式(语言建模概率、分类概率、序列标注标签等)。
-
线性投影 + Softmax:通常将最后一层 Transformer 的隐状态向量再做一次线性映射到词表大小维度,得到各个 token 的 logits,接着做
softmax得到概率分布。 -
(可选)若干下游任务专用头:分类头(CLS→全连接→Softmax)、抽取式 QA 头(start/end logits)、序列标注头等。
-
子模块:
-
功能:
- Training Objective(训练目标/损失函数)
-
**Masked Language Modeling (MLM)**:随机掩蔽部分 token,预测被掩蔽的 token id(BERT、RoBERTa)。
-
**Causal Language Modeling (CLM)**:依次预测下一个 token(GPT 系列、LLaMA、GLM)。
-
**Sequence-to-Sequence (Seq2Seq)**:下游任务的交叉熵损失(机器翻译、对话生成)。
-
Next Sentence Prediction / Sentence Order Prediction(BERT早期实验/后续改进可能弃用)。
-
对比学习、EMD、Knowledge Distillation、RLHF 等:高级任务拓展。
-
常见方式:
-
损失函数:通常用交叉熵(Cross-Entropy),对于对抗式训练、RLHF 可能带有额外奖励项(Reward+KL 整合)。
- 优化器 & 学习率调度
-
Dropout(在 Attention 概率、FFN 输出层、Embedding 等位置)
-
Label Smoothing(对标签做平滑处理)
-
权重衰减(Weight Decay)、LayerNorm 稳定化
-
Warm-up(线性/余弦/指数 Warm-up)→ 学习率达到峰值后线性/余弦/指数衰减
-
余弦退火(cosine decay)、多段式(Step LR)、周期性学习率等
-
优化器:Adam、AdamW、LAMB、Lion 等;需要掌握它们的动量、权重衰减、超参意义。
-
学习率调度:
-
正则化:
- Advanced Modules(高级模块/扩展结构)
- Sparse Attention(稀疏注意力):如 Longformer、BigBird,用于长序列缩减计算
- Flash Attention / Flash Attention 2:GPU 上的Attention Kernel 优化,加速自注意力计算
- **Mixture of Experts (MoE)**:Sparse MoE 层只激活部分专家,提升参数效率
- Prefix-Tuning / Prompt-Tuning:在输入端添加可学习前缀以做轻量化调优
- **Adapter Layers / Low-Rank Adaptation (LoRA)**:添加小规模适配器、低秩矩阵以微调大模型
- Vision-Language 层:图像特征的 Patch Embedding → 线性投影 → 插入到 Transformer 输入侧,双模式交互层
- LayerDrop / LayerScale / ReZero:改进 Transformer 深度稳定性和性能
- Inference & Serving
-
FlashAttention、Tensor Parallelism、CPU Offload、分块计算(Chunking)
-
KV Cache 机制:一次推理多 token 时缓存 key/value 减少重复计算
-
Beam Search / Sampling 策略:Beam Search、Top-k, Top-p(Nucleus) Sampling,用于生成任务
-
量化(Quantization):8-bit、4-bit、混合精度量化推理
-
剪枝(Pruning):Structured/Unstructured 剪枝,Sparse GPT
-
Distillation:由大模型蒸馏得到小模型(TinyBERT、MiniLM),兼顾速度和精度
-
Pipeline Parallelism / Model Parallelism:针对超大模型进行多卡并行推理
-
内存优化:
二、必须掌握的“八股知识”(核心基础模块)
以下八个方面是学习和面试空间中最常被提及的“底层/基础”知识点,属于必须熟练掌握的“八股”基础:
- 线性代数与张量运算
- 矩阵、向量、张量的基本概念与广播机制(Broadcasting)
- 矩阵乘法、转置、逆、特征值分解、奇异值分解(SVD)基本原理
- 向量内积、范数、正交、梯度维护在张量上的应用
- 概率与统计基础
- 概率密度函数(PDF)与分布函数(CDF)、期望、方差、协方差、联合概率、条件概率
- 交叉熵(Cross-Entropy)、困惑度(Perplexity)、KL 散度(KL Divergence)
- 贝叶斯定理、最大似然估计(MLE)、最大后验(MAP)、正则化与先验关系
- 优化与梯度下降
- 梯度下降(GD)、随机梯度下降(SGD)、动量(Momentum)
- Adam 系列(Adam、AdamW、LAMB、AdaFactor)及其超参:学习率、β1、β2、ε、weight_decay 等
- 学习率调度:线性 Warm-up、余弦衰减(Cosine Decay)、Step LR、多周期策略
- 梯度裁剪(Gradient Clipping)、Batch Norm 与 LayerNorm 差异
- 注意力机制(Attention)
- Scaled Dot-Product Attention 细节:
QK^T / √d_k、Softmax、上下文向量 - 多头注意力(Multi-Head Attention)的并行思想:为什么要分头?如何拼接再线性投影?
- Mask 的使用:Padding Mask、Sequence Mask、Causal Mask(自回归时序)
- 注意力计算复杂度与空间复杂度:O(n²·d)、FlashAttention 提速思路
- Transformer 核心结构
- Encoder / Decoder 结构区别:自注意力 vs. 自回归 & 编码器-解码器注意力
- 前馈网络(FFN)的形状和激活:
Linear → GELU/GeLU → Linear - 残差连接(Residual Connection)和层归一化(LayerNorm)的作用与顺序
- 位置编码(Positional Encoding):固定(Sinusoidal) vs. 可学习(Learnable)
- 语言模型 Objectives
- Autoregressive (AR) Language Modeling:下一 token 预测(GPT 系列)
- Masked Language Modeling (MLM):随机遮蔽 token(BERT、RoBERTa)
- Permuted Language Modeling (PLM):XLNet 方案、类似 MLM 的变体
- Seq2Seq/Encoder-Decoder LM:T5、BART、mBART、mT5
- 额外任务:Next Sentence Prediction (NSP)、Sentence Order Prediction (SOP)、Span Masking
- 模型调优策略(Fine-Tuning & Adaptation)
- 全参数微调(Full Fine-Tuning) vs. 冷冻大部分层(Freeze)
- Prompt Tuning / Prefix Tuning / P-Tuning:在输入添加可学习 prompt token
- Adapter / LoRA / Low-Rank Adaptation:往模型中插入小规模适配器,减少微调开销
- 蒸馏(Knowledge Distillation):Teacher → Student 蒸馏,Temperature、Soft Label 用法
- RLHF(Reinforcement Learning from Human Feedback):策略梯度、Human Preference 数据收集
- 推理优化 & 部署
- Beam Search / Greedy / Top-k / Top-p (Nucleus) Sampling:生成策略的差异与应用场景
- Quantization(量化):Post-Training Quantization、Quantization-Aware Training(QAT)
- Pruning(剪枝):Non-Structured / Structured 剪枝、稀疏化 Sparse GPT
- 并行与分布式:Tensor Parallelism、Pipeline Parallelism、ZeRO 优化(DeepSpeed)
- KV Cache 机制:自回归时减少重复计算
- ONNX / TensorRT / TVM / XLA 加速:导出格式和底层加速原理
三、可能考察的知识点(面试/考试延伸)
下面列出在面试、笔试或技术分享中常见的延伸考察点,这些内容并不一定都要“深度掌握”,但至少需要知道概念、应用场景,能回答“这是什么”“有什么作用”:
- 长序列处理与稀疏注意力
- Longformer、BigBird、Reformer:Sparse Attention 原理
- Linear Attention:如 Performer、Linformer,降低自注意力复杂度
- 混合专家模型(Mixture of Experts)
- MoE 层的基本原理:Gating Network + 多路专家,如何实现稀疏路由
- 优缺点:参数爆炸 vs. 计算稀疏化
- Prompt Engineering & Chain-of-Thought
- Prompt 模式:Zero-shot / Few-shot / Chain-of-Thought(CoT)
- 扩散式思路:如何构造问题才能让 LLM 输出更优解?
- 多模态模型
- Vision Transformer (ViT) / CLIP / Flamingo / PaLI / GPT-4 Vision:图像特征转化为“Patch Embedding”,再与文本交互
- Query/Key/Value 三者如何适配图像与文本
- 大规模预训练数据与数据质量
- Common Crawl、The Pile、LAION-5B、WebText、C4 数据集特点
- 数据清洗:去重、过滤低质量、敏感信息
- 消融实验与性能评估
- Perplexity / BLEU / ROUGE / METEOR / CLIP Score 等评价指标
- 消融实验:移除某个模块或改变某个超参,观察效果变化
- 安全与对齐(Alignment)
- 有毒内容检测、偏见检测(Bias)
- 对齐思路:RLHF(奖励模型训练)、安全拦截、AITesting、红队攻防
- 法律与伦理
- 训练数据版权问题、隐私保护
- 模型输出隐私泄露风险(Membership Inference、PATE 等)
- 数据审查与合规性(GDPR、CCPA、北京 AI 法规等)
- 大模型可解释性
- Attention 可视化:在特定句子上的 Attention 分布
- 反事实解释(Counterfactual Explanations)、Gradient-based 解释法(Integrated Gradients)
- 模型压缩与小模型设计
- TinyBERT、DistilBERT、MobileBERT:蒸馏技巧
- 结构化剪枝、低秩分解、知识蒸馏、量化并用
- 分布式训练与系统优化
- 数据并行 vs. 模型并行 vs. Pipeline 并行 vs. ZeRO 等技术
- 混合精度训练(FP16、BF16)与梯度累积(Gradient Accumulation)
四、小结与学习建议
- 先打牢“八股”基础:线性代数、概率论、优化器、注意力机制、Transformer 基本结构与训练目标、微调方法、推理优化——这八大板块一一过一遍,做到能写出代码、能够回答原理。
- 搭建好“模块化”认知:掌握大模型的各层模块和它们的输入输出是什么、作用是什么。比如从 Embedding → Attention → FFN → 输出层,每层都要弄懂数据流与梯度流。
- 动手实践:至少把一个小型 Transformer(例如用 PyTorch 或 TensorFlow)自己从头搭建、训练一个小数据集,完成前向与反向传播;再使用开源框架(Hugging Face Transformers)微调一个预训练模型。
- 阅读代表性论文与源码:
- Transformer 原始论文 (“Attention Is All You Need”)
- BERT / GPT 系列 / T5 / LLaMA / Bloom / PaLM 等核心论文
- Hugging Face Transformers 源码架构
- 关注实战与面试热点:安全与对齐、长序列扩展、MoE、Prompt 工程、多模态、量化剪枝等;同时积累常见的面试问答:
- “为什么要做 LayerNorm 而不是 BatchNorm?”
- “为什么多头注意力要分
head?有何意义?” - “如何避免梯度消失/爆炸?”
- “解释一下 Self-Attention 的计算流程”
- “如何在有限显存下训练十亿级别模型?”
- 练习刷题与项目:针对不同难度(300M/1B/10B/百亿参数),尝试自己做一个小项目(如文本分类/情感分析/对话生成),熟悉端到端流程。
以上内容从架构模块、基础“八股”知识、到可能延伸考察点都做了较为全面的归纳。建议你循序渐进,先夯实核心知识,再逐步拓展深入。祝你学习顺利,走向“大模型专家”之路!
以下内容为你从三大维度(主流大模型的架构模块、必须掌握的“八股”基础知识,以及面试/考试中常见的延伸考察点)进行归纳总结,帮助你构建一个系统化的知识框架。
一、主流大模型的架构模块
当下以 Transformer 为核心的大模型(如 BERT、GPT、LLaMA、PaLM、Claude、Mixtral 等)基本都遵循以下模块化设计。下面按照从下游到上游、从训练到推理的顺序逐层归纳:
- Tokenization(分词与词表)
-
将原始文本(UTF-8 字符串)切分成若干个 token;
-
每个 token 映射到一个唯一的整数 ID,构成模型输入序列;
-
处理长度限制(truncation)、填充(padding)、特殊符号插入。
-
字符级/字节级分词(Byte-Pair Encoding、SentencePiece、WordPiece、BPE-Fuse 等)
-
词表(Vocabulary)及其映射映射表(token → id、id → token)
-
特殊标记(
[CLS],[SEP],[BOS],[EOS],[PAD],[UNK]等) -
子模块:
-
功能:
- Embedding 层
-
将离散的 token 序列转换为一组初始向量表示,传入 Transformer 主干;
-
提供“顺序感知”能力,让后续自注意力(Self-Attention)能区分不同位置。
-
Token Embedding:将 token id 投射到连续实数向量空间(通常维度为 768、1024、2048 等)。
-
Position Embedding:为每个位置(序列索引)添加可学习或固定的位置编码(sinusoid、learnable)。
-
(部分模型)Segment/Token-Type Embedding:BERT 中用于表示句子 A/句子 B。
-
子模块:
-
功能:
- Transformer Encoder/Decoder Block(Transformer 编码器/解码器层)
-
小规模模型可能 6 层;中等规模 12–24 层;超大模型 48 层、64 层、甚至上百层。
-
Encoder:仅有自注意力层,注意力可以“看到”所有位置(mask = 0)。
-
Decoder:有两阶段注意力:
-
Query/Key/Value 线性映射
-
Scaled Dot-Product Attention(
softmax(QK^T/√d_k)·V) -
多头注意力(Multi-Head Attention):
head_i = Attention(QW^Q_i, KW^K_i, VW^V_i),然后拼接再线性投影 -
通常是两层线性变换 + 非线性激活(如 GELU、ReLU),中间维度一般为
4×hidden_size -
公式:
FFN(x) = max(0, xW1 + b1)W2 + b2(或GELU激活) -
通用组成:
-
Encoder vs. Decoder 差异:
-
堆叠深度:
-
Masked Self-Attention(只能看到当前位置及之前;下一步预测时防止信息泄露)
-
Encoder-Decoder Attention(将 Decoder 当前隐状态与 Encoder 的输出做注意力交互)
-
LayerNorm(层归一化)
-
Self-Attention(自注意力子层)
-
Residual Connection:将自注意力子层的输入与输出相加
-
Add & Norm:对相加结果进行 LayerNorm
-
Feed-Forward Network(前馈全连接网络)
-
Residual Connection + LayerNorm:将前馈网络的输入与输出相加后归一化
-
Output Layer(投影头/语言模型头)
-
将 Transformer 最终特征转换成下游任务所需的输出格式(语言建模概率、分类概率、序列标注标签等)。
-
线性投影 + Softmax:通常将最后一层 Transformer 的隐状态向量再做一次线性映射到词表大小维度,得到各个 token 的 logits,接着做
softmax得到概率分布。 -
(可选)若干下游任务专用头:分类头(CLS→全连接→Softmax)、抽取式 QA 头(start/end logits)、序列标注头等。
-
子模块:
-
功能:
- Training Objective(训练目标/损失函数)
-
**Masked Language Modeling (MLM)**:随机掩蔽部分 token,预测被掩蔽的 token id(BERT、RoBERTa)。
-
**Causal Language Modeling (CLM)**:依次预测下一个 token(GPT 系列、LLaMA、GLM)。
-
**Sequence-to-Sequence (Seq2Seq)**:下游任务的交叉熵损失(机器翻译、对话生成)。
-
Next Sentence Prediction / Sentence Order Prediction(BERT早期实验/后续改进可能弃用)。
-
对比学习、EMD、Knowledge Distillation、RLHF 等:高级任务拓展。
-
常见方式:
-
损失函数:通常用交叉熵(Cross-Entropy),对于对抗式训练、RLHF 可能带有额外奖励项(Reward+KL 整合)。
- 优化器 & 学习率调度
-
Dropout(在 Attention 概率、FFN 输出层、Embedding 等位置)
-
Label Smoothing(对标签做平滑处理)
-
权重衰减(Weight Decay)、LayerNorm 稳定化
-
Warm-up(线性/余弦/指数 Warm-up)→ 学习率达到峰值后线性/余弦/指数衰减
-
余弦退火(cosine decay)、多段式(Step LR)、周期性学习率等
-
优化器:Adam、AdamW、LAMB、Lion 等;需要掌握它们的动量、权重衰减、超参意义。
-
学习率调度:
-
正则化:
- Advanced Modules(高级模块/扩展结构)
- Sparse Attention(稀疏注意力):如 Longformer、BigBird,用于长序列缩减计算
- Flash Attention / Flash Attention 2:GPU 上的Attention Kernel 优化,加速自注意力计算
- **Mixture of Experts (MoE)**:Sparse MoE 层只激活部分专家,提升参数效率
- Prefix-Tuning / Prompt-Tuning:在输入端添加可学习前缀以做轻量化调优
- **Adapter Layers / Low-Rank Adaptation (LoRA)**:添加小规模适配器、低秩矩阵以微调大模型
- Vision-Language 层:图像特征的 Patch Embedding → 线性投影 → 插入到 Transformer 输入侧,双模式交互层
- LayerDrop / LayerScale / ReZero:改进 Transformer 深度稳定性和性能
- Inference & Serving
-
FlashAttention、Tensor Parallelism、CPU Offload、分块计算(Chunking)
-
KV Cache 机制:一次推理多 token 时缓存 key/value 减少重复计算
-
Beam Search / Sampling 策略:Beam Search、Top-k, Top-p(Nucleus) Sampling,用于生成任务
-
量化(Quantization):8-bit、4-bit、混合精度量化推理
-
剪枝(Pruning):Structured/Unstructured 剪枝,Sparse GPT
-
Distillation:由大模型蒸馏得到小模型(TinyBERT、MiniLM),兼顾速度和精度
-
Pipeline Parallelism / Model Parallelism:针对超大模型进行多卡并行推理
-
内存优化:
二、必须掌握的“八股知识”(核心基础模块)
以下八个方面是学习和面试空间中最常被提及的“底层/基础”知识点,属于必须熟练掌握的“八股”基础:
- 线性代数与张量运算
- 矩阵、向量、张量的基本概念与广播机制(Broadcasting)
- 矩阵乘法、转置、逆、特征值分解、奇异值分解(SVD)基本原理
- 向量内积、范数、正交、梯度维护在张量上的应用
- 概率与统计基础
- 概率密度函数(PDF)与分布函数(CDF)、期望、方差、协方差、联合概率、条件概率
- 交叉熵(Cross-Entropy)、困惑度(Perplexity)、KL 散度(KL Divergence)
- 贝叶斯定理、最大似然估计(MLE)、最大后验(MAP)、正则化与先验关系
- 优化与梯度下降
- 梯度下降(GD)、随机梯度下降(SGD)、动量(Momentum)
- Adam 系列(Adam、AdamW、LAMB、AdaFactor)及其超参:学习率、β1、β2、ε、weight_decay 等
- 学习率调度:线性 Warm-up、余弦衰减(Cosine Decay)、Step LR、多周期策略
- 梯度裁剪(Gradient Clipping)、Batch Norm 与 LayerNorm 差异
- 注意力机制(Attention)
- Scaled Dot-Product Attention 细节:
QK^T / √d_k、Softmax、上下文向量 - 多头注意力(Multi-Head Attention)的并行思想:为什么要分头?如何拼接再线性投影?
- Mask 的使用:Padding Mask、Sequence Mask、Causal Mask(自回归时序)
- 注意力计算复杂度与空间复杂度:O(n²·d)、FlashAttention 提速思路
- Transformer 核心结构
- Encoder / Decoder 结构区别:自注意力 vs. 自回归 & 编码器-解码器注意力
- 前馈网络(FFN)的形状和激活:
Linear → GELU/GeLU → Linear - 残差连接(Residual Connection)和层归一化(LayerNorm)的作用与顺序
- 位置编码(Positional Encoding):固定(Sinusoidal) vs. 可学习(Learnable)
- 语言模型 Objectives
- Autoregressive (AR) Language Modeling:下一 token 预测(GPT 系列)
- Masked Language Modeling (MLM):随机遮蔽 token(BERT、RoBERTa)
- Permuted Language Modeling (PLM):XLNet 方案、类似 MLM 的变体
- Seq2Seq/Encoder-Decoder LM:T5、BART、mBART、mT5
- 额外任务:Next Sentence Prediction (NSP)、Sentence Order Prediction (SOP)、Span Masking
- 模型调优策略(Fine-Tuning & Adaptation)
- 全参数微调(Full Fine-Tuning) vs. 冷冻大部分层(Freeze)
- Prompt Tuning / Prefix Tuning / P-Tuning:在输入添加可学习 prompt token
- Adapter / LoRA / Low-Rank Adaptation:往模型中插入小规模适配器,减少微调开销
- 蒸馏(Knowledge Distillation):Teacher → Student 蒸馏,Temperature、Soft Label 用法
- RLHF(Reinforcement Learning from Human Feedback):策略梯度、Human Preference 数据收集
- 推理优化 & 部署
- Beam Search / Greedy / Top-k / Top-p (Nucleus) Sampling:生成策略的差异与应用场景
- Quantization(量化):Post-Training Quantization、Quantization-Aware Training(QAT)
- Pruning(剪枝):Non-Structured / Structured 剪枝、稀疏化 Sparse GPT
- 并行与分布式:Tensor Parallelism、Pipeline Parallelism、ZeRO 优化(DeepSpeed)
- KV Cache 机制:自回归时减少重复计算
- ONNX / TensorRT / TVM / XLA 加速:导出格式和底层加速原理
三、可能考察的知识点(面试/考试延伸)
下面列出在面试、笔试或技术分享中常见的延伸考察点,这些内容并不一定都要“深度掌握”,但至少需要知道概念、应用场景,能回答“这是什么”“有什么作用”:
- 长序列处理与稀疏注意力
- Longformer、BigBird、Reformer:Sparse Attention 原理
- Linear Attention:如 Performer、Linformer,降低自注意力复杂度
- 混合专家模型(Mixture of Experts)
- MoE 层的基本原理:Gating Network + 多路专家,如何实现稀疏路由
- 优缺点:参数爆炸 vs. 计算稀疏化
- Prompt Engineering & Chain-of-Thought
- Prompt 模式:Zero-shot / Few-shot / Chain-of-Thought(CoT)
- 扩散式思路:如何构造问题才能让 LLM 输出更优解?
- 多模态模型
- Vision Transformer (ViT) / CLIP / Flamingo / PaLI / GPT-4 Vision:图像特征转化为“Patch Embedding”,再与文本交互
- Query/Key/Value 三者如何适配图像与文本
- 大规模预训练数据与数据质量
- Common Crawl、The Pile、LAION-5B、WebText、C4 数据集特点
- 数据清洗:去重、过滤低质量、敏感信息
- 消融实验与性能评估
- Perplexity / BLEU / ROUGE / METEOR / CLIP Score 等评价指标
- 消融实验:移除某个模块或改变某个超参,观察效果变化
- 安全与对齐(Alignment)
- 有毒内容检测、偏见检测(Bias)
- 对齐思路:RLHF(奖励模型训练)、安全拦截、AITesting、红队攻防
- 法律与伦理
- 训练数据版权问题、隐私保护
- 模型输出隐私泄露风险(Membership Inference、PATE 等)
- 数据审查与合规性(GDPR、CCPA、北京 AI 法规等)
- 大模型可解释性
- Attention 可视化:在特定句子上的 Attention 分布
- 反事实解释(Counterfactual Explanations)、Gradient-based 解释法(Integrated Gradients)
- 模型压缩与小模型设计
- TinyBERT、DistilBERT、MobileBERT:蒸馏技巧
- 结构化剪枝、低秩分解、知识蒸馏、量化并用
- 分布式训练与系统优化
- 数据并行 vs. 模型并行 vs. Pipeline 并行 vs. ZeRO 等技术
- 混合精度训练(FP16、BF16)与梯度累积(Gradient Accumulation)
四、小结与学习建议
- 先打牢“八股”基础:线性代数、概率论、优化器、注意力机制、Transformer 基本结构与训练目标、微调方法、推理优化——这八大板块一一过一遍,做到能写出代码、能够回答原理。
- 搭建好“模块化”认知:掌握大模型的各层模块和它们的输入输出是什么、作用是什么。比如从 Embedding → Attention → FFN → 输出层,每层都要弄懂数据流与梯度流。
- 动手实践:至少把一个小型 Transformer(例如用 PyTorch 或 TensorFlow)自己从头搭建、训练一个小数据集,完成前向与反向传播;再使用开源框架(Hugging Face Transformers)微调一个预训练模型。
- 阅读代表性论文与源码:
- Transformer 原始论文 (“Attention Is All You Need”)
- BERT / GPT 系列 / T5 / LLaMA / Bloom / PaLM 等核心论文
- Hugging Face Transformers 源码架构
- 关注实战与面试热点:安全与对齐、长序列扩展、MoE、Prompt 工程、多模态、量化剪枝等;同时积累常见的面试问答:
- “为什么要做 LayerNorm 而不是 BatchNorm?”
- “为什么多头注意力要分
head?有何意义?” - “如何避免梯度消失/爆炸?”
- “解释一下 Self-Attention 的计算流程”
- “如何在有限显存下训练十亿级别模型?”
- 练习刷题与项目:针对不同难度(300M/1B/10B/百亿参数),尝试自己做一个小项目(如文本分类/情感分析/对话生成),熟悉端到端流程。
以上内容从架构模块、基础“八股”知识、到可能延伸考察点都做了较为全面的归纳。建议你循序渐进,先夯实核心知识,再逐步拓展深入。祝你学习顺利,走向“大模型专家”之路!
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐



所有评论(0)