大模型最核心的三大架构类型
大模型三大架构
架构
大模型(LLM)常说的“架构”,主要指 Transformer 架构的不同变体,尤其是 Encoder、Decoder、Encoder-Decoder 三种宏观结构。除此之外,还有一些子结构与改进版本。下面我给你系统整理一套“目前主流大模型架构体系”。
2018 年左右,Transformer 架构的神经网络模型开始崭露头角。通过大量文本数据训练这些模型,使它们能够通过阅读大量文本来深入理解语言规则和模式,就像让计算机阅读整个互联网一样,对语言有了更深刻的理解,极大地提升了模型在各种自然语言处理任务上的表现。
大模型(LLM)常说的“架构”,主要指 Transformer 架构的不同变体,尤其是 Encoder、Decoder、Encoder-Decoder 三种宏观结构。除此之外,还有一些子结构与改进版本。下面我给你系统整理一套“目前主流大模型架构体系”,非常适合你作为技术人员快速建立知识框架。
✅ 一、大模型最核心的三大架构类型
1)Decoder-Only(最常见)
大部分 ChatGPT 类对话模型都是这个架构。
代表模型
-
GPT 系列(GPT-2、GPT-3、GPT-4、GPT-4o…)
-
LLaMA 系列
-
Qwen(通义千问)
-
DeepSeek 系列
-
Baichuan
-
Yi(零一万物)
特点
-
只使用 Transformer 的 Decoder 堆叠
-
输入和输出都在同一个 token 流中
-
用于 生成任务(Language Modeling)
-
自回归(autoregressive):一个词接一个词生成
适用场景
-
聊天、续写、推理
-
代码生成
-
文本生成类任务
2)Encoder-Only(理解型)
更专注于文本理解,不擅长生成。
代表模型
-
BERT(史诗级代表)
-
RoBERTa
-
ERNIE(百度文心的底座模型)
-
DeBERTa(微软)
特点
-
只有 Transformer Encoder 堆叠
-
不能很好地产生流畅长文本
-
强理解能力
适用场景
-
文本分类
-
情感分析
-
信息抽取(NER)
-
各种 NLP 理解任务
3)Encoder-Decoder(Seq2Seq,曾经的主流)
以前机器翻译领域最强,现在生成型任务被 GPT 类模型替代。
代表模型
-
T5(Google)
-
BART
-
mT5
特点
-
Encoder 负责理解输入
-
Decoder 负责生成输出
-
曾经 SOTA,在翻译上表现很强
适用场景
-
翻译
-
摘要
-
文本改写(paraphrasing)
✅ 二、大模型中一些关键的“结构改进版本”
除了上面三大类,工业界还对 Transformer 做了大量优化:
4)MoE(Mixture-of-Experts)架构
多专家架构,让模型更大、更便宜。
代表模型
-
Google Switch Transformer
-
Google Gemini 系列(大量使用 MoE)
-
DeepSeek-MoE 系列
-
Mixtral 8×7B(很火)
特点
-
每层不是一个巨大的 FFN,而是多个专家 FFN,让路由器选择部分专家
-
显著提升参数规模而不增加等比例计算量
-
非常适合超大模型
5)RWKV(RNN + Attention 混合)
更省算力的新型架构。
代表模型
-
RWKV
特点:
-
用 RNN 的思想替代 Attention
-
推理可以 O(n) 处理,不像 Transformer 的 O(n²)
-
更省显存 & 更便宜
用途:边缘设备部署
6)State Space Model(SSM)架构,如 Mamba
今年火起来的新架构,能替代 Transformer。
代表模型
-
Mamba
-
Mamba-2
特点:
-
更高效的长序列建模
-
推理速度比 Transformer 快
-
有可能成为下一代 LLM 底座技术
✅ 三、图像/多模态相关架构
如果你准备做 AI 应用(前端也可以做多模态),这些也需要了解。
7)Vision Transformer(ViT)
-
图像版 Transformer
-
主流视觉模型几乎都是 ViT 或其变种
8)LLaVA / Qwen-VL / GPT-4o 类“对齐结构”
多模态模型通常使用:
-
ViT 做 Encoder(图像编码)
-
LLM(Decoder-Only)做文本生成
-
中间用一个投影器(Projection Layer)对齐特征
✅ 四、业界总结:大模型架构族谱图(你可以理解成这样)
Transformer
│
├── Encoder-Only
│ └── BERT / DeBERTa / ERNIE
│
├── Decoder-Only(主流LLM)
│ ├── GPT 系列
│ ├── LLaMA / Qwen / Yi
│ └── DeepSeek / Baichuan
│
├── Encoder-Decoder(Seq2Seq)
│ └── T5 / BART
│
├── MoE(专家模型)
│ └── Gemini / DeepSeek-MoE / Mixtral
│
└── 新架构替代者
├── RWKV
└── Mamba(SSM)
✅ 五、你作为技术人,应该重点掌握哪几个?
建议你重点掌握:
⭐ 必学(主流大模型)
-
Decoder-Only(GPT 架构)
-
MoE(未来趋势)
⭐ 次重点
-
Encoder-Only(BERT,做信息抽取必备)
-
Vision Transformer + 多模态对齐
⭐ 想深入研究底层再看
-
RWKV
-
Mamba
Transformer 架构是 现代大模型(LLM、GPT、LLaMA、Qwen、DeepSeek、ChatGPT)几乎全部的底层核心。如果你想真正理解 AI 模型,Transformer 是绕不开的关键基础。
🟦 一、Transformer 是什么?(一句话)
Transformer 是一种以“自注意力机制(Self-Attention)”为核心的神经网络架构,用来处理序列数据(文本、语音等)。
它让模型“读一句话时不用从头到尾顺序读”,可以 并行理解全句内容。
这是它碾压 RNN/LSTM 的根本原因。
🟥 二、为什么 Transformer 会成为大模型时代的基础?
因为它解决了旧模型的两个大痛点:
| 旧架构 | 问题 |
|---|---|
| RNN / LSTM | 只能顺序处理 → 太慢 |
| CNN | 只能局部感知 → 看不到全局语义 |
Transformer 靠 Self-Attention 做到:
-
一句话中任意两个词之间都能直接“沟通”
-
完整句子同时并行处理
-
能建模长距离依赖
-
可扩展到数千亿参数
所以 GPT、BERT、ViT、StableDiffusion 全是 Transformer 或改进版。
🟧 三、Transformer 的整体结构(工程师视角)
原始论文《Attention is All You Need》把 Transformer 分成两块:
Transformer
├── Encoder(编码器)
└── Decoder(解码器)
大模型常用的是:
-
Encoder 只用于 BERT
-
Decoder-only 用于 GPT 系列(也是现在 LLM 主流)
-
Encoder-Decoder 用于翻译模型(T5)
🟨 四、Transformer 的内部结构是什么?
无论 Encoder 还是 Decoder,都由“很多层”堆叠而成:
每一层包含两大模块:
① Self-Attention(多头注意力 Multi-Head Attention)
核心机制!
Self-Attention 做什么?
它让句子中每个词都能“注意”到其他所有词。
例如句子:
“小明把苹果给了小红,她很高兴。”
模型通过 Attention 发现“她”指的是“小红”。
多头注意力
不是只算一次注意力,而是并行算 多个注意头(heads),每个头关注不同语义:
-
一些头关注代词关系
-
一些关注句法结构
-
一些关注情感
-
…
最后把这些头 concatenate 起来。
② Feed Forward Network(FFN)前馈网络
一个两层的 MLP(多层感知机),负责对每个 token 做进一步的非线性变换。
普通网络:MLP
Transformer:Attention + MLP 的堆叠
③ LayerNorm + 残差连接(Residual)
提高稳定性:
输入 + Attention输出 → 残差
LayerNorm → 正则
MLP → 前馈
再残差、再LayerNorm
这样模型能堆到几十层甚至几百层。
🟩 五、Transformer 如何处理文本(具体流程)
以一句话为例:
我 喜欢 吃 苹果
流程:
-
tokenize → 数字 ID
-
embedding → 变成向量
-
加入位置编码(Positional Encoding)
-
输入第一层 Transformer Layer
-
Self-Attention 计算每个词对其他词的关注程度
-
经过 MLP
-
重复 N 层
-
最后得到每个 token 的语义表示
Decoder-only 模型再做:
-
输出下一个 token 的概率(语言模型头)
🟦 六、为什么 Transformer 这么强?(关键原因)
✔ 1. 能建模长距离依赖
一次 Attention 可以看到整句。
✔ 2. 能并行计算
不像 RNN 必须一个 token 一个 token 处理。
✔ 3. 高扩展性
从 1 亿参数 → 1 万亿参数都能稳定训练。
✔ 4. 通用性强
不仅做 NLP,视觉、语音、推荐系统都在用。
✔ 5. 组合灵活
可以做 Encoder、Decoder、MoE、跨模态融合。
🟪 七、Transformer 与 GPT 的关系是什么?
GPT(包括 ChatGPT)= Decoder-Only Transformer
把 Decoder 堆叠几十层、上百层,就是 GPT。
内部结构:
[Embedding]
[Decoder Layer × N]
[LM Head → 下一词预测]
🟫 八、如果你是技术人,应该掌握哪几项?
必懂:
-
Self-Attention 原理
-
Multi-Head Attention
-
Q/K/V 的计算方式
-
残差连接
-
Position Encoding(位置编码)
-
Decoder-only 与 Encoder 的区别
进阶:
-
FlashAttention(高速 Attention)
-
RoPE(旋转位置编码)
-
RMSNorm vs LayerNorm
-
MLP(SwiGLU)
-
KV Cache(推理加速)
-
MoE(大规模模型的必备)
🟦 九、一句话总结
Transformer = 注意力机制 + 前馈网络 的深度堆叠。
它是 GPT、BERT 以及几乎所有大模型的基础结构。
如果你愿意,我可以继续深入讲:
📌 “Self-Attention 的公式 + 一步步计算示例(超清晰)”
📌 “Decoder-only 架构内部图解(GPT)”
📌 “RoPE 是怎么让模型支持 20万字长文输入的?”
📌 “你如果想训练自己的医疗大模型,需要怎么修改 Transformer?”
你想继续哪部分?
更多推荐



所有评论(0)