大模型最核心的三大架构类型

大模型三大架构

Lvan的前端笔记

343人浏览 · 2025-12-01 16:52:50

Lvan的前端笔记 · 2025-12-01 16:52:50 发布

架构

大模型（LLM）常说的“架构”，主要指 Transformer 架构的不同变体，尤其是 Encoder、Decoder、Encoder-Decoder 三种宏观结构。除此之外，还有一些子结构与改进版本。下面我给你系统整理一套“目前主流大模型架构体系”。

2018 年左右，Transformer 架构的神经网络模型开始崭露头角。通过大量文本数据训练这些模型，使它们能够通过阅读大量文本来深入理解语言规则和模式，就像让计算机阅读整个互联网一样，对语言有了更深刻的理解，极大地提升了模型在各种自然语言处理任务上的表现。

大模型（LLM）常说的“架构”，主要指 Transformer 架构的不同变体，尤其是 Encoder、Decoder、Encoder-Decoder 三种宏观结构。除此之外，还有一些子结构与改进版本。下面我给你系统整理一套“目前主流大模型架构体系”，非常适合你作为技术人员快速建立知识框架。

✅ 一、大模型最核心的三大架构类型

1）Decoder-Only（最常见）

大部分 ChatGPT 类对话模型都是这个架构。

代表模型

GPT 系列（GPT-2、GPT-3、GPT-4、GPT-4o…）
LLaMA 系列
Qwen（通义千问）
DeepSeek 系列
Baichuan
Yi（零一万物）

特点

只使用 Transformer 的 Decoder 堆叠
输入和输出都在同一个 token 流中
用于 生成任务（Language Modeling）
自回归（autoregressive）：一个词接一个词生成

适用场景

聊天、续写、推理
代码生成
文本生成类任务

2）Encoder-Only（理解型）

更专注于文本理解，不擅长生成。

代表模型

BERT（史诗级代表）
RoBERTa
ERNIE（百度文心的底座模型）
DeBERTa（微软）

特点

只有 Transformer Encoder 堆叠
不能很好地产生流畅长文本
强理解能力

适用场景

文本分类
情感分析
信息抽取（NER）
各种 NLP 理解任务

3）Encoder-Decoder（Seq2Seq，曾经的主流）

以前机器翻译领域最强，现在生成型任务被 GPT 类模型替代。

代表模型

T5（Google）
BART
mT5

特点

Encoder 负责理解输入
Decoder 负责生成输出
曾经 SOTA，在翻译上表现很强

适用场景

翻译
摘要
文本改写（paraphrasing）

✅ 二、大模型中一些关键的“结构改进版本”

除了上面三大类，工业界还对 Transformer 做了大量优化：

4）MoE（Mixture-of-Experts）架构

多专家架构，让模型更大、更便宜。

代表模型

Google Switch Transformer
Google Gemini 系列（大量使用 MoE）
DeepSeek-MoE 系列
Mixtral 8×7B（很火）

特点

每层不是一个巨大的 FFN，而是多个专家 FFN，让路由器选择部分专家
显著提升参数规模而不增加等比例计算量
非常适合超大模型

5）RWKV（RNN + Attention 混合）

更省算力的新型架构。

代表模型

RWKV

特点：

用 RNN 的思想替代 Attention
推理可以 O(n) 处理，不像 Transformer 的 O(n²)
更省显存 & 更便宜

用途：边缘设备部署

6）State Space Model（SSM）架构，如 Mamba

今年火起来的新架构，能替代 Transformer。

代表模型

Mamba
Mamba-2

特点：

更高效的长序列建模
推理速度比 Transformer 快
有可能成为下一代 LLM 底座技术

✅ 三、图像/多模态相关架构

如果你准备做 AI 应用（前端也可以做多模态），这些也需要了解。

7）Vision Transformer（ViT）

图像版 Transformer
主流视觉模型几乎都是 ViT 或其变种

8）LLaVA / Qwen-VL / GPT-4o 类“对齐结构”

多模态模型通常使用：

ViT 做 Encoder（图像编码）
LLM（Decoder-Only）做文本生成
中间用一个投影器（Projection Layer）对齐特征

✅ 四、业界总结：大模型架构族谱图（你可以理解成这样）

Transformer
│
├── Encoder-Only
│   └── BERT / DeBERTa / ERNIE
│
├── Decoder-Only（主流LLM）
│   ├── GPT 系列
│   ├── LLaMA / Qwen / Yi
│   └── DeepSeek / Baichuan
│
├── Encoder-Decoder（Seq2Seq）
│   └── T5 / BART
│
├── MoE（专家模型）
│   └── Gemini / DeepSeek-MoE / Mixtral
│
└── 新架构替代者
    ├── RWKV
    └── Mamba（SSM）

✅ 五、你作为技术人，应该重点掌握哪几个？

建议你重点掌握：

⭐ 必学（主流大模型）

Decoder-Only（GPT 架构）
MoE（未来趋势）

⭐ 次重点

Encoder-Only（BERT，做信息抽取必备）
Vision Transformer + 多模态对齐

⭐ 想深入研究底层再看

RWKV
Mamba

Transformer 架构是 现代大模型（LLM、GPT、LLaMA、Qwen、DeepSeek、ChatGPT）几乎全部的底层核心。如果你想真正理解 AI 模型，Transformer 是绕不开的关键基础。

🟦 一、Transformer 是什么？（一句话）

Transformer 是一种以“自注意力机制（Self-Attention）”为核心的神经网络架构，用来处理序列数据（文本、语音等）。

它让模型“读一句话时不用从头到尾顺序读”，可以 并行理解全句内容。

这是它碾压 RNN/LSTM 的根本原因。

🟥 二、为什么 Transformer 会成为大模型时代的基础？

因为它解决了旧模型的两个大痛点：

旧架构	问题
RNN / LSTM	只能顺序处理 → 太慢
CNN	只能局部感知 → 看不到全局语义

Transformer 靠 Self-Attention 做到：

一句话中任意两个词之间都能直接“沟通”
完整句子同时并行处理
能建模长距离依赖
可扩展到数千亿参数

所以 GPT、BERT、ViT、StableDiffusion 全是 Transformer 或改进版。

🟧 三、Transformer 的整体结构（工程师视角）

原始论文《Attention is All You Need》把 Transformer 分成两块：

Transformer
 ├── Encoder（编码器）
 └── Decoder（解码器）

大模型常用的是：

Encoder 只用于 BERT
Decoder-only 用于 GPT 系列（也是现在 LLM 主流）
Encoder-Decoder 用于翻译模型（T5）

🟨 四、Transformer 的内部结构是什么？

无论 Encoder 还是 Decoder，都由“很多层”堆叠而成：

每一层包含两大模块：

① Self-Attention（多头注意力 Multi-Head Attention）

核心机制！

Self-Attention 做什么？

它让句子中每个词都能“注意”到其他所有词。

例如句子：

“小明把苹果给了小红，她很高兴。”

模型通过 Attention 发现“她”指的是“小红”。

多头注意力

不是只算一次注意力，而是并行算 多个注意头（heads），每个头关注不同语义：

一些头关注代词关系
一些关注句法结构
一些关注情感
…

最后把这些头 concatenate 起来。

② Feed Forward Network（FFN）前馈网络

一个两层的 MLP（多层感知机），负责对每个 token 做进一步的非线性变换。

普通网络：MLP
Transformer：Attention + MLP 的堆叠

③ LayerNorm + 残差连接（Residual）

提高稳定性：

输入 + Attention输出  → 残差
LayerNorm → 正则
MLP → 前馈
再残差、再LayerNorm

这样模型能堆到几十层甚至几百层。

🟩 五、Transformer 如何处理文本（具体流程）

以一句话为例：

我 喜欢 吃 苹果

流程：

tokenize → 数字 ID
embedding → 变成向量
加入位置编码（Positional Encoding）
输入第一层 Transformer Layer
Self-Attention 计算每个词对其他词的关注程度
经过 MLP
重复 N 层
最后得到每个 token 的语义表示

Decoder-only 模型再做：

输出下一个 token 的概率（语言模型头）

🟦 六、为什么 Transformer 这么强？（关键原因）

✔ 1. 能建模长距离依赖

一次 Attention 可以看到整句。

✔ 2. 能并行计算

不像 RNN 必须一个 token 一个 token 处理。

✔ 3. 高扩展性

从 1 亿参数 → 1 万亿参数都能稳定训练。

✔ 4. 通用性强

不仅做 NLP，视觉、语音、推荐系统都在用。

✔ 5. 组合灵活

可以做 Encoder、Decoder、MoE、跨模态融合。

🟪 七、Transformer 与 GPT 的关系是什么？

GPT（包括 ChatGPT）= Decoder-Only Transformer

把 Decoder 堆叠几十层、上百层，就是 GPT。

内部结构：

[Embedding]
[Decoder Layer × N]
[LM Head → 下一词预测]

🟫 八、如果你是技术人，应该掌握哪几项？

必懂：

Self-Attention 原理
Multi-Head Attention
Q/K/V 的计算方式
残差连接
Position Encoding（位置编码）
Decoder-only 与 Encoder 的区别

进阶：

FlashAttention（高速 Attention）
RoPE（旋转位置编码）
RMSNorm vs LayerNorm
MLP（SwiGLU）
KV Cache（推理加速）
MoE（大规模模型的必备）

🟦 九、一句话总结

Transformer = 注意力机制 + 前馈网络的深度堆叠。
它是 GPT、BERT 以及几乎所有大模型的基础结构。

如果你愿意，我可以继续深入讲：

📌 “Self-Attention 的公式 + 一步步计算示例（超清晰）”
📌 “Decoder-only 架构内部图解（GPT）”
📌 “RoPE 是怎么让模型支持 20万字长文输入的？”
📌 “你如果想训练自己的医疗大模型，需要怎么修改 Transformer？”

你想继续哪部分？

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

3. Agent Quality ——【Google 5-Day AI Agents】

2048 AI社区

2025年必备AI工具推荐：提升工作效率与创意的智能助手

2048 AI社区

破解MaaS选型困境：AI Ping——开发者的大模型服务性能评测利器

2048 AI社区

所有评论(0)

查看更多评论

Lvan的前端笔记

@weixin_43972437

已为社区贡献14条内容