架构

大模型(LLM)常说的“架构”,主要指 Transformer 架构的不同变体,尤其是 Encoder、Decoder、Encoder-Decoder 三种宏观结构。除此之外,还有一些子结构与改进版本。下面我给你系统整理一套“目前主流大模型架构体系”。

2018 年左右,Transformer 架构的神经网络模型开始崭露头角。通过大量文本数据训练这些模型,使它们能够通过阅读大量文本来深入理解语言规则和模式,就像让计算机阅读整个互联网一样,对语言有了更深刻的理解,极大地提升了模型在各种自然语言处理任务上的表现。

大模型(LLM)常说的“架构”,主要指 Transformer 架构的不同变体,尤其是 Encoder、Decoder、Encoder-Decoder 三种宏观结构。除此之外,还有一些子结构与改进版本。下面我给你系统整理一套“目前主流大模型架构体系”,非常适合你作为技术人员快速建立知识框架。


✅ 一、大模型最核心的三大架构类型

1)Decoder-Only(最常见)

大部分 ChatGPT 类对话模型都是这个架构。

代表模型

  • GPT 系列(GPT-2、GPT-3、GPT-4、GPT-4o…)

  • LLaMA 系列

  • Qwen(通义千问)

  • DeepSeek 系列

  • Baichuan

  • Yi(零一万物)

特点

  • 只使用 Transformer 的 Decoder 堆叠

  • 输入和输出都在同一个 token 流中

  • 用于 生成任务(Language Modeling)

  • 自回归(autoregressive):一个词接一个词生成

适用场景

  • 聊天、续写、推理

  • 代码生成

  • 文本生成类任务


2)Encoder-Only(理解型)

更专注于文本理解,不擅长生成。

代表模型

  • BERT(史诗级代表)

  • RoBERTa

  • ERNIE(百度文心的底座模型)

  • DeBERTa(微软)

特点

  • 只有 Transformer Encoder 堆叠

  • 不能很好地产生流畅长文本

  • 强理解能力

适用场景

  • 文本分类

  • 情感分析

  • 信息抽取(NER)

  • 各种 NLP 理解任务


3)Encoder-Decoder(Seq2Seq,曾经的主流)

以前机器翻译领域最强,现在生成型任务被 GPT 类模型替代。

代表模型

  • T5(Google)

  • BART

  • mT5

特点

  • Encoder 负责理解输入

  • Decoder 负责生成输出

  • 曾经 SOTA,在翻译上表现很强

适用场景

  • 翻译

  • 摘要

  • 文本改写(paraphrasing)


✅ 二、大模型中一些关键的“结构改进版本”

除了上面三大类,工业界还对 Transformer 做了大量优化:


4)MoE(Mixture-of-Experts)架构

多专家架构,让模型更大、更便宜。

代表模型

  • Google Switch Transformer

  • Google Gemini 系列(大量使用 MoE)

  • DeepSeek-MoE 系列

  • Mixtral 8×7B(很火)

特点

  • 每层不是一个巨大的 FFN,而是多个专家 FFN,让路由器选择部分专家

  • 显著提升参数规模而不增加等比例计算量

  • 非常适合超大模型


5)RWKV(RNN + Attention 混合)

更省算力的新型架构。

代表模型

  • RWKV

特点:

  • 用 RNN 的思想替代 Attention

  • 推理可以 O(n) 处理,不像 Transformer 的 O(n²)

  • 更省显存 & 更便宜

用途:边缘设备部署


6)State Space Model(SSM)架构,如 Mamba

今年火起来的新架构,能替代 Transformer。

代表模型

  • Mamba

  • Mamba-2

特点:

  • 更高效的长序列建模

  • 推理速度比 Transformer 快

  • 有可能成为下一代 LLM 底座技术


✅ 三、图像/多模态相关架构

如果你准备做 AI 应用(前端也可以做多模态),这些也需要了解。

7)Vision Transformer(ViT)

  • 图像版 Transformer

  • 主流视觉模型几乎都是 ViT 或其变种

8)LLaVA / Qwen-VL / GPT-4o 类“对齐结构”

多模态模型通常使用:

  • ViT 做 Encoder(图像编码)

  • LLM(Decoder-Only)做文本生成

  • 中间用一个投影器(Projection Layer)对齐特征


✅ 四、业界总结:大模型架构族谱图(你可以理解成这样)

Transformer
│
├── Encoder-Only
│   └── BERT / DeBERTa / ERNIE
│
├── Decoder-Only(主流LLM)
│   ├── GPT 系列
│   ├── LLaMA / Qwen / Yi
│   └── DeepSeek / Baichuan
│
├── Encoder-Decoder(Seq2Seq)
│   └── T5 / BART
│
├── MoE(专家模型)
│   └── Gemini / DeepSeek-MoE / Mixtral
│
└── 新架构替代者
    ├── RWKV
    └── Mamba(SSM)

✅ 五、你作为技术人,应该重点掌握哪几个?

建议你重点掌握:

⭐ 必学(主流大模型)

  • Decoder-Only(GPT 架构)

  • MoE(未来趋势)

⭐ 次重点

  • Encoder-Only(BERT,做信息抽取必备)

  • Vision Transformer + 多模态对齐

⭐ 想深入研究底层再看

  • RWKV

  • Mamba


Transformer 架构是 现代大模型(LLM、GPT、LLaMA、Qwen、DeepSeek、ChatGPT)几乎全部的底层核心。如果你想真正理解 AI 模型,Transformer 是绕不开的关键基础。


🟦 一、Transformer 是什么?(一句话)

Transformer 是一种以“自注意力机制(Self-Attention)”为核心的神经网络架构,用来处理序列数据(文本、语音等)。

它让模型“读一句话时不用从头到尾顺序读”,可以 并行理解全句内容

这是它碾压 RNN/LSTM 的根本原因。


🟥 二、为什么 Transformer 会成为大模型时代的基础?

因为它解决了旧模型的两个大痛点:

旧架构 问题
RNN / LSTM 只能顺序处理 → 太慢
CNN 只能局部感知 → 看不到全局语义

Transformer 靠 Self-Attention 做到:

  • 一句话中任意两个词之间都能直接“沟通”

  • 完整句子同时并行处理

  • 能建模长距离依赖

  • 可扩展到数千亿参数

所以 GPT、BERT、ViT、StableDiffusion 全是 Transformer 或改进版。


🟧 三、Transformer 的整体结构(工程师视角)

原始论文《Attention is All You Need》把 Transformer 分成两块:

Transformer
 ├── Encoder(编码器)
 └── Decoder(解码器)

大模型常用的是:

  • Encoder 只用于 BERT

  • Decoder-only 用于 GPT 系列(也是现在 LLM 主流)

  • Encoder-Decoder 用于翻译模型(T5)


🟨 四、Transformer 的内部结构是什么?

无论 Encoder 还是 Decoder,都由“很多层”堆叠而成:

每一层包含两大模块:


Self-Attention(多头注意力 Multi-Head Attention)

核心机制!

Self-Attention 做什么?

它让句子中每个词都能“注意”到其他所有词。

例如句子:

“小明把苹果给了小红,她很高兴。”

模型通过 Attention 发现“她”指的是“小红”。

多头注意力

不是只算一次注意力,而是并行算 多个注意头(heads),每个头关注不同语义:

  • 一些头关注代词关系

  • 一些关注句法结构

  • 一些关注情感

最后把这些头 concatenate 起来。


Feed Forward Network(FFN)前馈网络

一个两层的 MLP(多层感知机),负责对每个 token 做进一步的非线性变换。

普通网络:MLP
Transformer:Attention + MLP 的堆叠


LayerNorm + 残差连接(Residual)

提高稳定性:

输入 + Attention输出  → 残差
LayerNorm → 正则
MLP → 前馈
再残差、再LayerNorm

这样模型能堆到几十层甚至几百层。


🟩 五、Transformer 如何处理文本(具体流程)

以一句话为例:

我 喜欢 吃 苹果

流程:

  1. tokenize → 数字 ID

  2. embedding → 变成向量

  3. 加入位置编码(Positional Encoding)

  4. 输入第一层 Transformer Layer

  5. Self-Attention 计算每个词对其他词的关注程度

  6. 经过 MLP

  7. 重复 N 层

  8. 最后得到每个 token 的语义表示

Decoder-only 模型再做:

  • 输出下一个 token 的概率(语言模型头)


🟦 六、为什么 Transformer 这么强?(关键原因)

✔ 1. 能建模长距离依赖

一次 Attention 可以看到整句。

✔ 2. 能并行计算

不像 RNN 必须一个 token 一个 token 处理。

✔ 3. 高扩展性

从 1 亿参数 → 1 万亿参数都能稳定训练。

✔ 4. 通用性强

不仅做 NLP,视觉、语音、推荐系统都在用。

✔ 5. 组合灵活

可以做 Encoder、Decoder、MoE、跨模态融合。


🟪 七、Transformer 与 GPT 的关系是什么?

GPT(包括 ChatGPT)= Decoder-Only Transformer

把 Decoder 堆叠几十层、上百层,就是 GPT。

内部结构:

[Embedding]
[Decoder Layer × N]
[LM Head → 下一词预测]

🟫 八、如果你是技术人,应该掌握哪几项?

必懂:

  • Self-Attention 原理

  • Multi-Head Attention

  • Q/K/V 的计算方式

  • 残差连接

  • Position Encoding(位置编码)

  • Decoder-only 与 Encoder 的区别

进阶:

  • FlashAttention(高速 Attention)

  • RoPE(旋转位置编码)

  • RMSNorm vs LayerNorm

  • MLP(SwiGLU)

  • KV Cache(推理加速)

  • MoE(大规模模型的必备)


🟦 九、一句话总结

Transformer = 注意力机制 + 前馈网络 的深度堆叠。
它是 GPT、BERT 以及几乎所有大模型的基础结构。


如果你愿意,我可以继续深入讲:

📌 “Self-Attention 的公式 + 一步步计算示例(超清晰)”
📌 “Decoder-only 架构内部图解(GPT)”
📌 “RoPE 是怎么让模型支持 20万字长文输入的?”
📌 “你如果想训练自己的医疗大模型,需要怎么修改 Transformer?”

你想继续哪部分?

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐