大模型架构已到尽头？小白也能看懂的核心演进与收藏技巧！

总结一下，位置编码，归一化，残差连接，FFN，注意力，整个架构已经没有多少可以动刀子的地方了。当然这期视频有点标题党，严谨点说，是在语言模型领域，单纯依靠继续优化 Transformer 架构来突破模型能力上限，这条路的空间已经不大了。从一年一度的斯坦福报告中也可以看出，开源模型和闭源模型的差距在不断缩小，各厂商之间的差距也在不断缩小。这其实很好理解。假如大模型的发展是线性的，那它们的差距应该保持

爱编程的小辞

34人浏览 · 2026-05-12 10:24:00

爱编程的小辞 · 2026-05-12 10:24:00 发布

本文梳理了从GPT2到DeepSeek V4共67个核心开源模型的架构变化，发现Transformer架构的改进空间已逐渐缩小，模型间差距也日益缩小。文章详细解析了位置编码、归一化、残差连接、FFN和注意力机制等关键组件的演进历程，指出单纯依靠优化Transformer架构来突破模型能力上限的空间有限。同时，探讨了AI发展的瓶颈与未来方向，建议关注多模态和世界模型等新兴领域。对于想了解大模型架构演进的小白或程序员，本文提供了清晰、直白的解读，并鼓励读者收藏以随时回顾新技术。

你觉得大语言模型发展到尽头了吗？

为了搞明白这个问题，我梳理从 2019 年的 GPT2 一直到 2026 年的 DeepSeek V4 共 67 个核心开源模型的架构变化。

我发现这个 Transformer 架构的底座似乎已经没有多少新花样可以玩了。

同时模型与模型间的差距也在越来越小，你有没有发现似乎好久没遇到一个让你感觉像 GPT4 那样震惊的模型了。

那这是否意味着语言模型走到头了呢？今后的架构创新还有机会突破吗？更进一步讲，AI 发展是否已经到瓶颈了呢？

今天，我就从上帝视角带你看懂近三年来核心架构的演进。放心，没有任何复杂的公式细节，我会用最清晰、最直白、最不啰嗦、最不废话、最不绕弯子的语言给你彻底讲明白！开始吧~

Transformer 架构

自 ChatGPT 出现后到现在已经三年多了。

所有我们熟知的大模型包括最新的 DeepSeek，都只是 Transformer 架构的一个分支而已。所以这个 Transformer 仍然是个绕不开的话题。

如果你还不熟悉它也没关系，我给你个最简单，但却很准确的简化版本。

在这里插入图片描述

输入和输出都是文字，也就是 TOKEN。开头有个编码器，就是把每个文字都转换成计算机中的向量。末尾有个解码器，就是反过来把计算机中的向量转换成文字，完成预测下一个词的任务。

中间就是对这些向量进行各种乱七八糟的计算，其中注意力层就是向量间的加权求和，目的是让每个词都包含其他上下文的信息。前馈神经网络层就是给每个 TOKEN 向量做非线性变换，是最终能计算出下个词儿是什么的关键步骤。就这么简单。

你说，就这破玩意能撑这么多年？没错，接下来咱就一起看看这些年人们在这破玩意上缝了多少针。

位置编码

先看编码器这部分，在原始 Transformer 架构中，分成 TokenEmbedding 和 PositionalEmbedding 两部分。这里的位置编码就是在原向量的基础上，根据不同词的位置再加上一个新的向量。

在这里插入图片描述

那具体这个加的向量是什么？

Transformer 原论文中是取个固定值，具体说是通过正余弦函数计算出的一组值，这种方案称为固定位置编码。

但后来被一种叫旋转位置编码的技术淘汰掉了，这种方法可以让计算向量点积时得到一些友好的位置特性。

再后来又有人发明了对旋转位置编码的扩展方法 YaRN，目的是可以支持更长上下文的位置计算。

甚至还有人提出了一种叫 NoPE 即没有位置编码的一种位置编码方式，并且还证明了一些场景的有效性。

悄悄，就一个位置编码的创新，就基本被挖干净了呀。

实际的应用也基本世界线收束了。好了，我宣布，位置编码，死！

归一化

回到这里，再看个更夸张的。有的时候为了稳定训练，我们需要把向量控制在一个可控的范围，同时保证它们之间的相对差距不变。

在这里插入图片描述

这种把数据变换到一个更稳定的范围的方法叫做归一化。

在 Transformer 原始论文中，具体的归一化方法叫 LayerNorm 即层归一化，而现代大模型更常用的是一种叫 RMSNorm 的方法，更适合当代大模型的训练。

还没完，这只是具体算法的不同，而这个归一化层可以安插在模型中的各种位置。

安插在注意力层之前的叫 Pre-Norm。安插在注意力层之后的叫 Post-Norm。还可以前面来一个后面也来一个。

还没完，我们接下来还会讲到残差连接。这个 Post-Norm 可以像这样插在残差连接之前。也可以插在残差连接之后。

在这里插入图片描述

哎呀我天，这组合起来可就老多了。但不好意思，所有这些组合都被咱们伟大的人类玩过了。

还没完，这个归一化操作不仅可以作用于词向量，还可以作用在注意力层里面的 QKV 向量上。用在 Q 上叫 Q-Norm，用在 K 上叫 K-Norm，用在 V 上叫 V-Norm。同时用在 QK 上叫 QK-Norm，用在 KV 上叫 KV-Norm。不好意思，这些组合，也全被玩完了。

在这里插入图片描述

你还能想到其它的改动点吗？归一化，死！

残差连接

来，看看下个倒霉鬼是谁，这俩大哥咱先别动，刚刚不是提到了个残差连接么，在原始的 Transformer 实现中就是个简单的加法操作，多年来也没人敢动这里。

但字节、DeepSeek、Kimi 分别提出了 HC、mHC、AttensionResidual，让这个所有人都觉得是个默认的肯定正确的部分也被动了刀子。

当然目前这块还比较新，仍然处于探索阶段，玩的花样也很有限，残差连接，死！

FFN

接下来就剩这俩大哥了，让我们先给这个占地面积最大的 FFN 层动动刀吧！

在这里插入图片描述

这个 FFN 其实就是个普普通通的全连接神经网络，属于是深度学习入门级别的结构了，只不过在大模型里这块特别大，这里的每条线都表示一个参数，如果它特别大的话就很占地儿。

在这里插入图片描述

那怎么办呢？答案很简单，变小点就好咯。但肯定不能直接就这么变小，那就退化到小模型的时代了。

我们这样，把这个大的 FFN 拆成两个小的 FFN，然后增加一个可训练的路由层，每个 TOKEN 的计算只路由到其中一个 FFN 上，这样就能保证总参数量仍然很多，但在推理时只激活少量参数，做到了平衡。

在这里插入图片描述

这里的每个小 FFN 网络叫做 Expert 专家，整体构成的结构就叫做混合专家模型，MoE。

在这里插入图片描述

后来 DeepSeek 又对这个网络进行了优化，把专家拆分得更多更细，引入了共享专家等，还起了个新名字，很粗暴，就叫 DeepSeekMoE！

你在模型名字上看到的类似 A多少多少 B 这种写法，就是 MoE 架构，这个表示总参数量 397B，每次激活 17B 的意思。

现在的大模型基本都 MoE 化了，只是专家数和激活比例各有各的配法。为此人们还发明了个新词儿，把之前所有参数都参与计算的模型叫 Dense 稠密模型，现在只激活部分参数的叫 Sparse 稀疏模型。死！

注意力

好了，就剩下这个最经典的注意力层了，是 Transformer 架构的精髓。而且人们在这上画的功夫可以说是恐怖如斯，我就没见过这么卷的。

在这里插入图片描述

虽然看着眼花缭乱，但本质上解决的问题非常简单，我一说你就懂了。其实就是注意力层最大的问题就是每个 TOKEN 向量都要和其他向量来一次计算，TOKEN 烧的算力主要就是这个。

在这里插入图片描述

一种办法是，仍然每个 TOKEN 之间都计算，但计算量少一点，比如把向量想办法缩短，这就是 MQA/GQA/MLA 努力的方向，数量没少，但难度降低了。

在这里插入图片描述

另一种办法是，计算的数量减少，比如只计算一个固定的窗口。或者通过某种办法挑选一部分，这就 DSA/SWA/CSA/HCA 的核心思想，也叫做稀疏注意力类型。

在这里插入图片描述

另一种更极端的办法就是，直接把注意力机制的复杂度变成线性增长，比如 KDA、DeltaNet、Lightning、Mamba 都属于这种。由于它太另类了，所以人们把传统注意力和这种线性注意力混合使用的方式，又叫混合注意力 hybrid Attention。

在这里插入图片描述

这块暂时就没那么统一了，现在是百花齐放，谁也不知道哪个更好。但由于实在太卷了，能创新的点早就被挖干净了，Attention，死！

总结

总结一下，位置编码，归一化，残差连接，FFN，注意力，整个架构已经没有多少可以动刀子的地方了。当然这期视频有点标题党，严谨点说，是在语言模型领域，单纯依靠继续优化 Transformer 架构来突破模型能力上限，这条路的空间已经不大了。

从一年一度的斯坦福报告中也可以看出，开源模型和闭源模型的差距在不断缩小，各厂商之间的差距也在不断缩小。

这其实很好理解。假如大模型的发展是线性的，那它们的差距应该保持不变。假如是指数型的，那它们的差距反而应该越来越大。只有发展趋势是放缓的，差距才会逐渐缩小。同时这也和我们的体感是差不多的，能大幅提升性能的简单手段，已经越来越少了。

在这里插入图片描述

从更宏观的视角，我找到了 AI 发展的三个定律。

Scaling Law 就是我们常说的大力出奇迹，但互联网数据已经被人们挖干净了，算力和模型规模也很难短时间提升，所以遇到了瓶颈。

Bitter Lesson 告诉我们长期看来，我们人为在模型架构层面设计的一些小巧思，在更大的规模面前反而是阻碍，这是人类的自以为是阻碍了模型的学习速度。尤其现在模型架构已经被人们动了那么多刀了，即便有新的想法在这个定律面前也可能是负优化。

莫拉维克悖论就是说对人类简单的，对机器很难，对机器很难的，对人类反而简单。比如机器在算数方面秒杀人类，但让它缝个衣服却是世纪难题。即便是语言模型中，这个问题依然存在，整个底层架构并不一定是正确的。

当然基于这些考虑，人们也早就在做其他的尝试，比如多模态和世界模型。只不过有的多模态只是模态对齐，最终还是在利用大语言模型的遍历。世界模型就更模糊了，边界和定义都不清晰，这个找时间我可以单独出一期好好聊一聊，混乱得很。

总结

不知道你看到这有什么感受呢？那这里我也稍稍叠个甲哈，虽然可能已经没用了。前面我各种死死死的并不是对技术的不尊重哈，我恰恰是想用这种方式给大家形象地感受下现在大模型架构的变迁。

其实我们每天接触的新名词可能很多，加上每一次一项新技术的出现总会带来一些过度的宣传，但本期视频你会发现，归根结底其实也就固定的一些套路反过来掉过去，很少有完全出乎意料的新花样。

我们不应该高估单个技术的贡献，同时也不应该低估技术的量变产生质变的过程。如果觉得这期视频有帮到你，求个小小的三连。

等后面再出现什么新技术时，可以随时回来看一看，从上帝视觉重新审视一下，或许你能很快判断出这些技术的地位和影响。

最后

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说，现在正是最好的学习时机：行业缺口大、大厂需求旺、薪资天花板高，只要找准学习方向，稳步提升技能，就能轻松摆脱“低薪困境”，抓住AI时代的职业机遇。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

请添加图片描述

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

在这里插入图片描述

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

在这里插入图片描述

4、 AI大模型最新行业报告

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

在这里插入图片描述

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述