大模型架构已到尽头?小白也能看懂的核心演进与收藏技巧!
总结一下,位置编码,归一化,残差连接,FFN,注意力,整个架构已经没有多少可以动刀子的地方了。当然这期视频有点标题党,严谨点说,是在语言模型领域,单纯依靠继续优化 Transformer 架构来突破模型能力上限,这条路的空间已经不大了。从一年一度的斯坦福报告中也可以看出,开源模型和闭源模型的差距在不断缩小,各厂商之间的差距也在不断缩小。这其实很好理解。假如大模型的发展是线性的,那它们的差距应该保持
本文梳理了从GPT2到DeepSeek V4共67个核心开源模型的架构变化,发现Transformer架构的改进空间已逐渐缩小,模型间差距也日益缩小。文章详细解析了位置编码、归一化、残差连接、FFN和注意力机制等关键组件的演进历程,指出单纯依靠优化Transformer架构来突破模型能力上限的空间有限。同时,探讨了AI发展的瓶颈与未来方向,建议关注多模态和世界模型等新兴领域。对于想了解大模型架构演进的小白或程序员,本文提供了清晰、直白的解读,并鼓励读者收藏以随时回顾新技术。
你觉得大语言模型发展到尽头了吗?
为了搞明白这个问题,我梳理从 2019 年的 GPT2 一直到 2026 年的 DeepSeek V4 共 67 个核心开源模型的架构变化。

我发现这个 Transformer 架构的底座似乎已经没有多少新花样可以玩了。
同时模型与模型间的差距也在越来越小,你有没有发现似乎好久没遇到一个让你感觉像 GPT4 那样震惊的模型了。

那这是否意味着语言模型走到头了呢?今后的架构创新还有机会突破吗?更进一步讲,AI 发展是否已经到瓶颈了呢?
今天,我就从上帝视角带你看懂近三年来核心架构的演进。放心,没有任何复杂的公式细节,我会用最清晰、最直白、最不啰嗦、最不废话、最不绕弯子的语言给你彻底讲明白!开始吧~
Transformer 架构
自 ChatGPT 出现后到现在已经三年多了。
所有我们熟知的大模型包括最新的 DeepSeek,都只是 Transformer 架构的一个分支而已。所以这个 Transformer 仍然是个绕不开的话题。

如果你还不熟悉它也没关系,我给你个最简单,但却很准确的简化版本。

输入和输出都是文字,也就是 TOKEN。开头有个编码器,就是把每个文字都转换成计算机中的向量。末尾有个解码器,就是反过来把计算机中的向量转换成文字,完成预测下一个词的任务。
中间就是对这些向量进行各种乱七八糟的计算,其中注意力层就是向量间的加权求和,目的是让每个词都包含其他上下文的信息。前馈神经网络层就是给每个 TOKEN 向量做非线性变换,是最终能计算出下个词儿是什么的关键步骤。就这么简单。
你说,就这破玩意能撑这么多年?没错,接下来咱就一起看看这些年人们在这破玩意上缝了多少针。

位置编码
先看编码器这部分,在原始 Transformer 架构中,分成 TokenEmbedding 和 PositionalEmbedding 两部分。这里的位置编码就是在原向量的基础上,根据不同词的位置再加上一个新的向量。

那具体这个加的向量是什么?
Transformer 原论文中是取个固定值,具体说是通过正余弦函数计算出的一组值,这种方案称为固定位置编码。

但后来被一种叫旋转位置编码的技术淘汰掉了,这种方法可以让计算向量点积时得到一些友好的位置特性。

再后来又有人发明了对旋转位置编码的扩展方法 YaRN,目的是可以支持更长上下文的位置计算。
甚至还有人提出了一种叫 NoPE 即没有位置编码的一种位置编码方式,并且还证明了一些场景的有效性。

悄悄,就一个位置编码的创新,就基本被挖干净了呀。
实际的应用也基本世界线收束了。好了,我宣布,位置编码,死!
归一化
回到这里,再看个更夸张的。有的时候为了稳定训练,我们需要把向量控制在一个可控的范围,同时保证它们之间的相对差距不变。


这种把数据变换到一个更稳定的范围的方法叫做归一化。
在 Transformer 原始论文中,具体的归一化方法叫 LayerNorm 即层归一化,而现代大模型更常用的是一种叫 RMSNorm 的方法,更适合当代大模型的训练。

还没完,这只是具体算法的不同,而这个归一化层可以安插在模型中的各种位置。
安插在注意力层之前的叫 Pre-Norm。安插在注意力层之后的叫 Post-Norm。还可以前面来一个后面也来一个。

还没完,我们接下来还会讲到残差连接。这个 Post-Norm 可以像这样插在残差连接之前。也可以插在残差连接之后。

哎呀我天,这组合起来可就老多了。但不好意思,所有这些组合都被咱们伟大的人类玩过了。
还没完,这个归一化操作不仅可以作用于词向量,还可以作用在注意力层里面的 QKV 向量上。用在 Q 上叫 Q-Norm,用在 K 上叫 K-Norm,用在 V 上叫 V-Norm。同时用在 QK 上叫 QK-Norm,用在 KV 上叫 KV-Norm。不好意思,这些组合,也全被玩完了。

你还能想到其它的改动点吗?归一化,死!
残差连接
来,看看下个倒霉鬼是谁,这俩大哥咱先别动,刚刚不是提到了个残差连接么,在原始的 Transformer 实现中就是个简单的加法操作,多年来也没人敢动这里。
但字节、DeepSeek、Kimi 分别提出了 HC、mHC、AttensionResidual,让这个所有人都觉得是个默认的肯定正确的部分也被动了刀子。

当然目前这块还比较新,仍然处于探索阶段,玩的花样也很有限,残差连接,死!
FFN
接下来就剩这俩大哥了,让我们先给这个占地面积最大的 FFN 层动动刀吧!

这个 FFN 其实就是个普普通通的全连接神经网络,属于是深度学习入门级别的结构了,只不过在大模型里这块特别大,这里的每条线都表示一个参数,如果它特别大的话就很占地儿。


那怎么办呢?答案很简单,变小点就好咯。但肯定不能直接就这么变小,那就退化到小模型的时代了。
我们这样,把这个大的 FFN 拆成两个小的 FFN,然后增加一个可训练的路由层,每个 TOKEN 的计算只路由到其中一个 FFN 上,这样就能保证总参数量仍然很多,但在推理时只激活少量参数,做到了平衡。

这里的每个小 FFN 网络叫做 Expert 专家,整体构成的结构就叫做混合专家模型,MoE。

后来 DeepSeek 又对这个网络进行了优化,把专家拆分得更多更细,引入了共享专家等,还起了个新名字,很粗暴,就叫 DeepSeekMoE!

你在模型名字上看到的类似 A多少多少 B 这种写法,就是 MoE 架构,这个表示总参数量 397B,每次激活 17B 的意思。

现在的大模型基本都 MoE 化了,只是专家数和激活比例各有各的配法。为此人们还发明了个新词儿,把之前所有参数都参与计算的模型叫 Dense 稠密模型,现在只激活部分参数的叫 Sparse 稀疏模型。死!
注意力
好了,就剩下这个最经典的注意力层了,是 Transformer 架构的精髓。而且人们在这上画的功夫可以说是恐怖如斯,我就没见过这么卷的。

虽然看着眼花缭乱,但本质上解决的问题非常简单,我一说你就懂了。其实就是注意力层最大的问题就是每个 TOKEN 向量都要和其他向量来一次计算,TOKEN 烧的算力主要就是这个。

一种办法是,仍然每个 TOKEN 之间都计算,但计算量少一点,比如把向量想办法缩短,这就是 MQA/GQA/MLA 努力的方向,数量没少,但难度降低了。

另一种办法是,计算的数量减少,比如只计算一个固定的窗口。或者通过某种办法挑选一部分,这就 DSA/SWA/CSA/HCA 的核心思想,也叫做稀疏注意力类型。

另一种更极端的办法就是,直接把注意力机制的复杂度变成线性增长,比如 KDA、DeltaNet、Lightning、Mamba 都属于这种。由于它太另类了,所以人们把传统注意力和这种线性注意力混合使用的方式,又叫 混合注意力 hybrid Attention。

这块暂时就没那么统一了,现在是百花齐放,谁也不知道哪个更好。但由于实在太卷了,能创新的点早就被挖干净了,Attention,死!
总结
总结一下,位置编码,归一化,残差连接,FFN,注意力,整个架构已经没有多少可以动刀子的地方了。当然这期视频有点标题党,严谨点说,是在语言模型领域,单纯依靠继续优化 Transformer 架构来突破模型能力上限,这条路的空间已经不大了。

从一年一度的斯坦福报告中也可以看出,开源模型和闭源模型的差距在不断缩小,各厂商之间的差距也在不断缩小。
这其实很好理解。假如大模型的发展是线性的,那它们的差距应该保持不变。假如是指数型的,那它们的差距反而应该越来越大。只有发展趋势是放缓的,差距才会逐渐缩小。同时这也和我们的体感是差不多的, 能大幅提升性能的简单手段,已经越来越少了。

从更宏观的视角,我找到了 AI 发展的三个定律。
Scaling Law 就是我们常说的大力出奇迹,但互联网数据已经被人们挖干净了,算力和模型规模也很难短时间提升,所以遇到了瓶颈。
Bitter Lesson 告诉我们长期看来,我们人为在模型架构层面设计的一些小巧思,在更大的规模面前反而是阻碍,这是人类的自以为是阻碍了模型的学习速度。尤其现在模型架构已经被人们动了那么多刀了,即便有新的想法在这个定律面前也可能是负优化。
莫拉维克悖论就是说对人类简单的,对机器很难,对机器很难的,对人类反而简单。比如机器在算数方面秒杀人类,但让它缝个衣服却是世纪难题。即便是语言模型中,这个问题依然存在,整个底层架构并不一定是正确的。
当然基于这些考虑,人们也早就在做其他的尝试,比如多模态和世界模型。只不过有的多模态只是模态对齐,最终还是在利用大语言模型的遍历。世界模型就更模糊了,边界和定义都不清晰,这个找时间我可以单独出一期好好聊一聊,混乱得很。
总结
不知道你看到这有什么感受呢?那这里我也稍稍叠个甲哈,虽然可能已经没用了。前面我各种死死死的并不是对技术的不尊重哈,我恰恰是想用这种方式给大家形象地感受下现在大模型架构的变迁。
其实我们每天接触的新名词可能很多,加上每一次一项新技术的出现总会带来一些过度的宣传,但本期视频你会发现,归根结底其实也就固定的一些套路反过来掉过去,很少有完全出乎意料的新花样。
我们不应该高估单个技术的贡献,同时也不应该低估技术的量变产生质变的过程。如果觉得这期视频有帮到你,求个小小的三连。
等后面再出现什么新技术时,可以随时回来看一看,从上帝视觉重新审视一下,或许你能很快判断出这些技术的地位和影响。
最后
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。

👇👇扫码免费领取全部内容👇👇

1、大模型学习路线

2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

4、 AI大模型最新行业报告
2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
-
硬件选型
-
带你了解全球大模型
-
使用国产大模型服务
-
搭建 OpenAI 代理
-
热身:基于阿里云 PAI 部署 Stable Diffusion
-
在本地计算机运行大模型
-
大模型的私有化部署
-
基于 vLLM 部署大模型
-
案例:如何优雅地在阿里云私有部署开源大模型
-
部署一套开源 LLM 项目
-
内容安全
-
互联网信息服务算法备案
-
…
👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐



所有评论(0)