从零手撕GPT:三阶段让你真正理解大模型的底层逻辑

你可能会用ChatGPT写邮件,用Claude写代码,甚至用LangChain搭建过聊天机器人。

但我问你一个问题:当GPT给出回答时,它的每一层神经网络到底在做什么?

大部分人会卡住。

这不是你的问题,这是整个行业的问题。当前的AI学习路径出现了严重的断层——市面上95%的教程都在教你怎么调用API、怎么用Ollama部署模型、怎么用LangChain快速上线应用。

看起来很高效?实际上你只是在做"AI时代的代码搬运工"。

今天,我想带你走一条少有人走的路:从零构建一个大语言模型。不是调包,不是调参,而是真正理解每一行代码、每一个数学公式背后的意义。

这个过程分为三个阶段,每个阶段都会颠覆你对LLM的认知。

阶段一:搭建舞台,理解LLM的基础架构

很多人以为,构建LLM的第一步是"搭建神经网络"。

错了。

第一步是让机器理解人类语言——这听起来简单,实际上是整个工程中最精妙的部分。

数据预处理:把文字变成机器的"通用语"

想象你要教一个从未见过人类语言的外星人学会英语。你会怎么做?

  • 第一步:分词(Tokenization)——把句子拆成最小单位。但问题是,"running"和"run"应该算一个词还是两个词?这就是为什么现代LLM都用BPE(字节对编码)或WordPiece,它能在"字符"和"单词"之间找到最佳平衡点。

  • 第二步:向量嵌入(Vector Embedding)——这是最神奇的部分。想象一个高维空间,在这个空间里:

    • “apple”、“banana”、"orange"聚在一起(水果家族)

    • “king”、“man”、"woman"形成另一个集群(人类关系)

    • “football”、“tennis”、"golf"靠近彼此(运动类别)

这不是人为设定的规则,而是模型从数十亿句子中自己学会的语义地图。当你在这个空间里做"king - man + woman"的向量运算时,最接近的词是"queen"——这就是语言的几何学。

  • 第三步:位置编码(Positional Encoding)——“我喜欢你"和"你喜欢我"意思完全不同,所以词序很重要。位置编码通过数学函数(正弦/余弦波)给每个词打上"位置戳”,让模型知道"我"在前还是"你"在前。

注意力机制:让模型学会"选择性关注"

这是Transformer架构的核心秘密。

想象你在读侦探小说,读到第50页时,你会自动回想第3页提到的那个关键线索。人类阅读时,会自然地给不同信息分配不同的"注意力权重"——重要的记住,不重要的忽略。

自注意力机制让机器也学会了这种能力。

具体怎么做?通过三个关键矩阵:

  • Query(查询):当前词在问"谁和我相关?"

  • Key(键):每个词在说"我是什么?"

  • Value(值):每个词在说"如果你关注我,我能提供什么信息?"

然后模型会计算Query和Key的相似度,生成注意力分数,决定应该把多少"注意力"分配给每个词。这个机制让GPT能在生成第100个词时,依然记得第1个词提供的上下文。

架构设计:堆叠96层的智能大厦

GPT-3有96层Transformer解码器,每层都在做同样的事情:接收输入 → 注意力机制 → 前馈网络 → 输出到下一层。

为什么要堆这么多层?因为每一层都在学习不同层次的抽象:

  • 前几层学习词汇和语法

  • 中间层学习语义和逻辑关系

  • 后几层学习推理和生成策略

这就像盖楼,地基、框架、装修各司其职,最终形成一个175亿参数的"智能大厦"。

阶段二:预训练,用3000亿个词喂出"常识"

如果说阶段一是搭建舞台,阶段二就是正式开演。

无监督学习的魔法

GPT-3的预训练花了460万美元,训练数据是3000亿个token(大约相当于300万本书)。

但神奇的是,没有人给这些数据打标签

预训练的任务只有一个:预测下一个词

给它一句话"猫坐在____上",模型猜"垫子",然后对照原文发现答案是"垫子",于是它知道自己猜对了。这个句子本身既是练习题,也是标准答案——这就是无监督学习的精髓。

涌现能力:为什么只教"接龙",却学会了推理?

这是LLM最令人费解的现象。

GPT-3的训练目标只是预测下一个词,但它却莫名其妙地学会了:

  • 翻译语言

  • 写代码

  • 做数学题

  • 总结文章

  • 逻辑推理

科学家把这种现象叫做涌现能力(Emergent Behavior)——就像水温升到100度会自动沸腾一样,模型规模达到某个临界点,新能力就自然"冒"出来了。

为什么会这样?一种解释是:语言本身就包含了世界的知识结构。

当你训练AI预测下一个词时,它必须理解:

  • 上下文关系(“因为…所以…”)

  • 因果逻辑(“如果…那么…”)

  • 时间顺序(“首先…然后…”)

  • 实体关系(“巴黎是法国的首都”)

要准确预测下一个词,AI必须建立对世界的内在表征。而当这个表征足够丰富时,它自然就能完成各种推理任务。

权重保存与迁移学习

阶段二的另一个关键技能是:如何站在巨人肩膀上

OpenAI已经用几千万美元训练好了基础模型,并开源了部分权重。我们要做的是:

  1. 实现权重的保存和加载机制

  2. 学会加载OpenAI的预训练权重

  3. 在此基础上继续训练或微调

这就像你接手了一个已经学会基础知识的学生,直接教高级课程,而不是从拼音开始教起。

阶段三:微调,让通用模型变成专家

预训练模型很强大,但它是"全才",不是"专家"。

为什么需要微调?

假设你是一家银行,想用LLM做客服。直接用GPT-4会怎样?

  • 它可能给出通用的金融建议,但不了解你们银行的具体产品

  • 它可能回答问题,但语气不符合你们的品牌调性

  • 它可能很博学,但在你们的业务场景下准确率不够高

这时候,你需要用自己的标注数据对模型进行微调

两个实战案例

案例一:垃圾邮件分类器

给模型一些标注好的邮件:

  • “恭喜您中奖1000万!点击领取!” → 垃圾邮件

  • “嗨,今晚还约吗?回个信息。” → 正常邮件

通过在这些标注数据上继续训练,模型会学会识别垃圾邮件的特征模式。

案例二:个人助理聊天机器人

给模型提供对话数据集,每条数据包含:

  • 指令:“帮我查明天的天气”

  • 输入:用户的位置信息

  • 输出:“明天北京多云,气温15-25度”

通过微调,模型会学会理解指令、使用上下文、生成符合格式的回答。

预训练vs微调:两个不同的世界

维度 预训练 微调
数据 无标签,数十亿条 有标签,几千到几万条
目标 学习通用语言能力 适应特定任务
成本 极高(460万美元) 相对较低(几千美元)
结果 基础模型 应用级模型

航空公司、餐厅、银行、教育机构在部署LLM时,都会在预训练模型基础上进行微调——没有人直接用"原版"GPT上线生产。

三个阶段,缺一不可

现在大部分AI学习者在干什么?

他们跳过阶段一和二,直接学阶段三——用LangChain、Ollama、各种现成工具快速搭建应用。

这就像一个厨师,只会用微波炉加热半成品,却不知道食材是怎么种出来的、调料是怎么调配的。

你可以快速上手,但你会缺乏两样东西:

  1. 深度理解——当模型出问题时,你无法Debug,因为你不知道哪一层、哪个参数出了问题

  2. 创新能力——当需要定制化改进时,你只能等别人开发新工具,而不能自己动手

三个思考题:

  1. 如果涌现能力是模型规模达到临界点后自然出现的,那么GPT-5会涌现出哪些我们现在无法想象的能力?

  2. 当AI能在无监督学习中掌握世界知识,"教育"的意义会不会改变?

  3. 如果你有460万美元和3000亿个token的数据,你会训练一个什么样的模型?

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐