在这里插入图片描述

一、引言

​ 在自学大模型(LLM)的过程中,我逐渐意识到:理解序列模型是理解 LLM 的核心路径。大模型的行为虽然复杂,但其底层机制其实非常简单:

LLM(如 GPT、LLaMA、Qwen)本质上是一类序列建模模型。
它的任务就是:根据前面的 token,预测下一个 token。

​ 这种预测方式在统计学中已有几十年历史,它有一个共同的名称:自回归(Autoregressive, AR)

​ 而现代 LLM(如 GPT、LLaMA、Qwen)正是:
LLM=Transformer架构+自回归训练范式 \text{LLM} = \text{Transformer架构} + \text{自回归训练范式} LLM=Transformer架构+自回归训练范式
​ 理解这层关系,有助于更好理解 Transformer 的设计动机,也能让整个 LLM 原理体系变得清晰可解释。

二、自回归模型:传统序列模型的核心思想

​ 在机器学习出现之前,序列建模的主要工具来自传统统计模型。其中最经典的一类就是线性时间序列模型,包括:

  • AR(Autoregressive,自回归模型)

  • MA(Moving Average,滑动平均模型)

  • ARMA / ARIMA(在 AR 与 MA 基础上加入差分、季节性等结构)

    这类模型都围绕一个共同的思路:当前时刻的值由过去序列中的若干值共同决定。

1. AR模型

​ 在这些模型中,AR(自回归)最能体现这一思想。它的数学形式为:
xt=f(xt−1,xt−2,⋯ ,xt−k)+ϵ x_t = f(x_{t-1}, x_{t-2}, \cdots, x_{t-k}) + \epsilon xt=f(xt1,xt2,,xtk)+ϵ
​ 其核心特征包括:

  • 依据过去kkk个观测预测当前值kkk阶马尔可夫模型)
  • 模型结构简单、可解释性强
  • 强调序列时间依赖

​ 可以看到,AR 模型虽然结构朴素,但它所体现的“利用过去预测未来”的思想,成为后续所有序列建模方法的基础。从 RNN/LSTM 到 Transformer,再到现代 LLM,这一思想始终没有改变,只是模型函数f(⋅)f(·)f()从线性形式演化为更强大的神经网络结构。

三、深度学习接棒:自回归思想未变、模型更强

随着深度学习的兴起,序列任务由 RNN 一类模型接棒:RNN、LSTM、GRU。

​ 虽然模型结构变得复杂,但其训练范式保持不变:
P(xt∣x<t) P(x_t|x_{<t}) P(xtx<t)
​ 也就是说:深度学习序列模型依然是自回归模型,只是把传统的线性函数fff替换为了强大的神经网络。

​ RNN 引入循环结构,LSTM/GRU 引入门控机制来增强长程依赖能力,但底层思想仍然延续传统 AR:
过去决定现在

四、Transformer 如何成为“自回归模型”?

​ Transformer 最初是为机器翻译提出的,是一种用于建模序列关系的结构(基于注意力机制),它本身不是自回归模型。
​ 但当我们使用以下训练目标时:
max⁡∏tP(xt∣x<t) \max \prod_t P(x_t \mid x_{<t}) maxtP(xtx<t)

​ 并配合 Causal Mask(因果掩码) 限制当前 token 只能访问前文,Transformer 便被“转化”为:自回归语言模型(Autoregressive Language Model, AR LM),这也就是 GPT 的工作模式。

​ 注意力机制让模型能在任意长度上下文中建立依赖,而自回归训练方式让它能够按序生成语言。

五、自回归模型到LLM的技术演化脉络

​ 将传统模型到 LLM 的发展串起来,就是一条非常清晰的演化链:
在这里插入图片描述

​ 可以看到:LLM 并不是脱离传统 AR,而是将自回归思想推向了极致。

六、为什么现代 LLM 仍坚持自回归?

​ 虽然 LLM 能执行对话、推理、写代码等复杂任务,但其底层仍依赖一个核心训练方式:
下一个 token 预测(Next-Token Prediction, NTP) \text{下一个 token 预测(Next-Token Prediction, NTP)} 下一个 token 预测(Next-Token Prediction, NTP
​ 坚持自回归具有以下优势:

✔ 1)天然契合语言顺序

​ 语言本质上是按 token 顺序展开的,AR 与其完全吻合。

✔ 2)训练目标简单稳定

​ 无需标注数据,只需大量文本即可学习丰富语义与世界知识。

✔ 3)推理方式稳定

​ 逐 token 预测,不会出现整句预测失败的问题。

✔ 4)支持长文本生成

​ 适合对话、故事生成等场景,可在线持续生成。

​ 这些原因也是为什么 BERT 虽然强大,却不用于生成任务。

七、自回归思想对 LLM 的深层影响

​ 自回归不仅是一种训练方式,也深刻影响 LLM 的推理机制与能力边界。

1. 训练方式完全继承 AR 范式

P(xt∣x<t) P(x_t \mid x_{<t}) P(xtx<t)

​ 这是 LLM 学习语言、知识和推理能力的核心。

2. 生成方式仍是 AR

​ 生成流程如下:

  • 输入已有 tokens

  • 预测下一个 token

  • 将预测结果加入上下文,继续预测

    与传统 AR 完全一致。

3. 底层行为就是序列预测

无论 LLM 看起来多么“智能”,其本质都是:

一个极其强大的序列预测器。

大规模带来高质量预测,从而表现出“智能”般行为。

八、结语:LLM 是自回归序列模型的终极形态

​ 归根结底:LLM 没有抛弃传统序列模型,而是把“自回归”这一思想发挥到了极致。

  • Transformer 解决长程依赖

  • 大规模训练增强表达能力

  • 自回归方式保证稳定生成

    三者结合,成就了今天的大模型时代。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐