【LLM基础】序列模型与大模型：从自回归到 LLM 的技术演化

本文梳理了自回归模型到大语言模型（LLM）的技术演化。文章指出：传统 AR/ARIMA 通过“利用过去预测未来”奠定序列建模基础；RNN/LSTM 继承自回归思想并增强非线性表达；Transformer 则以注意力机制突破长依赖限制，并在因果 Mask 下继续采用自回归训练。最终，现代 LLM 本质上仍是自回归序列模型的规模化进化。理解自回归，是理解 LLM 的关键起点。

Rabbit_QL

664人浏览 · 2025-11-26 09:46:29

Rabbit_QL · 2025-11-26 09:46:29 发布

在这里插入图片描述

一、引言

在自学大模型（LLM）的过程中，我逐渐意识到：理解序列模型是理解 LLM 的核心路径。大模型的行为虽然复杂，但其底层机制其实非常简单：

LLM（如 GPT、LLaMA、Qwen）本质上是一类序列建模模型。
它的任务就是：根据前面的 token，预测下一个 token。

这种预测方式在统计学中已有几十年历史，它有一个共同的名称：自回归（Autoregressive, AR）

而现代 LLM（如 GPT、LLaMA、Qwen）正是：
$\text{LLM} = \text{Transformer架构} + \text{自回归训练范式}$
理解这层关系，有助于更好理解 Transformer 的设计动机，也能让整个 LLM 原理体系变得清晰可解释。

二、自回归模型：传统序列模型的核心思想

在机器学习出现之前，序列建模的主要工具来自传统统计模型。其中最经典的一类就是线性时间序列模型，包括：

AR（Autoregressive，自回归模型）
MA（Moving Average，滑动平均模型）
ARMA / ARIMA（在 AR 与 MA 基础上加入差分、季节性等结构）

这类模型都围绕一个共同的思路：当前时刻的值由过去序列中的若干值共同决定。

1. AR模型

在这些模型中，AR（自回归）最能体现这一思想。它的数学形式为：
$x_t = f(x_{t-1}, x_{t-2}, \cdots, x_{t-k}) + \epsilon$
其核心特征包括：

依据过去 $k$ 个观测预测当前值（ $k$ 阶马尔可夫模型）
模型结构简单、可解释性强
强调序列时间依赖

可以看到，AR 模型虽然结构朴素，但它所体现的“利用过去预测未来”的思想，成为后续所有序列建模方法的基础。从 RNN/LSTM 到 Transformer，再到现代 LLM，这一思想始终没有改变，只是模型函数 $f (\cdot)$ 从线性形式演化为更强大的神经网络结构。

三、深度学习接棒：自回归思想未变、模型更强

随着深度学习的兴起，序列任务由 RNN 一类模型接棒：RNN、LSTM、GRU。

虽然模型结构变得复杂，但其训练范式保持不变：
$P(x_t|x_{<t})$
也就是说：深度学习序列模型依然是自回归模型，只是把传统的线性函数 $f$ 替换为了强大的神经网络。

RNN 引入循环结构，LSTM/GRU 引入门控机制来增强长程依赖能力，但底层思想仍然延续传统 AR：
过去决定现在。

四、Transformer 如何成为“自回归模型”？

Transformer 最初是为机器翻译提出的，是一种用于建模序列关系的结构（基于注意力机制），它本身不是自回归模型。
但当我们使用以下训练目标时：
$\max \prod_t P(x_t \mid x_{<t})$

并配合 Causal Mask（因果掩码） 限制当前 token 只能访问前文，Transformer 便被“转化”为：自回归语言模型（Autoregressive Language Model, AR LM），这也就是 GPT 的工作模式。

注意力机制让模型能在任意长度上下文中建立依赖，而自回归训练方式让它能够按序生成语言。

五、自回归模型到LLM的技术演化脉络

将传统模型到 LLM 的发展串起来，就是一条非常清晰的演化链：
在这里插入图片描述

可以看到：LLM 并不是脱离传统 AR，而是将自回归思想推向了极致。

六、为什么现代 LLM 仍坚持自回归？

虽然 LLM 能执行对话、推理、写代码等复杂任务，但其底层仍依赖一个核心训练方式：
$\text{下一个 token 预测（Next-Token Prediction, NTP）}$
坚持自回归具有以下优势：

✔ 1）天然契合语言顺序

语言本质上是按 token 顺序展开的，AR 与其完全吻合。

✔ 2）训练目标简单稳定

无需标注数据，只需大量文本即可学习丰富语义与世界知识。

✔ 3）推理方式稳定

逐 token 预测，不会出现整句预测失败的问题。

✔ 4）支持长文本生成

适合对话、故事生成等场景，可在线持续生成。

这些原因也是为什么 BERT 虽然强大，却不用于生成任务。

七、自回归思想对 LLM 的深层影响

自回归不仅是一种训练方式，也深刻影响 LLM 的推理机制与能力边界。

1. 训练方式完全继承 AR 范式

$P(x_t \mid x_{<t})$

这是 LLM 学习语言、知识和推理能力的核心。

2. 生成方式仍是 AR

生成流程如下：

输入已有 tokens
预测下一个 token
将预测结果加入上下文，继续预测

与传统 AR 完全一致。

3. 底层行为就是序列预测

无论 LLM 看起来多么“智能”，其本质都是：

一个极其强大的序列预测器。

大规模带来高质量预测，从而表现出“智能”般行为。

八、结语：LLM 是自回归序列模型的终极形态

归根结底：LLM 没有抛弃传统序列模型，而是把“自回归”这一思想发挥到了极致。

Transformer 解决长程依赖
大规模训练增强表达能力
自回归方式保证稳定生成

三者结合，成就了今天的大模型时代。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

测试不止于代码：为何个人开发者应让AI聚焦策略，而非实现

摘要：个人开发者使用AI辅助测试时，应优先聚焦测试策略而非具体实现。直接从测试用例生成切入（如“生成登录功能测试”）容易忽略核心风险，而策略性问题（如“登录功能最常见生产问题有哪些”）能引导AI识别关键风险点。AI在测试中的真正价值在于：1）基于行业经验识别风险模式；2）根据资源限制规划测试优先级；3）推荐适合的测试方法。开发者应遵循“目标→策略→方法→实现”的工作流，让AI充当策略顾问，避免陷

2048 AI社区

告别论文焦虑！这个AI写作工具如何帮你解放创造力

在数字化时代，我们的工具在不断进化，但写作的核心挑战似乎从未改变：如何将零散的想法系统化，将复杂的资料结构化，最终形成一篇逻辑清晰、内容扎实的学术作品？例如，当我输入“人工智能在医疗诊断中的应用进展”时，它不仅给出了传统的“引言-正文-结论”结构，还智能建议了具体的小节划分：历史发展、技术分类、典型案例、伦理考量、未来趋势等。百考通AI的内容生成不是简单的文字堆砌，而是基于学术逻辑的深度展开。：透

2048 AI社区

【无标题】

大规模训练必须使用裸金属GPU服务器的核心原因在于其能提供最优性能和资源保障。裸金属服务器消除了虚拟化层的性能损耗，确保GPU计算资源完全独占，这对于计算密集型的大模型训练至关重要。其直接硬件访问特性显著降低了分布式训练中的通信延迟，优化了节点间的数据同步效率。同时，裸金属环境能充分发挥CUDA等GPU加速库的性能，并提供更好的兼容性和调试支持。尽管成本较高，但裸金属服务器通过提升训练效率和稳定性