AI基础概念之十二：RNN算法的基本原理

核心特征：隐藏层自循环 + 时间步权重共享，实现时序记忆；三层结构：输入层（接收序列）→ 隐藏层（存储记忆）→ 输出层（任务输出）；关键公式：隐藏状态 ht 是连接历史与当前的核心，决定了 RNN 的记忆能力；变体延伸：LSTM/GRU 是基础 RNN 的隐藏层增强版，结构框架完全兼容。

楚来客 · 2026-01-21 10:40:50 发布

RNN 的核心思想最早可追溯至 20 世纪 80 年代，但真正形成标准化架构并被广泛研究的标志是：

1982 年：物理学家 John Hopfield 提出 Hopfield 网络，这是一种循环神经网络的雏形，证明了循环结构可以存储和处理时序信息，但并非现代意义上的 RNN。
1986 年：学者 Rumelhart、Hinton 和 Williams 在论文《Learning representations by back-propagating errors》中，首次提出反向传播算法在循环结构中的应用，奠定了现代 RNN 的理论基础。
1990 年：Sepp Hochreiter 等人进一步完善了 RNN 的训练方法，解决了部分梯度问题，现代 RNN 的架构才正式确立。

而 RNN 的核心变体 LSTM 则是在 1997 年由 Hochreiter & Schmidhuber 提出，2014 年后才大规模应用于 NLP 任务。

RNN 和 CNN 均属于深度学习的经典架构，但设计目标、核心逻辑完全不同，是针对不同数据类型的并行发展路线。两者的后期发展都借鉴了注意力机制，弥补自身缺陷。

维度	RNN	CNN
目标数据	序列数据（文本、语音、时间序列），数据具有时序依赖（前一时刻影响后一时刻）	网格数据（图像、视频），数据具有空间局部性（相邻像素关联性强）
核心归纳偏置	时序记忆性：通过隐藏状态迭代，利用历史信息	空间局部性 + 平移不变性：通过卷积核局部滑动，提取局部特征
计算方式	串行计算：按时间步顺序更新，无法并行	并行计算：卷积核可同时作用于输入的所有局部区域
参数共享逻辑	时间步共享：同一套权重在所有时刻复用	空间位置共享：同一卷积核在图像所有位置复用

一个基础 RNN 模型的核心是循环结构，通过隐藏状态的迭代更新来捕捉序列数据的时序依赖，其基本结构可以拆解为 输入层、隐藏层、输出层 三部分。RNN 的本质是 “同一网络结构在不同时间步的重复”，不同的语料数据依次传递经过RNN的输入层、隐藏层和输出层。

核心特点：

所有时间步共享同一套权重（输入-隐藏层权重Wxh、隐藏-隐藏层权重Whh、隐藏-输出层权重Why），大幅减少参数数量；Whh 是隐藏层到隐藏层的权重，它的作用是把上一个时间步的隐藏状态传递到当前步，当隐藏层不止一层时，也会涉及上一个隐藏层往下一个隐藏层传递的需求。
隐藏层的输出 ht 会作为下一时刻的输入之一，实现历史信息的传递。

我们以输入 “我喜欢”，生成后续词（苹果 / 香蕉 / 橙子）为例，核心步骤如下。前提设定：

处理第一个词 “我” 之前，RNN 没有任何历史信息，所以初始隐藏状态 h0 = [0,0]（2 个 0，对应隐藏层维度 = 2）。

过程	通俗理解
输入	“我” → 转化为向量 [1,0,0]（输入维度 = 3）
计算隐藏状态 h1	RNN 把输入向量 [1,0,0] 和初始记忆 [0,0] 结合，得到新的记忆 h1 = [0.1, 0.3] 这个记忆里只存了 “我” 的信息
输出预测y1	基于记忆 h1，预测下一个词的概率：苹果 29%、香蕉 31%、橙子 40% 此时预测不准，因为只有 “我” 一个词的信息

这是 RNN 的核心！处理 “喜欢” 时，会带着 “我” 的记忆一起计算

过程	通俗理解
输入	“喜欢” → 转化为向量 [0,1,0]（输入维度 = 3）
计算隐藏状态 h2	RNN 把输入向量 [0,1,0] 和上一步的记忆 h1=[0.1,0.3] 结合，得到新的记忆 h2 = [0.24, 0.44] 这个记忆里信息同时存了 “我” 和 “喜欢” 的组合
输出预测y2	基于组合记忆 h2，预测下一个词的概率：苹果 28%、香蕉 32%、橙子 40% 这次预测比上次更贴合 “我喜欢 XX” 的语义

梯度更新的核心目标通过计算预测值与真实值的误差，反向传播误差得到权重的梯度，再用梯度下降调整权重，让预测越来越准。

损失函数：交叉熵损失

RNN 的反向传播称为BPTT（时间反向传播），核心是从最后一个时间步倒着算梯度，因为每个时间步的隐藏状态都依赖前一个时间步，误差需要从后往前传递。

我们以更新 Whh 为例，在 RNN 中，Whh 是隐藏层到隐藏层的权重，它的作用是把上一个时间步的隐藏状态传递到当前步。对于两步序列，依赖链是：Whh→h1→h2→y2→Loss。

RNN 选择激活函数的核心原则是适配时序信号的传递与梯度稳定性，不同位置（隐藏层 / 输出层）会搭配不同的激活函数，其中隐藏层的激活函数是关键，直接影响模型的记忆能力和训练效率。