一、循环神经网络基本概念

循环神经网络(RNN)‌作为人工神经网络的一种,其核心特性在于能够处理具有时序依赖的数据。

与传统神经网络不同,常规神经网络(如卷积神经网络)通常独立处理每个输入输出样本,例如图像分类中每张图片的特征提取互不关联。

而RNN通过‌记忆机制‌捕捉序列数据的前后关联性。以句子"我想吃北京烤鸭"为例:

首字"我"作为主语,会引导后续动词"吃"的出现概率提升;

动词"吃"进一步约束后续名词类型,使"食物"类词汇(如"烤鸭")的生成概率显著高于其他名词;

地域词"北京"与食物"烤鸭"的搭配也受到前文语义的直接影响。

这种‌序列建模能力‌使RNN在自然语言处理、时序预测等深度学习领域成为不可替代的工具。

二、为什么需要RNN

CNN存在两个主要局限性:其一,其特征传递是单向的,导致同层特征间缺乏交互;其二,输入层要求固定长度特征(例如100个单元),若需扩充输入信息则处理难度较大。

CNN更擅长处理二维图像数据,能够提取并归纳图像的深层特征。

然而现实场景中存在大量随时间演变的数据(如气温年度波动、人体生理信号、陀螺仪输出等),这类时序数据具有显著的时间依赖性,前后数据存在关联性。

因此需要一种能够保留历史特征记忆的模型,这正是RNN的用武之地。

最近两年,大家都可以看到AI的发展有多快,我国超10亿参数的大模型,在短短一年之内,已经超过了100个,现在还在不断的发掘中,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?

与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,整体AI领域2025年预计缺口1000万人,其中算法、工程应用类人才需求最为紧迫!

学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】

【2025最新】AI大模型全套学习籽料(可白嫖):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!

三、最简单的RNN模型

大家应该都见过网上这类图片吧?左图简洁到抽象,但第一眼真让人摸不着头脑。

转到右侧的时间展开图就清晰多了:初始状态h0之后,依次排列着4个时间步的输入x1到x4。

这些特征可能是向量/矩阵,甚至单个数值,但那个h到底代表什么?还是得继续往下看才能明白。

图片

看下面这个图,表达的就很清楚了,Wih就是输入到神经网络的权重参数,与输入有关,所以用i。Whh是隐藏层到神经网络的权重参数,所以用h标记,b就是偏置了。

ht-1和xt都是神经网络的输入,与各自的权重系数相乘,再加上偏置,就是标准的神经元运算过程,只不过后面加了一步求和再激活,h的数值和过去有关,相当于一个记忆。

图片

为了更清晰地展示细节,下图直观呈现了关键结构。需特别说明的是,图中虽显示为两个隐藏层,但实际为同一隐藏层在不同时间步的复用。

由于各时间步的权重矩阵存在差异,因此隐藏层的运算结果也会相应变化。该图完整展示了RNN单步的计算流程,理解此图即可掌握RNN的核心原理。

图片

‌输入特征x的维度取决于数据本身的性质‌:例如在气候分析场景中,通常将风速、大气温度、相对湿度等作为特征变量;而对于心电信号而言,输入特征则是单通道体表电位测量值。

如图示案例所示,心电信号的时间序列包含300个采样点(即300个时间步长),由于每个时间步仅对应1个测量值,因此其特征维度为1。

图片

隐藏层中神经元的数量由hidden_size参数决定,显然,神经元数量增加会导致计算量上升。

接下来说明RNN为何能适应变长输入。

观察下方动图可知,在自然语言处理中,每个词作为独立的输入特征按序传递即可,句子长度不会构成限制,本质上只需增加数据传递的频次。

图片

但是,RNN的计算复杂度是和序列长度(时间步长度)呈线性关系的。

RNN的隐藏层可以不只1层,但是一般不超过3层。

四、双向RNN

传统的RNN结构模型仅能处理历史时序数据,无法纳入未来信息。

为解决这一局限,双向RNN结构通过将输入特征序列进行倒序排列,并在模型中引入反向传播隐藏层,最终将反向传播结果与前向输出相结合作为整体输出。

以隐藏层神经元数量为25为例,每个时间步的输出结果会由正向25维和反向25维数据共同构成,形成50维的最终输出特征。

图片

通过提取最终时间步的输出特征,该特征已整合了所有输入时间步的信息,从而有效捕捉时序数据的动态关联性。

对于分类任务,仅需在模型末端叠加全连接层即可实现类别预测。

五、重要参数

先看pytorch官网对于RNN的模型定义

图片

下面结合实例来看一下,这个RNN模型接收上面的心电信号,共300个采样数据,也就是300个时间步,每次输入的特征只有一个:

图片

该RNN模型采用单样本输入方式,每个样本包含300个采样点。模型在内部会执行300次迭代计算,由于配置了50个神经元,因此每次迭代都会产生一个50维的输出向量。

在训练过程中,我们仅保留最终时间步(第300步)的输出结果Y300,将其作为特征输入到全连接层。

通过构建一个从50维特征空间到5类输出的神经网络映射关系,最终实现五分类任务。

具体实现方式如图所示:提取Y300中的50个特征维度,建立50到5的线性变换结构完成分类输出。

图片

六、结语

有了上面的RNN模型基础,针对RNN模型的很多变种,如LSTM、GRU等,就可以很快理解并使用了。

最近两年,大家都可以看到AI的发展有多快,我国超10亿参数的大模型,在短短一年之内,已经超过了100个,现在还在不断的发掘中,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?

与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,整体AI领域2025年预计缺口1000万人,其中算法、工程应用类人才需求最为紧迫!

学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】

【2025最新】AI大模型全套学习籽料(可白嫖):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐