万字解析！一文带你了解深度学习中经典神经网络结构--CNN、RNN、LSTM、Transformer！原创JOYCE_Leo16AI评论员2025年06

与传统神经网络不同，RNN通过隐藏状态（hidden state）的循环连接，将前一个时间步的输出作为当前时间步的输入，从而实现对序列数据的时序建模。另外想结合AI发文发刊，但不知道怎么做创新的同学，我们team磨练出了一套系统且专业的传统学科交叉AI科研入门方案，可带学生发paper，已迭代五次（持续迭代中），我们会根据你的研究方向来规划学习路径，并且根据你的实验数据分为了时序、图结构、影像三大

深度学习机器学习

850人浏览 · 2025-09-17 16:49:15

深度学习机器学习 · 2025-09-17 16:49:15 发布

大家好，今天我们来总结下深度学习中一些经典的神经网络结构，包括了CNN、RNN、LSTM、Transformer，接下来就直接进入正题吧！

1 卷积神经网络（CNN）

一种专用于图像处理的深度学习模型。其核心是卷积层，通过可学习的滤波器提取局部特征（如边缘、纹理），并利用参数共享降低计算量。池化层（如最大池化）进行下采样，减少数据维度并增强平移不变性。通过多层卷积-池化堆叠，CNN逐步构建层次化特征（从局部到全局），最后经全连接层完成分类。这种结构大幅减少参数量，使CNN在图像分类、目标检测等任务中高效且鲁棒。

网络结构

卷积层：用来提取图像的局部特征

池化层：用来大幅降低参数量级，实现数据降维。

全连接层：用来输出想要的结果。

解决问题：

提取特征：卷积操作提取图像特征，如边缘、纹理等，保留图像特征。

数据降维：池化操作大幅降低参数量级，实现数据降维，大大减少运算量，避免过拟合。

工作原理

卷积层：通过卷积核的过滤提取出图片中局部的特征，类似初级视觉皮层进行初步特征提取。

使用一个过滤器（卷积核）来过滤图像的各个小区域，从而得到这些小区域的特征值

池化层：下采样实现数据降维，大大减少运算量，避免过拟合。

原始是20*20，进行下采样，采样为10*10，从而得到2*2大小的特征图

全连接层：经过卷积层和池化层处理过的数据输入到全连接层，得到最终想要的结果。

LeNet-5：被誉为卷积神经网络的“Hello World”，是图灵奖获得者Yann LeCun（杨立昆）在1998年提出的CNN算法，用来解决手写识别的问题。

LeNet-5通过引入卷积层、池化层和全连接层等关键组件，构建了一个高效且强大的图像识别网络，为后续卷积神经网络的发展奠定了基础。

输入层：INPUT

三个卷积层：C1、C3和C5

两个池化层：S2和S4

一个全连接层：F6

输出层：OUTPUT

输入层-卷积层-池化层-卷积层-池化层-卷积层-全连接层-输出层

实际应用

图像分类：可以节省大量的人工成本，将图像进行有效的分类，分类的准确率可以达到95%+。典型场景：图像搜索。

目标定位：可以在图像中定位目标，并确定目标的位置及大小。典型场景：自动驾驶。

目标分割：简单理解就是一个像素级的分类。典型场景：视频裁剪。

人脸识别：非常普及的应用，戴口罩都可以识别。典型场景：身份认证。

【为初学者整理】另外我根据自己的入门经历和阅读经验，整理了一份针对机器学习深度学习新手的书单，总共有12本优质书籍！不仅包含了入门前需要掌握的前置知识，还兼顾了python编程语言、深度学习框架、常用第三方库、理论、实战，以及必读的经典论文

全套书籍.png

如果需要全套书籍的高清电子版和代码

文章中所有的数据和资料，可添加小助手无偿分享~
扫码添加小助手即可无偿获取~

也可以关注“AI技术星球”公众号，关注后回复“221C”获取。

2 循环神经网络（RNN）

是一种专门处理序列数据的神经网络架构，其核心特点是具有记忆能力，能够存储历史信息并影响当前决策。与传统神经网络不同，RNN通过隐藏状态（hidden state）的循环连接，将前一个时间步的输出作为当前时间步的输入，从而实现对序列数据的时序建模。这种结构使RNN能够捕捉数据中的时间依赖性，适用于自然语言处理、语音识别、时间序列预测等任务。典型的RNN变体包括LSTM和GRU

网络结构

输入层：接收输入数据，并将其传递给隐藏层。输入不仅仅是静态的，还包含着序列中的历史信息。

隐藏层：核心部分，捕捉时序依赖性。隐藏层的输出不仅取决于当前的输入，还取决于前一时刻的隐藏状态。

输出层：根据隐藏层的输出生成最终的预测结果。

解决问题

序列数据处理：RNN能够处理多个输入对应多个输出的情况，尤其适用于序列数据，如时间序列、语音或文本，其中每个输出与当前的及之前的输入都有关。

循环连接：RNN中的循环连接使得网络能够捕捉输入之间的关联性，从而利用先前的输入信息来影响后续的输出。

工作原理

输入层：先对句子“what time is it ？”进行分词，然后按照顺序输入。

隐藏层：在此过程中，我们注意到前面的所有输入都对后续的输出产生了影响。圆形隐藏层不仅考虑了当前的输入，还综合了之前所有的输入信息，能够利用历史信息来影响未来的输出。

输出层：生成最终的预测结果：Asking for the time。

应用场景

（1）处理数据

文本数据：处理文本中单词或字符的时序关系，并进行文本的分类或翻译。

语音数据：处理语音信号中的时许信息，并将其转换为相应的文本。

时间序列数据：处理具有时间序列特征的数据，如股票价格、气候变化等。

视频数据：处理视频帧序列，提取视频中的关键特征。

（2）实际应用

文本生成：填充给定文本的空格或预测下一个单词。典型场景：对话生成。

机器翻译：学习语言之间的转换规则，并自动翻译。典型场景：在线翻译。

语音识别：将语音转换成文本。典型场景：语音助手。

视频标记：将视频分解为一系列关键帧，并为每个帧生成内容匹配的文本描述。典型场景：生成视频摘要。

3 长短期记忆网络（LSTM）

一种改进的循环神经网络，通过输入门、遗忘门和输出门控制信息流动，并利用细胞状态保存长期记忆。这种门控机制有效解决了传统RNN的梯度消失问题，使其能够学习长序列中的依赖关系，在机器翻译、语音识别等时序任务中表现优异，显著优于标准RNN

网络结构

细胞状态（Cell state）：负责保存长期依赖信息。

门控结构：每个LSTM单眼包含三个门：输入门、遗忘门和输出门。

遗忘门（Forget Gate）：决定从细胞状态中丢弃哪些信息。
输入门（Input Gate）：决定哪些新信息被加入到细胞状态中。
输出门（Output Gate）：基于细胞状态决定输出的信息。

解决问题

短时记忆：RNN难以捕捉和利用序列中的长期依赖关系，从而限制了其在处理复杂任务时的性能。

梯度消失/梯度爆炸：在RNN的反向传播过程中，梯度会随着时间步的推移而逐渐消失（变得非常小）或爆炸（变得非常大）。

工作原理

输入门：决定哪些新信息应该被添加到记忆单元中

由一个sigmoid激活函数和一个tanh激活函数组成。sigmoid函数决定哪些信息是重要的，而tanh函数则生成新的候选信息。

遗忘门：决定哪些旧信息应该从记忆单元中遗忘或移除

遗忘门仅由一个sigmoid激活函数组成

输出门：决定记忆单元中的哪些信息应该被输出到当前时间步的隐藏状态中。

输出门同样由一个sigmoid激活函数和一个tanh激活函数组成。sigmoid函数决定哪些信息应该被输出，而tanh函数则处理记忆单元的状态以准备输出。

应用场景

（1）机器翻译

应用描述：

LSTM在机器翻译中用于将源语言句子自动翻译成目标语言句子。

关键组件：

编码器（Encoder）：一个LSTM网络，负责接收源语言句子并将其编码成一个固定长度的上下文向量。

解码器（Decoder）：另一个LSTM网络，根据上下文向量生成目标语言的翻译句子。

流程：

源语言输入：将源语言句子分词并转换为词向量序列。

编码：使用编码器LSTM处理源语言词向量序列，输出上下文向量。

初始化解码器：将上下文向量作为解码器LSTM的初始隐藏状态。

解码：解码器LSTM逐步生成目标语言的词序列，直到生成完整的翻译句子。

目标语言输出：将解码器生成的词序列转换为目标语言句子。

优化：

通过比较生成的翻译句子与真实目标句子，使用反向传播算法优化LSTM模型的参数，以提高翻译质量。

（2）情感分析

应用描述：

LSTM用于对文本进行情感分析，判断其情感倾向（积极、消极或中立）。

关键组件：

LSTM网络：接收文本序列并提取情感特征。

分类层：根据LSTM提取的特征进行情感分类。

流程：

文本预处理：将文本分词、去除停用词等预处理操作。

文本表示：将预处理后的文本转换为词向量序列。

特征提取：使用LSTM网络处理词向量序列，提取文本中的情感特征。

情感分类：将LSTM提取的特征输入到分类层进行分类，得到情感倾向。

输出：输出文本的情感倾向（积极、消极或中立）。

优化：

通过比较预测的情感倾向与真实标签，使用反向传播算法优化LSTM模型的参数，以提高情感分析的准确性。

4 Transformer

一种革命性的神经网络架构，其核心是自注意力机制。它通过并行计算处理序列数据，利用多头注意力同时关注不同位置的信息，有效捕捉长距离依赖关系。结合位置编码和前馈网络，Transformer实现了对序列数据的多层特征抽取。这种架构不仅解决了RNN的顺序计算瓶颈，还在机器翻译、文本生成等NLP任务中取得突破性进展，成为BERT、GPT等前沿模型的基础框架。

网络结构

由输入部分输入输出嵌入与位置编码）、多层编码器、多层解码器以及输出部分（输出线性层与Softmax）四大部分组成。

输入部分：

源文本嵌入层：将源文本中的词汇数字表示转换为向量表示，捕捉词汇间的关系。

位置编码器：为输入序列的每个位置生成位置向量，以便模型能够理解序列中的位置信息。

目标文本嵌入层（在解码器中使用）：将目标文本中的词汇数字表示转换为向量表示。

编码器部分：

由N个编码器层堆叠而成。

每个编码器层由两个子层连接结构组成：第一个子层是多头自注意力子层，第二个子层是一个前馈全连接子层。每个子层后都接有一个规范化层和一个残差连接。

解码器部分：

由N个解码器层堆叠而成。

每个解码器层由三个子层连接结构组成：第一个子层是一个带掩码的多头自注意力子层，第二个子层是一个多头自注意力子层（编码器到解码器），第三个子层是一个前馈全连接子层。每个子层后都接有一个规范化层和一个残差连接。

输出部分：

线性层：将解码器输出的向量转换为最终的输出维度。

Softmax层：将线性层的输出转换为概率分布，以便进行最终的预测。

解决问题

长期依赖问题：在处理长序列输入时，传统的循环神经网络（RNN）会面临长期依赖问题，即难以捕捉序列中的远距离依赖关系。Transformer模型通过自注意力机制，能够在不同位置对序列中的每个元素赋予不同的重要性，从而有效地捕捉长距离依赖关系。

并行计算问题：传统的RNN模型在计算时需要按照序列的顺序依次进行，无法实现并行计算，导致计算效率较低。而Transformer模型采用了编码器-解码器结构，允许模型在输入序列上进行编码，然后在输出序列上进行解码，从而实现了并行计算，大大提高了模型训练的速度。

特征抽取问题：Transformer模型通过自注意力机制和多层神经网络结构，能够有效地从输入序列中抽取丰富的特征信息，为后续的任务提供更好的支持。

工作原理

输入线性变换：对于输入的Query（查询）、Key（键）和Value（值）向量，首先通过线性变换将它们映射到不同的子空间。这些线性变换的参数是模型需要学习的。

分割多头：经过线性变换后，Query、Key和Value向量被分割成多个头。每个头都会独立地进行注意力计算。

缩放点积注意力：在每个头内部，使用缩放点积注意力来计算Query和Key之间的注意力分数。这个分数决定了在生成输出时，模型应该关注Value向量的部分。

注意力权重应用：将计算出的注意力权重应用于Value向量，得到加权的中间输出。这个过程可以理解为根据注意力权重对输入信息进行筛选和聚焦。

拼接和线性变换：将所有头的加权输出拼接在一起，然后通过一个线性变换得到最终的Multi-Head Attention输出。

BERT

BERT是一种基于Transformer的预训练语言模型，它的最大创新之处在于引入了双向Transformer编码器，这使得模型可以同时考虑输入序列的前后上下文信息。

1. 输入层（Embedding）：

Token Embeddings：将单词或子词转换为固定维度的向量。

Segment Embeddings：用于区分句子对中的不同句子。

Position Embeddings：由于Transformer模型本身不具备处理序列顺序的能力，所以需要加入位置嵌入来提供序列中单词的位置信息。

2. 编码层（Transformer Encoder）：

BERT模型使用双向Transformer编码器进行编码。

3. 输出层（Pre-trained Task-specific Layers）：

MLM输出层：用于预测被掩码（masked）的单词。在训练阶段，模型会随机遮盖输入序列中的部分单词，并尝试根据上下文预测这些单词。

NSP输出层：用于判断两个句子是否为连续的句子对。在训练阶段，模型会接收成对的句子作为输入，并尝试预测第二个句子是否是第一个句子的后续句子。

GPT

GPT也是一种基于Transformer的预训练语言模型，它的最大创新之处在于使用了单向Transformer编码器，这使得模型可以更好地捕捉输入序列的上下文信息。

1. 输入层（Input Embedding）：

将输入的单词或符号转换为固定维度的向量表示。

可以包括词嵌入、位置嵌入等，以提供单词的语义信息和位置信息。

2. 编码层（Transformer Encoder）：

GPT模型使用单向Transformer编码器进行编码和生成。

3. 输出层（Output Linear and Softmax）：

线性输出层将最后一个Transformer Decoder Block的输出转换为词汇表大小的向量。

Softmax函数将输出向量转换为概率分布，以便进行词汇选择或生成下一个单词。

放在最后：

另外想结合AI发文发刊，但不知道怎么做创新的同学，我们team磨练出了一套系统且专业的传统学科交叉AI科研入门方案，可带学生发paper，已迭代五次（持续迭代中），我们会根据你的研究方向来规划学习路径，并且根据你的实验数据分为了时序、图结构、影像三大实验室

文章中所有的数据和资料，可添加小助手无偿分享~
扫码添加小助手即可无偿获取~

也可以关注“AI技术星球”公众号，关注后回复“221C”获取。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

智能家居生态系统AI应用的进化，AI应用架构师推动前行

早期的规则引擎是“硬编码”的（比如“回家模式”的规则写死在代码里），用户无法修改。低代码规则引擎——让用户用“拖拽”或“简单配置”自定义场景。代码示例：用Node-RED实现“回家模式”// 1. 节点1：监听Wi-Fi连接事件（用Home Assistant的节点）[{"id":"123","type":"ha-event","event_type":"device_tracker.state_

2048 AI社区

深度研究框架 ByteDance DeerFlow

DeerFlow是字节跳动开源的多模态AI研究框架，集成了文本分析、代码执行、图像/音频合成等功能。其核心采用LangGraph构建的多代理系统，包含协调器、研究员、程序员等角色，支持从信息收集到报告生成的完整研究流程。项目已商业化部署至火山引擎，提供在线服务和技术文档生成等企业级应用。技术栈基于Python 3.12+和FastAPI，整合了LiteLLM、多种搜索引擎及私有知识库，具备模块化扩