DataWhale 二月组队学习-深度学习教程-Task05

深度学习中的卷积神经网络和循环神经网络

－273.15K

724人浏览 · 2025-02-28 20:53:06

－273.15K · 2025-02-28 20:53:06 发布

第四章：卷积神经网络（CNN）

4.1 观察1：检测模式不需要整张图像

核心思想：图像中的局部特征（如边缘、纹理）是识别目标的关键，无需全局信息。
- 示例：检测“鸟嘴”只需关注局部区域，而非整张图像。
- 意义：全连接网络的参数冗余问题严重，需优化为局部连接。

4.2 简化1：感受野（Receptive Field）

定义：每个神经元仅连接到输入图像的局部区域（即感受野），而非全连接。
实现方式：
- 卷积核（Kernel）：滑动窗口在图像上提取局部特征。
- 参数减少：相比全连接网络，参数量大幅降低（避免过拟合）。
公式：
输出特征图尺寸：
（Win：输入尺寸，F：卷积核大小，P：填充，S：步长）

4.3 观察2：同样的模式可能出现在不同区域

问题：全连接网络需为每个位置学习独立参数，效率低下。
简化2：参数共享
- 卷积核共享：同一卷积核在图像不同区域滑动，提取相同特征。
- 意义：平移不变性（Translation Invariance），提升泛化能力。

4.4 简化1和2的总结

CNN核心特性：
- 局部连接（减少参数量）
- 参数共享（提升效率与泛化）
典型结构：多层卷积堆叠，逐步提取高阶特征（边缘→纹理→物体部件→整体）。

4.6 观察3：下采样不影响模式检测

核心思想：降低特征图分辨率可减少计算量，同时保留关键信息。
简化3：汇聚（Pooling）
- 操作：最大池化（Max Pooling）或平均池化（Average Pooling）。
- 作用：平移鲁棒性（对微小位置变化不敏感），防止过拟合。
- 示例：2×2 最大池化窗口，步长2，输出尺寸减半。

4.8 卷积神经网络的应用：下围棋

AlphaGo 中的 CNN：
- 输入：棋盘状态（19×19 网格，每个点表示黑子、白子或空位）。
- 输出：下一步落子概率分布。
- 网络结构：多层级卷积层提取局部棋形特征，全连接层生成策略。

第五章：循环神经网络（RNN）

5.1 独热编码（One-Hot Encoding）

作用：将离散型变量（如词汇）转化为向量形式，便于神经网络处理。
示例：词汇表为 {“cat”, “dog”, “bird”}，则“dog”编码为 [0,1,0][0,1,0]。

5.2 什么是 RNN？

核心思想：处理序列数据（如文本、时间序列），通过隐藏状态传递历史信息。
与全连接网络的区别：
- 全连接网络：输入独立，无记忆。
- RNN：当前输出依赖当前输入和前一时刻的隐藏状态。

5.3 RNN 架构

基本结构：
- ℎ𝑡ht：当前隐藏状态，𝜎σ：激活函数（如 Tanh）。
时序展开：将循环结构展开为链式结构，便于反向传播。

5.4 其他 RNN 变体

5.4.1 Elman 网络 & Jordan 网络

Elman：隐藏状态传递至下一时刻（标准 RNN）。
Jordan：输出状态传递至下一时刻（较少使用）。

5.4.2 双向循环神经网络（Bi-RNN）

结构：前向和后向 RNN 结合，捕获上下文信息。
应用：文本分类、命名实体识别。

5.4.3 长短期记忆网络（LSTM）

核心改进：引入门控机制（输入门、遗忘门、输出门），解决梯度消失问题。
关键公式：
示例：LSTM 记忆长期依赖（如句子中主语与谓语的远距离关系）。

5.4.5 LSTM 运算示例

输入序列：“The cat, which ate…, is full.”
LSTM 行为：
- 遗忘门丢弃无关信息（如“which ate…”后的细节）。
- 输入门保留主语“cat”信息，直至谓语“is full”。

5.7 如何解决 RNN 梯度消失或爆炸

梯度裁剪（Gradient Clipping）：限制梯度最大值，防止爆炸。
改进结构：
- LSTM/GRU 的门控机制缓解梯度消失。
- 残差连接（ResNet 思想）跨层传递梯度。

5.8 RNN 其他应用

5.8.1 多对一序列

任务：序列输入，单输出（如情感分类）。
实现：取最后一个隐藏状态或池化后接全连接层。

5.8.2 多对多序列（同步）

任务：输入输出序列长度相同（如词性标注）。
实现：每个时间步输出对应标签。

5.8.3 序列到序列（Seq2Seq）

结构：编码器（RNN）压缩输入为上下文向量，解码器（RNN）生成输出序列。
应用：机器翻译、文本摘要。

总结

CNN：通过局部连接、参数共享和池化，高效处理图像数据。
RNN：通过隐藏状态传递时序信息，LSTM/GRU 解决长程依赖问题。
应用场景：CNN 适合空间局部性强的数据（图像），RNN 适合时序数据（文本、语音）。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【2025最新】基于SpringBoot+Vue的Spring Boot智能无人仓库管理管理系统源码+MyBatis+MySQL

2048 AI社区

基于SpringBoot+Vue的校园失物招领系统管理系统设计与实现【Java+MySQL+MyBatis完整源码】

2048 AI社区

C++类型转换详解

c++中支持内置类型转自定义类型，只需要提供相应的构造函数，就可以想怎么转就怎么转，全在于你的构造函数怎么实现。如下：代码语言：javascriptAI代码解释class Apublic:A(int x):a(x),b(x){}{}private:int a;int b;A a1 = v;//int类型隐式转化为A类型fun(6);return 0;A a1 = v：调用构造函数产生临时对象，然后