深度学习期末复习
太原理工大学深度学习复习纲要
重点考察内容:cnn,rnn,正则化,模型优化,参数初始化,数据白化,ae等内容
cnn的内容,包括多种网络的核心思想和改进
1.lenet:采用了卷积层与池化层进行特征提取与降维,相比于全连接神经网络大幅度减少了参数,使用全联接层进行最终分类。
2.alexnet 采用多个卷积层和池化层进行特征提取与降维,并且使用数据增强和dropout方法预防过拟合,在lenet基础上使用了更深层次的网络,卷积层之间使用局部响应归一化(lrn)加快收敛速度,局部神经元活动创建竞争机制,抑制
3. Vgg的思想:通过多个3x3尺寸的卷积核代替cnn中的大尺寸卷积,加深了神经网络的深度,。
4. nin的思想:是cnn的一种改进,通过引入多层感知器来代替传统的卷积操作,提高了特征提取能力。
5. googlenet思想:主要采用inception模块,采用多尺度卷积来增加神经网络的特征提取能力和特征范围,由不同尺寸的卷积层和池化层并行的进行卷积池化,最后将结果连接起来。
6. resnet:通过引入残差块,有小的缓解深度学习中的梯度消失问题,他的核心思想是引入跨层链接,将输入直接连接到输出端,可以是下一个残差块也可以是输出口。h(x)= x+f(x)
7. 轻量级网络:通道分离卷积
8. shufflenet:分组卷积
正则化
9. 正则化:正则化是深度学习中,模型训练的过程中减少泛化误差的一种方法,有损优化过程的方法都是正则化,主要有增加约束条件,l1正则化,l2正则化。增强数据:添加噪声,扰动数据。dropout正则化,提前终止。
11. 在标准随机梯度下降中,权重衰减正则化和l2正则化是等价的。复杂的优化模型中不是
12. 特征白化:数据输入时,对输入数据进行预处理使得相关性为0并且方差相等
13. 标准归一化,缩放归一化,pca(主成分分析)。白化后数据的相关性降低,并且方差相同
14. 数据增强与提前终止:数据增强是指在数据输入时,对数据进行预处理来增加输入数据的信息,常见的方法有添加噪声,旋转,插值等。
15. 设置一个验证集合,每次迭代一轮进行验证,当连续多次验证集合错误率不再下降时,停止训练。
16. dropout:在训练的过程中,以一定的概率使一些神经元失活,减少参数之间的依赖性,防止过拟合。
17. 深度学习中的模型优化:常见的方法有:梯度下降法gd,随机梯度下降法sgd,动量梯度下降法,自适应学习率。(在初始阶段,距离目标比较遥远,使用大学习率,但是在几轮训练后,离目标比较近,使用小学习率,Adam,adagrad等)
18. 动量梯度下降法里吗有两个参数 u 梯度学习率,w动量学习率,更新公式是这样的:v(t+1) =wv(t)-u梯度变化率
19. 参数初始化:高斯分布初始化(生成一个服从期望为u,方差为o^2的随机分布),xavier初始化(生成一个在-r到r区间内的均匀分布的数据)
20. internal covariate shift,内部协变量偏移:在深度模型训练过程中,每一层的输出都会打乱原始输入的数据分布,使得每一层的分布都发生偏移,会导致训练时间长且不稳定。通过bach normalization来进行优化,批规范法的思想是在数据输入时,把其标准化成一个期望为0,方差为1的分布,同时允许学习一些参数来对规范化后的参数进行微调,使得每一层的输入分布先对稳定,加快训练提高性能。
rnn
21. rnn循环神经网络,用于处理序列数据,其中的隐藏层具有记忆能力。利用当前时刻的输入以及上一时刻的输出来计算当前时刻的输出。
22. deeprenn通过堆叠多个循环层,实现深度结构,每一层都可以视为一个单独的rnn
23. 双向rnn,是rnn的一个扩展,能同时考虑前馈和后向的可以实现前向和后向数据同时处理,不能实时预测。包含两个独立的循环层,用于处理正向和反向信息,输出直接拼接或者求平均。
24. 截断梯度用于防止梯度爆炸,将梯度限制在一个合理的范围内。
25. 网络层次越深,越容易梯梯度消失。误差随着多层次的传播使得梯度以指数级权重衰减,导致梯度消失或者爆炸。
26. 缓减误差信号衰减:门控循环单元gru,长短期记忆网络lstm
27. lstm引入了记忆单元,通过引入遗忘门,输入门,输出门对输入信息流动个进行控制,训练过程中的梯度消失或者梯度爆炸。
28. gru门控循环单元是rnn改进模型,在lstm的基础上进行了简化,减少了参数量提升了训练速度。包含两个门控单元:更新门和重置门。通过对当前时刻的输入是否参与当前时刻状态的计算,可以自适应的选择信息保留或者遗忘,提ago了模型的泛化能力。
注意力机制
29. 注意力机制:是受到人类注意力的启发,在大量输入信息的情况下,人脑会自动选择某一部分数据进行重点处理而忽视其他数据。主要分分为两个步骤:计算注意力分布a,根据分布a计算输入信息的加权平均(软性注意力)
30. 硬性注意力:只关注某一个向量。一般有随机采样法,最大向量法。有个缺点是:硬性注意力机制会导致注意力分布与损失函数之间不可导,导致不能使用误差传播倪算法进行训练,所以硬性注意力采用强化学习进行训练参数。
31. 多头注意力,利用多个查询并行的从输入信息中选取多组并且每个注意力关注不同的地方
32. self attention 自注意力机制。是一种用于学习序列特征机制的模型,允许对输入序列任意两个位置进行关联性建模,计算相似度,自动学习输入序列各位置得依赖关系
33. transformer是基于self attention的网络,通过堆叠多个enncoder与decoder完成对sequence的编码和解码,具有较强的秉性行,encoder由多个全联接层与多头自注意力机制构成
ae自编码网络
34. 自编码网络ae,是一种无监督学习,通过把输入的序列编码压缩到隐藏层,再由输出端重建样本。目标是最小化重构误差,基本的ae有三层神经网络。
35. 欠完备自编码器:限制输入的维度,墙纸自编码器捕捉训练数据的最明显特征。编码的维度小于输入的维度
36. 卷积自编码:通过卷积对输入图像进行特征提取,然后用于编码器编码,在解码的过程中采用反卷积,映射回原图像。
37. 稀疏自编码:通过限制编码层的稀疏性提高特征提取能力
38. 降噪自编码:是编码器的一种变种,通过从噪声中学习数据特征实现去噪。输入输出都通过添加噪声,使得网络在学习中可以很好的区分噪声和特征数据,具有从噪声数据中提取更大的特征表示。39. 收缩自编码:加入附加项以约束输入数据与隐含层的相似性,相比于传统ae,可以更好的保持输入数据的局部结构且提高鲁棒性与泛化能力。可以很好的捕捉流型结构。
40.编码器的衡量标准:
- 可以很好的重构输入数据(卷积自编码,欠完备自编码)
- 对与输入数据在一定程度扰动下具有不变性(稀疏,噪声,收缩)
41. 变分自编码:是一种生成模型,可以实现对高维数据降维,实现特征提取。并且生成与原始数据相似的新数据,编码解码阶段类似于基本ae,但是在隐含层加入了学习平均值与方差,使其可以学习到输入数据的潜在分布。
训练过程中最小化重构误差,最小化先验分布与后验分布的kl散度。vae并不关注隐空间具体表现什么,而是利用一个可以训练的先验分布对隐向量进行约束。
42. 生成对抗网络:由生成器与判别器构成,通过对抗实现生成逼真的图像或者模拟音频。生成器用于生成数据并且将生成的数据发送给判别器,判别器对数据进行分类,如果是真实数据就分类为1,生成器生成的假数据标记为0,并且计算相应损失传给生成器进行训练,直到生成器生成的数据不能被判别器正确分类。
更多推荐


所有评论(0)