深度学习入门(鱼书) 英文关键词
深度学习入门/鱼书(斋藤康毅)十分基础,且讲解详细扎实,时至今日(2025),仍觉得是市面上入门深度学习的最推荐书籍之一。学完之后再去学pytorch等框架,吴恩达,李宏毅,李沐等网课的里的概念与技巧,脑瓜儿不会嗡嗡的了。鉴于本书足够基础(几天即可读完,不做过多深究的那种)。本笔记主要是英文词汇对照,以及一些涉及的基础概念,代码技巧。
0 说明
深度学习入门 作者 斋藤康毅
2016首次出版,2018中文翻译版。
本书十分基础,且讲解详细扎实,时至今日(2025),仍觉得是市面上入门深度学习的最推荐书籍之一。
学完之后再去学pytorch等框架,吴恩达,李宏毅,李沐等网课的里的概念与技巧,脑瓜儿不会嗡嗡的了。
鉴于本书足够基础(几天即可读完,不做过多深究的那种)。本笔记主要是英文词汇对照,以及一些涉及的基础概念,代码技巧。
deep learning from scratch
scratch 从0开始的起点
原书代码下载链接,注意版本升级后,个别代码稍有变化,遇到bug后自己纠错即可
B站up致敬大神的跟读视频链接
1 python入门
slicing 切片
broadcast 广播机制
element-wise 对应元素
plt.lengend() 添加图例
plt.imshow() /plot()绘制,类似前端vue的数据加载(不是显示)
2 感知机
perceptron 感知机
multi-layered perceptron 多层感知机(如异或门)
3 神经网络
activation function 激活函数
非线性的激活函数是神经网络区别感知机的最大特点
sigmoid函数
step_function阶越函数
# python版本升级,这里直接用 dtype=int
def step_function(x):
return np.array(x > 0, dtype=int)
ReLU函数:Rectified Linear Unit
matrix 矩阵
forward propagation 前向传播
backward 后/反向
设置numpy的打印选项,不换行输出
np.set_printoptions(linewidth=np.inf)
accuracy 识别精度
normalization 正规化/归一化,叫Feature Sacling,特征(权重)数据转换到0-1之间。
对应还有
standardization 标准化:转化后在-1到1之间
whitening 白话:使数据的分布形状均匀化
这些操作都属于预处理:pre-processing
batch 批处理
4 神经网络的学习
end-to-end machine learning 深度学习的别称
loss function 损失函数
mean squared error 均方误差,latex写法,点击跳转参考资料:
$$
E = \frac{1}{2}\sum_{k}(y_{k}-t_{k})^2
$$
E = 1 2 ∑ k ( y k − t k ) 2 E = \frac{1}{2}\sum_{k}(y_{k}-t_{k})^2 E=21k∑(yk−tk)2
cross entropy error 交叉熵误差,latex 写法:
$$
E = -\sum_{k}t_{k}*\log y_{k}
$$
E = − ∑ k t k ∗ log ( y k ) E = -\sum_{k}t_{k}*\log (y_{k}) E=−k∑tk∗log(yk)
此处建议log内加一个微小的偏置,防止内部等于0。
numerical differentiation 数值微分
rounding error 舍入误差:省略小数后边精细部分的误差,比如:
np.float32(1e-50)=0.0
saddle point 鞍点
gradient descent method 梯度下降法
gradient ascent method 梯度上升法
stochastic gradient descent 随机梯度下降法 简称SGD
5 误差反向传播法
computational graph 计算图
mullayer 乘法层
addlayer 加法层
dout 导数
inference 推理
Softmax-with-Loss层:Softmax函数和交叉熵误差
gradient check 梯度确认:数值微分计算的梯度和误差反向传播的梯度比较
orderedict python里的有序字典
6 与学习相关技的巧
optimization 最优化。优化器(optimizer)
SGD stochastic gradient descent 随机梯度下降法
学习率
lr learning rate 学习率
anisotropic 非均向,异方向性
Momentum 动量
learning rate decay 学习率衰减
AdaGrad adaptive 适当的
Adam 结合AdaGrad、Momentum特性,不是简单的相加
权重初始值
weight decay 权重衰减
gradient vanishing 梯度消失
加速学习
batch normalization layer 数据分布正规化层
过拟合
Dropout 随机删除神经元方法,属于用来抑制过拟合的权值衰减方法,类似的还有L2范式
超参数
hyper-parameter 超参数
validation data 验证数据,区别于训练集/测试集的测试数据
Bayesian optimaization 贝叶斯最优化
7 卷积神经网络
CNN convolutional neural network 卷积神经网络
convolution layer、pooling layer 卷积层 池化层
fully-connected 全连接:所有神经元有连接
input/output feature map 输入、输出特征图
filter 滤波器
padding 填充
stride 步幅
im2col image to column 从图像到矩阵
subsampling 子采样
8 深度学习
Data Augmentation 数据扩充
recertive field 感受野
fine tuning 再学习
GPU graphics processing unit
half float 半精度浮点数 16位
extract region proposals 候选区域的提取
compute CNN features CNN特征计算
FCN fully convolutional network 全卷积层网络
RNN recurrent neural network 循环神经网络
NIC neural image caption 结合CNN和RNN的一种多模态处理
DCGAC deep convolutional generative adversarial network
generator 生成者
discriminator 识别者
supervised learning 监督学习
supervised learning 无监督学习
path plan 路线规划
reinforcement learning 强化学习
agent 代理
更多推荐
所有评论(0)