面向计算机应用的数学
计算机专业学生掌握AI模型数学公式的关键在于"应用导向"学习,重点理解公式含义、作用及代码实现。基础必备三门数学课:1)线性代数(矩阵乘法、维度匹配);2)微积分(导数、梯度下降);3)概率统计(选学)。进阶阶段通过《机器学习数学基础》课程衔接数学与AI模型,最后结合PyTorch/TensorFlow实战课程将数学公式转化为代码实现。学习路线建议:先线性代数(2-3周)→微积
作为计算机专业的学生,要读懂 RNN、CNN 等 AI 模型里的数学公式,核心是学习 「面向计算机应用的数学」 —— 不用像数学专业那样深挖定理证明,重点是理解公式的含义、作用,以及和代码的对应关系。
以下是分层次的课程推荐,从基础必备到进阶衔接再到实战落地,完全贴合计算机专业学生进阶的需求:
一、 基础必备层:3 门核心数学课(决定你能不能看懂公式)
这三门是读懂 RNN 等模型数学公式的最低门槛,所有 AI 模型的底层数学都绕不开它们。
1. 线性代数(重中之重!RNN 里的矩阵乘法全靠它)
-
核心作用:理解 RNN 中
x_t · W_ih这类矩阵乘法、权重矩阵的维度匹配、向量空间映射等核心操作。比如你代码里的(3,10) × (10,20) = (3,20),本质就是线性代数的矩阵乘法规则;W_ih其实就是一个线性变换矩阵。 -
推荐课程(优先选工程向,不选数学系纯理论)
-
网课:MIT 18.06《线性代数》(Gilbert Strang 教授,B 站有中文字幕)
-
优势:面向应用,大量结合计算机、物理的例子,不讲晦涩证明,重点讲 “矩阵到底用来干什么”。
-
-
国内网课:中国大学 MOOC 北京理工大学《线性代数(工程类)》
-
优势:语速适中,贴合国内计算机专业的学习节奏,配套习题简单易懂。
-
-
-
推荐教材:《线性代数及其应用》(David C. Lay 著)
-
特点:几乎没有纯数学证明,全是应用案例,比如矩阵在计算机图形学、机器学习中的作用。
-
2. 微积分(一元 + 多元)
-
核心作用:理解激活函数(如 tanh)的导数、反向传播中的梯度下降(参数更新的数学原理)。比如 RNN 训练时,权重
W_ih的更新公式W = W - lr · ∂Loss/∂W,里面的∂Loss/∂W就是偏导数,属于多元微积分的内容。 -
推荐课程
-
网课:Coursera 《Calculus for Machine Learning》(专项课程)
-
优势:专为机器学习设计,跳过复杂的理论推导,直接讲 “微积分在 AI 里怎么用”。
-
-
国内网课:中国大学 MOOC 同济大学《高等数学》(上册 + 下册)
-
优势:计算机专业的标配教材,知识点覆盖全面,适合打基础。
-
-
-
关键知识点:只需要掌握 导数 / 偏导数、链式法则、梯度的定义 这三个核心内容,足够应对大部分 AI 模型。
3. 概率与数理统计(选学,但后续进阶必用)
-
核心作用:理解深度学习的损失函数(如交叉熵损失)、正则化、概率模型(如贝叶斯、GAN)。比如你以后学 LSTM、Transformer,会遇到 “注意力分数的概率分布”,这就需要概率统计的知识。
-
推荐课程:中国大学 MOOC 浙江大学《概率论与数理统计》
-
优势:国内经典教材,讲解通俗易懂,重点掌握 概率分布、期望、方差 即可。
-
二、 进阶衔接层:1 门 “数学 + AI” 的桥梁课
学完基础数学后,需要一门课把数学知识和 AI 模型直接关联,这门课是关键。
《机器学习数学基础》
-
核心作用:把线性代数、微积分的知识,和机器学习 / 深度学习的公式一一对应,比如:
-
线性代数 → 模型的参数矩阵、特征映射
-
微积分 → 梯度下降、反向传播
-
概率统计 → 损失函数、模型评估
-
-
推荐课程
-
网课:B 站 李宏毅《机器学习》配套的数学补充课
-
优势:李宏毅的课以 “通俗易懂” 著称,数学部分会结合代码讲,比如 “梯度下降怎么用 Python 实现”。
-
-
专项课程:Coursera 《Mathematics for Machine Learning》(伦敦大学学院)
-
优势:系统全面,从数学原理到模型应用,一步到位,适合想深入理解的同学。
-
-
三、 实战落地层:1 门 “数学 + 代码” 的实践课
最后,需要把数学公式和代码绑定,避免 “懂公式但不会写代码” 的尴尬。
《深度学习框架实践》(PyTorch/TensorFlow 方向)
-
核心作用:通过实战理解数学公式的代码实现,比如:
-
线性变换
x·W + b→ PyTorch 中的torch.matmul(x, W) + b -
梯度下降 → PyTorch 中的
optimizer.step()底层原理
-
-
推荐课程
-
网课:B 站 黑马程序员《PyTorch 从入门到精通》
-
优势:手把手教你实现 RNN、CNN,每一步代码都会对应数学公式讲解。
-
-
进阶网课:Coursera 《Deep Learning Specialization》(Andrew Ng 著)
-
优势:吴恩达的课会把复杂的数学公式 “翻译” 成直观的逻辑,比如 “为什么 RNN 需要隐藏状态”。
-
-
四、 学习路线建议(按顺序来,避免走弯路)
-
先学 线性代数(2-3 周):重点掌握矩阵乘法、向量运算、维度匹配规则 —— 这是你当前读懂 RNN 代码的核心。
-
再学 微积分核心知识点(1-2 周):只学导数、偏导数、链式法则,不用学复杂的积分计算。
-
同步看 《机器学习数学基础》:把线性代数、微积分和 RNN 公式对应起来。
-
结合 PyTorch 实战课:边学边写代码,比如自己实现一个简单的 RNN,观察权重矩阵的变化。
五、RNN 核心公式对应数学知识点清单
这份清单完全贴合你计算机专业的学习需求,只聚焦公式的「含义 + 代码对应 + 必备知识点」,不涉及复杂数学证明,同时关联你之前的 RNN 代码实例。
一、 核心前向计算公式(推理阶段)
基础 RNN 的核心公式是你代码的核心逻辑:ht=tanh(xt⋅Wih+bih+ht−1⋅Whh+bhh)
|
公式片段 |
对应数学知识点 |
代码中的体现 |
学习重点 |
|---|---|---|---|
|
xt |
线性代数 -向量 / 张量 |
|
理解「张量维度的物理意义」:(batch_size, input_size) 对应 “样本数 × 特征维度” |
|
xt⋅Wih |
线性代数 -矩阵乘法线性代数 -维度匹配规则 |
|
1. 矩阵乘法规则:第一个矩阵的列数 = 第二个矩阵的行数2. 乘法的意义:把 10 维输入向量映射到 20 维隐藏层空间 |
|
bih |
线性代数 -线性变换的偏移项 |
|
1. 偏置的作用:打破 “输入为 0 时输出也为 0” 的线性限制2. 广播机制:(20,) 自动匹配 (3,20) 的维度进行相加(PyTorch 内置功能) |
|
xt⋅Wih+bih |
线性代数 -线性变换 |
|
线性变换的通用形式:y=Wx+b,是所有神经网络层的基础 |
|
ht−1⋅Whh |
线性代数 -矩阵乘法线性代数 -循环特征的数学表达 |
|
理解「循环记忆」的数学本质:用隐藏状态的矩阵乘法,传递历史信息 |
|
tanh(⋅) |
微积分 -非线性函数微积分 -函数值域压缩 |
|
1. 非线性的作用:让模型能拟合复杂序列关系(无非线性则退化为线性模型)2. tanh 的特性:输出范围 (-1,1),梯度在 0 附近更稳定 |
|
ht |
线性代数 -张量更新 |
|
隐藏状态的物理意义:当前时间步的输入 + 历史记忆的融合结果 |
二、 参数维度设计的数学依据
代码中所有参数的维度都不是随意设定的,而是由线性代数的维度匹配规则决定,这是你写代码时最容易踩坑的点。
|
参数 |
维度(示例值) |
数学依据 |
代码对应 |
|---|---|---|---|
|
Wih |
(input_size, hidden_size) = (10,20) |
为了满足 xt (3,10) × Wih (10,20) = (3,20) |
|
|
Whh |
(hidden_size, hidden_size) = (20,20) |
为了满足 ht−1 (3,20) × Whh (20,20) = (3,20) |
|
|
bih/bhh |
(hidden_size,) = (20,) |
偏置的维度必须和线性变换的输出维度一致,才能广播相加 |
|
三、 反向传播公式(训练阶段,扩展知识点)
训练 RNN 时需要更新权重,核心公式是梯度下降,这部分依赖微积分知识,是模型 “学习” 的关键:Wih=Wih−η⋅∂Wih∂LWhh=Whh−η⋅∂Whh∂L
|
公式片段 |
对应数学知识点 |
学习重点 |
|---|---|---|
|
L |
概率论 -损失函数(如交叉熵损失) |
损失函数的意义:衡量模型输出和真实标签的差距 |
|
∂Wih∂L |
微积分 -偏导数微积分 -链式法则 |
1. 偏导数的意义:权重 Wih 变化一点点,损失 L 会变化多少2. 链式法则:计算梯度的核心方法(RNN 的梯度计算叫BPTT:时间反向传播) |
|
η |
机器学习 -学习率(超参数) |
学习率的作用:控制权重更新的步长(步太长会震荡,步太短会学的慢) |
四、 学习优先级建议
-
第一优先级:线性代数的矩阵乘法 + 维度匹配 → 直接解决你代码中 “为什么要转置权重”“为什么维度不对会报错” 的问题。
-
第二优先级:微积分的非线性函数 + 偏导数概念 → 理解 “为什么需要 tanh 激活函数”“梯度下降到底在干什么”。
-
第三优先级:概率论的损失函数基础 → 为后续训练 RNN 打基础。
更多推荐



所有评论(0)