神经网络基础知识-分享教材
用一条线把"线性方程 → 非线性激活 → 神经元 → 正向传播 → 反向传播 → CNN → RNN → LSTM → NLP → 大模型"串起来
神经网络基础知识 —— 从一个方程到大模型
用一条线把"线性方程 → 非线性激活 → 神经元 → 正向传播 → 反向传播 → CNN → RNN → LSTM → NLP → 大模型"串起来,为后续 AI 应用铺路。
一、线性方程:y = wx + b —— 一切的起点
核心思想
神经网络最底层的砖块,就是一个初中就学过的直线方程。
公式与解释
y = w x + b y = wx + b y=wx+b
- x:输入(比如一份简历的"工作年限")
- w(权重):x 有多重要。工作年限每多 1 年,y 涨多少?w 说了算
- b(偏置):基础分。就算工作年限是 0,这个人也不是 0 分——b 就是兜底的底分
- y:输出(比如这个人的"匹配评分")
🗣️ 人话翻译:w 像投票权重,决定哪个因素说了算;b 像基础分,保底用的。
推广到多维
一个人的简历不只有一个特征。假设有 3 个输入:工作年限 x 1 x_1 x1、学历分数 x 2 x_2 x2、项目数量 x 3 x_3 x3:
y = w 1 x 1 + w 2 x 2 + w 3 x 3 + b y = w_1 x_1 + w_2 x_2 + w_3 x_3 + b y=w1x1+w2x2+w3x3+b
用矩阵写更简洁:
y = W ⋅ X + b y = \mathbf{W} \cdot \mathbf{X} + b y=W⋅X+b
这就是"加权求和"——把每个特征乘上它的重要性,加起来,再加个底分。
🗣️ 人话翻译:就像评委打分,每个评委手里的权重不同,最后加权平均得出总分。
🔹 场景
简历评分器第一版:给"工作年限 × 0.4 + 学历分数 × 0.3 + 项目数 × 0.3",算出一个粗略匹配分。这就是最朴素的线性模型。
二、非线性激活:Sigmoid 函数 —— 让网络学会"弯弯绕"
承上启下
线性方程再怎么叠加,结果还是线性的——10 个线性层叠在一起,等价于一个线性层。就像你把一堆直线拼起来,总体还是直线,拐不了弯。想学复杂规律,必须引入"非线性弯弯绕"。
Sigmoid 公式
σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1 + e^{-z}} σ(z)=1+e−z1
不管输入 z 是多少,输出都被压缩到 0~1 之间。
- z 特别大(比如 100)→ 输出接近 1
- z 特别小(比如 -100)→ 输出接近 0
- z = 0 → 输出 = 0.5
🗣️ 人话翻译:Sigmoid 像一个"软开关"——把任意大小的信号压缩成 0 到 1 之间的概率。就像考官心里有个阈值,不是线性加分,而是到了某个点突然觉得"这人靠谱"。
Sigmoid 的问题:梯度消失
Sigmoid 在两端(接近 0 或 1 时)几乎是平的,导数接近 0。这意味着"信号传着传着就没了"——后面会讲的反向传播,梯度在这就断了。
其他激活函数速览
| 激活函数 | 公式 | 特点 |
|---|---|---|
| ReLU | f ( z ) = max ( 0 , z ) f(z) = \max(0, z) f(z)=max(0,z) | 简单粗暴,正的直接过,负的归零。现在最常用 |
| Tanh | f ( z ) = e z − e − z e z + e − z f(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}} f(z)=ez+e−zez−e−z | 输出 -1 到 1,零均值,但两端同样梯度消失 |
🗣️ 人话翻译:ReLU 就像"只有正电压才通电",简单粗暴但效果出奇地好,现在 90% 的网络用它。
🔹 场景
简历匹配最终要回答"匹配/不匹配"——需要输出一个概率(0.85 = 85% 匹配),Sigmoid 正好把评分压成概率。
三、神经元:把数学变成大脑细胞
承上启下
线性方程给了"加权求和",激活函数给了"非线性弯弯绕"。把这两个拼起来,就得到了一个"人工神经元"——神经网络的基本单元。
从生物神经元说起
- 树突(接收信号):对应输入 x₁, x₂, x₃
- 细胞体(处理信号):对应加权求和 z = W·X + b
- 轴突(输出信号):对应激活后的输出 a = σ(z)
🗣️ 人话翻译:生物神经元就是"收到一堆信号 → 汇总判断 → 决定发不发电"。人工神经元完全照搬了这个逻辑。
人工神经元的完整计算
输入:x₁, x₂, x₃
↓ ↓ ↓ (每个输入乘以权重)
w₁ w₂ w₃
↓ ↓ ↓
加权求和:z = w₁x₁ + w₂x₂ + w₃x₃ + b
↓
激活函数:a = σ(z) (或 ReLU、Tanh)
↓
输出:a
一步到位:
a = σ ( w 1 x 1 + w 2 x 2 + w 3 x 3 + b ) a = \sigma(w_1 x_1 + w_2 x_2 + w_3 x_3 + b) a=σ(w1x1+w2x2+w3x3+b)
从一个到一层
把多个神经元并排放,共享同一组输入,就得到一层:
x₁, x₂, x₃ → [神经元1] → a₁
→ [神经元2] → a₂
→ [神经元3] → a₃
每一层的输出 a₁, a₂, a₃,就是下一层的输入。
从一层到多层
输入层(3个特征) → 隐藏层1(4个神经元) → 隐藏层2(3个神经元) → 输出层(1个神经元)
层数越多,能学到的规律越复杂。
🗣️ 人话翻译:一个神经元像一个"单题评分器",一层神经元像"一组评委各评各的",多层叠加就像"初筛→复评→终审"层层递进。
🔹 场景
单个神经元 = 最简简历评分器(只能看线性关系);多层网络 = 能学到"3 年经验 + 本科学历 = 优秀,但 3 年经验 + 专科学历 = 一般"这种非线性组合规律。
四、正向传播与 Loss —— 网络怎么算出结果,怎么知道对不对
承上启下
有了神经元和网络结构,数据从输入一层层往前算到输出,这就是"正向传播"。但算出来的结果对不对?需要一个"裁判"来打分——这就是 Loss。
正向传播流程
输入 X → 第1层计算 → 第2层计算 → ... → 输出 ŷ
每一层做的事都一样: a ( l ) = σ ( W ( l ) ⋅ a ( l − 1 ) + b ( l ) ) a^{(l)} = \sigma(W^{(l)} \cdot a^{(l-1)} + b^{(l)}) a(l)=σ(W(l)⋅a(l−1)+b(l))
🗣️ 人话翻译:就像流水线,原材料(输入)经过一道道工序(每层神经元),最后出成品(预测结果)。
Loss 函数:裁判怎么打分
回归任务(预测连续值,比如匹配分数)——均方误差 MSE:
L = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 L = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 L=n1i=1∑n(yi−y^i)2
🗣️ 人话翻译:预测值和真实值差多少,平方后取平均。差得越多,Loss 越大,"扣分"越狠。
分类任务(预测类别,比如匹配/不匹配)——交叉熵 Cross-Entropy:
L = − ∑ i = 1 n y i log ( y ^ i ) L = -\sum_{i=1}^{n} y_i \log(\hat{y}_i) L=−i=1∑nyilog(y^i)
🗣️ 人话翻译:如果真实标签是"匹配"(y=1),你预测概率 ŷ=0.1,那 -log(0.1)=2.3,扣大分;如果 ŷ=0.9,那 -log(0.9)=0.1,几乎不扣分。预测越离谱,惩罚越重。
🔹 场景
拿 1000 条已标注的"简历-岗位"匹配数据,让网络预测匹配概率,用交叉熵衡量预测有多离谱——Loss 越低,模型越靠谱。
五、反向传播:求偏导 —— 网络怎么学会改错
承上启下
正向传播算出了预测,Loss 告诉我们差多远。但"差多远"不能只怪最终输出——每个参数 w、b 都有责任。反向传播就是"追责":算出每个参数该背多少锅,然后调整它。
核心思想
Loss 是关于 w 和 b 的函数。想让 Loss 变小,就沿着梯度的反方向走一步:
w ← w − η ⋅ ∂ L ∂ w w \leftarrow w - \eta \cdot \frac{\partial L}{\partial w} w←w−η⋅∂w∂L
- η \eta η 是学习率(步长):走多大步
- ∂ L ∂ w \frac{\partial L}{\partial w} ∂w∂L 是梯度:方向(哪个方向能让 Loss 下降)
🗣️ 人话翻译:想象你蒙着眼站在山上,想下山。脚尖试一试各个方向,哪个方向最陡就往那走一步——梯度就是这个"最陡方向",学习率就是"步子大小"。
手推链式法则(2 层网络)
设一个简单网络:
z 1 = w 1 x + b 1 ( 第1层线性 ) z_1 = w_1 x + b_1 \quad (\text{第1层线性}) z1=w1x+b1(第1层线性)
a 1 = σ ( z 1 ) ( 第1层激活 ) a_1 = \sigma(z_1) \quad (\text{第1层激活}) a1=σ(z1)(第1层激活)
z 2 = w 2 a 1 + b 2 ( 第2层线性 ) z_2 = w_2 a_1 + b_2 \quad (\text{第2层线性}) z2=w2a1+b2(第2层线性)
y ^ = σ ( z 2 ) ( 第2层激活,即最终输出 ) \hat{y} = \sigma(z_2) \quad (\text{第2层激活,即最终输出}) y^=σ(z2)(第2层激活,即最终输出)
L = 1 2 ( y − y ^ ) 2 ( Loss ) L = \frac{1}{2}(y - \hat{y})^2 \quad (\text{Loss}) L=21(y−y^)2(Loss)
求 ∂ L ∂ w 2 \frac{\partial L}{\partial w_2} ∂w2∂L(第 2 层权重):
∂ L ∂ w 2 = ∂ L ∂ y ^ ⋅ ∂ y ^ ∂ z 2 ⋅ ∂ z 2 ∂ w 2 \frac{\partial L}{\partial w_2} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial w_2} ∂w2∂L=∂y^∂L⋅∂z2∂y^⋅∂w2∂z2
一步一步算:
- ∂ L ∂ y ^ = − ( y − y ^ ) \frac{\partial L}{\partial \hat{y}} = -(y - \hat{y}) ∂y^∂L=−(y−y^) (Loss 对输出的导数)
- ∂ y ^ ∂ z 2 = σ ′ ( z 2 ) \frac{\partial \hat{y}}{\partial z_2} = \sigma'(z_2) ∂z2∂y^=σ′(z2) (Sigmoid 的导数)
- ∂ z 2 ∂ w 2 = a 1 \frac{\partial z_2}{\partial w_2} = a_1 ∂w2∂z2=a1 ( z 2 = w 2 a 1 + b 2 z_2 = w_2 a_1 + b_2 z2=w2a1+b2 对 w 2 w_2 w2 求导)
合起来:
∂ L ∂ w 2 = − ( y − y ^ ) ⋅ σ ′ ( z 2 ) ⋅ a 1 \frac{\partial L}{\partial w_2} = -(y - \hat{y}) \cdot \sigma'(z_2) \cdot a_1 ∂w2∂L=−(y−y^)⋅σ′(z2)⋅a1
求 ∂ L ∂ w 1 \frac{\partial L}{\partial w_1} ∂w1∂L(第 1 层权重)——梯度往回传:
∂ L ∂ w 1 = ∂ L ∂ y ^ ⋅ ∂ y ^ ∂ z 2 ⋅ ∂ z 2 ∂ a 1 ⋅ ∂ a 1 ∂ z 1 ⋅ ∂ z 1 ∂ w 1 \frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial a_1} \cdot \frac{\partial a_1}{\partial z_1} \cdot \frac{\partial z_1}{\partial w_1} ∂w1∂L=∂y^∂L⋅∂z2∂y^⋅∂a1∂z2⋅∂z1∂a1⋅∂w1∂z1
= − ( y − y ^ ) ⋅ σ ′ ( z 2 ) ⋅ w 2 ⋅ σ ′ ( z 1 ) ⋅ x = -(y - \hat{y}) \cdot \sigma'(z_2) \cdot w_2 \cdot \sigma'(z_1) \cdot x =−(y−y^)⋅σ′(z2)⋅w2⋅σ′(z1)⋅x
🗣️ 人话翻译:误差信号像传话一样从后往前传——“输出层说:我差了这么多,你上一层传给我的信号要背 w₂ 的锅”,逐层追责。
梯度下降更新
算出梯度后,更新参数:
w 1 ← w 1 − η ⋅ ∂ L ∂ w 1 w_1 \leftarrow w_1 - \eta \cdot \frac{\partial L}{\partial w_1} w1←w1−η⋅∂w1∂L
w 2 ← w 2 − η ⋅ ∂ L ∂ w 2 w_2 \leftarrow w_2 - \eta \cdot \frac{\partial L}{\partial w_2} w2←w2−η⋅∂w2∂L
学习率 η \eta η 太大 → 跳过最低点(发散);太小 → 走得巨慢。一般从 0.01 或 0.001 开始试。
🔹 场景
我们有标注好的"简历-岗位"匹配数据,每次拿一批数据算正向传播→算 Loss→反向传播→更新参数,循环几千轮,模型就越来越准。这就是"训练"的本质。
六、CNN(卷积神经网络)—— 网络长了"眼睛"
承上启下
前面的网络都是"全连接"——每个输入和每个神经元都相连。处理图片时,一张 100×100 的图就有 10000 个像素点,全连接参数量爆炸。CNN 的思路是:不用每个像素都看全局,用一个小窗口在图上滑动,提取局部特征。
卷积操作直觉
想象你拿一个 3×3 的放大镜,在图片上从左到右、从上到下滑动:
- 每到一个位置,放大镜覆盖的 9 个像素和放大镜里的"滤镜参数"做加权求和
- 输出一个数值,代表"这个位置有没有某种特征"
这个放大镜就是卷积核(filter/kernel)。
🗣️ 人话翻译:卷积就像"拿着模板去图片上找图案"——一个卷积核专门找横线,另一个找竖线,再来一个找圆弧。
关键概念
| 概念 | 含义 | 人话 |
|---|---|---|
| 卷积核 | 3×3 或 5×5 的小权重矩阵 | 放大镜/模板 |
| 步长(stride) | 每次滑动几格 | 扫描速度 |
| 填充(padding) | 边缘补零 | 保证边缘也能被扫到 |
| 池化(pooling) | 取区域最大值或平均值 | 压缩,只保留最明显的特征 |
典型 CNN 结构
输入图片 → [卷积+ReLU] → [池化] → [卷积+ReLU] → [池化] → 展平 → 全连接 → 输出
前半段(卷积+池化)负责"提取特征",后半段(全连接)负责"做判断"。
🔹 场景
- 简历/证书照片的 OCR 识别:CNN 提取文字区域的视觉特征,再送入后续识别模块
- 头像质量检测、证件照合规检查
七、RNN(循环神经网络)—— 网络有了"记忆"
承上启下
CNN 处理图片很在行,但图片是"一次性"的数据。很多数据有时序关系——比如用户在 APP 上的行为序列:搜索→浏览→收藏→投递。后面的行为和前面的行为有关联。RNN 就是给网络加了个"记忆槽"。
RNN 结构
h t = f ( W ⋅ x t + U ⋅ h t − 1 + b ) h_t = f(W \cdot x_t + U \cdot h_{t-1} + b) ht=f(W⋅xt+U⋅ht−1+b)
- x t x_t xt:当前时刻的输入
- h t − 1 h_{t-1} ht−1:上一时刻的记忆(隐藏状态)
- h t h_t ht:当前时刻的输出(也是传给下一时刻的记忆)
🗣️ 人话翻译:RNN 像一个"边读边记"的人——每读一个词,结合刚才记的内容,更新记忆,再往下读。记忆在时间轴上传递。
长期依赖问题
RNN 的记忆是"短期的"。如果序列很长(比如一段 500 字的岗位描述),开头的信息传到末尾时,经过反复乘法运算,信号几乎衰减没了——和 Sigmoid 的梯度消失同理。
🗣️ 人话翻译:就像让你复述一篇 5000 字的文章,读到结尾时早忘了开头说了啥。
🔹 场景
用户行为序列建模:浏览了哪些岗位→投了哪些→最终接受了哪个。RNN 可以捕捉"先浏览 A 类,后转向 B 类"的行为模式,辅助推荐。
八、LSTM(长短期记忆网络)—— 给记忆装上"闸门"
承上启下
RNN 的记忆太短,LSTM 给它装了三道"闸门",精确控制什么该记、什么该忘、什么该输出。
三道门
1. 遗忘门(Forget Gate)——该忘什么
f t = σ ( W f ⋅ [ h t − 1 , x t ] + b f ) f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) ft=σ(Wf⋅[ht−1,xt]+bf)
输出 0~1 之间的值:0 = 全忘,1 = 全记。
🗣️ 人话翻译:“上一轮记得的’用户之前搜 Java’,现在他改搜 Python 了——Java 那条可以忘了。”
2. 输入门(Input Gate)——该记什么新的
i t = σ ( W i ⋅ [ h t − 1 , x t ] + b i ) i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) it=σ(Wi⋅[ht−1,xt]+bi)
C ~ t = tanh ( W C ⋅ [ h t − 1 , x t ] + b C ) \tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C) C~t=tanh(WC⋅[ht−1,xt]+bC)
i_t 决定"新信息进多少", C ~ t \tilde{C}_t C~t 是"新信息的候选值"。
🗣️ 人话翻译:“新来的’用户搜了 Python’这个信息很重要,记下来。”
3. 细胞状态更新
C t = f t ⊙ C t − 1 + i t ⊙ C ~ t C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t Ct=ft⊙Ct−1+it⊙C~t
旧记忆 × 遗忘门 + 新信息 × 输入门 = 当前记忆。
🗣️ 人话翻译:细胞状态是一条"信息高速公路"——旧信息通过遗忘门过滤,新信息通过输入门加入,全程加法操作,梯度不容易消失。
4. 输出门(Output Gate)——该输出什么
o t = σ ( W o ⋅ [ h t − 1 , x t ] + b o ) o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) ot=σ(Wo⋅[ht−1,xt]+bo)
h t = o t ⊙ tanh ( C t ) h_t = o_t \odot \tanh(C_t) ht=ot⊙tanh(Ct)
🗣️ 人话翻译:“记忆里存了很多东西,但此刻只需要输出和’岗位推荐’相关的部分。”
为什么 LSTM 能缓解梯度消失
细胞状态 C t C_t Ct 的更新主要是加法操作( f t ⊙ C t − 1 + i t ⊙ C ~ t f_t \odot C_{t-1} + i_t \odot \tilde{C}_t ft⊙Ct−1+it⊙C~t),不像 RNN 那样反复乘小于 1 的数,梯度可以传得更远。
🔹 场景
岗位推荐中的长期兴趣追踪:用户上周搜过 Java 岗,这周在看 Python——LSTM 能记住"用户从 Java 转向 Python"的趋势,推荐过渡类岗位。
九、NLP(自然语言处理)—— 让网络"读懂文字"
承上启下
前面的 CNN 看图、RNN/LSTM 处理序列,但都没解决一个根本问题:文字怎么变成数字?NLP 的核心就是让机器理解语言。
词嵌入(Word2Vec)—— 把词变成向量
把每个词映射成一个稠密向量(比如 300 维),使得语义相近的词在向量空间里也相近。
- "招聘"和"求职"的向量距离很近
- "苹果"和"手机"的距离比"苹果"和"梨"远(在不同语境下)
🗣️ 人话翻译:词嵌入就是给每个词发一张"身份证"——身份证上的数字编码了词的含义。语义相近的词,身份证号码也相近。
注意力机制(Attention)—— 找到重点
Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V Attention(Q,K,V)=softmax(dkQKT)V
- Q(Query):我在找什么
- K(Key):每个位置的关键信息
- V(Value):每个位置的实际内容
🗣️ 人话翻译:Attention 就像"划重点"——读一段岗位描述时,自动给"5 年经验"“Java”"微服务"这些关键词打高亮,其他词低亮。
Transformer —— 自注意力 + 并行化
Transformer 用"自注意力"(Self-Attention)替代了 RNN 的递归结构:
- 每个词同时和序列中所有其他词计算注意力(并行!)
- 不再需要逐步递归,训练速度大幅提升
- 多头注意力:多组 Q/K/V 同时计算,捕捉不同角度的关系
🗣️ 人话翻译:RNN 是"一个字一个字读",Transformer 是"一眼扫完全文,每个字同时看到所有其他字"。这就是为什么大模型训练能加速的核心原因。
🔹 场景
- 简历文本理解:用 Transformer 编码简历全文,提取"3 年 Java 经验""熟悉 Spring Boot"等关键语义
- 岗位描述匹配:简历向量和岗位描述向量做相似度计算,实现语义级匹配(而非关键词匹配)
十、大模型 —— 规模的威力
承上启下
Transformer 架构证明了自注意力的强大。那如果把模型参数从百万级放大到千亿级、训练数据从几 GB 放到几 TB 呢?——这就是大模型时代的答案:量变引起质变。
从 Transformer 到 GPT
- GPT(Generative Pre-trained Transformer):只用 Transformer 的解码器部分,自回归生成文本
- 核心思路:预测"下一个词"——给定"今天天气",预测"很";给定"今天天气很",预测"好"
- 参数规模:GPT-2(15 亿)→ GPT-3(1750 亿)→ GPT-4(万亿级)→ 当前开源模型 7B/13B/70B
🗣️ 人话翻译:大模型就像"读完了整个互联网的人"——它不是在"思考",而是在"根据读过的海量文本,猜下一个最合理的词"。但猜得足够好,就像真的在理解一样。
预训练 + 微调范式
- 预训练:在超大规模无标注语料上学习语言规律(耗时、耗钱,大厂干)
- 微调:在特定任务的标注数据上调整参数(我们干)
🗣️ 人话翻译:预训练 = 通识教育(学语文、数学、历史);微调 = 岗位培训(学怎么写岗位描述、怎么匹配简历)。
Prompt Engineering 基础
大模型不需要改代码,通过设计好的"提示词"就能引导输出:
- Zero-shot:不给示例,直接提问
- Few-shot:给几个示例,再让模型照着做
- Chain-of-Thought:让模型"一步一步思考",输出推理过程
🗣️ 人话翻译:Prompt 就是"给模型下指令"——指令越清晰,输出越靠谱。就像带新人,说清楚要什么比让他自己悟更高效。
RAG(检索增强生成)
大模型的知识有截止日期,且可能"幻觉"(编造答案)。RAG 的思路:
- 用户提问
- 从知识库中检索相关文档
- 把文档塞进 Prompt,让大模型基于真实资料回答
回答 = LLM ( Prompt + 检索到的文档 + 用户问题 ) \text{回答} = \text{LLM}(\text{Prompt} + \text{检索到的文档} + \text{用户问题}) 回答=LLM(Prompt+检索到的文档+用户问题)
🗣️ 人话翻译:大模型是"博学但可能瞎说"的人,RAG 是给他"开卷考试"——先从书架上找到相关章节,再让他照着书回答,减少胡编。
🔹 场景
- AI 面试助手:用大模型根据岗位 JD 自动生成面试题,结合候选人简历定制追问
- 智能问答:用户问"沈阳有哪些 Java 岗位?",RAG 从岗位库检索真实信息,大模型组织自然语言回答
- 岗位匹配大模型:微调开源大模型,理解简历和岗位的语义匹配关系
全景回顾:从 y=wx+b 到大模型
y = wx + b 最朴素的线性关系
↓
激活函数 引入非线性,让网络能"拐弯"
↓
神经元 线性 + 激活 = 最小计算单元
↓
正向传播 + Loss 数据流过网络,衡量结果好不好
↓
反向传播 追责+调参,让网络学会改错
↓
CNN 网络长了"眼睛",能看图
↓
RNN 网络有了"记忆",能读序列
↓
LSTM 记忆装上"闸门",不再健忘
↓
NLP / Transformer 网络能"读懂文字",且并行高效
↓
大模型 规模的威力:量变引起质变
一句话总结:神经网络的所有进步,本质上都在做两件事——更好地表示数据(从线性到非线性,从像素到语义)和更好地优化参数(从梯度下降到反向传播,从预训练到微调)。
附录:关键术语速查表
| 术语 | 一句话解释 |
|---|---|
| 权重 w | 每个输入的重要性 |
| 偏置 b | 基础分/兜底值 |
| 激活函数 | 决定神经元"发不发电" |
| 正向传播 | 数据从输入流到输出 |
| Loss | 预测和真实值的差距 |
| 反向传播 | 从 Loss 反向追责,算每个参数的梯度 |
| 梯度下降 | 沿梯度反方向更新参数 |
| 学习率 | 每次参数更新的步长 |
| 卷积核 | 在图片上滑动的"特征模板" |
| 池化 | 压缩特征图,只保留最重要的 |
| 隐藏状态 | RNN 的"记忆" |
| LSTM 门控 | 控制记忆的"忘/记/说" |
| 词嵌入 | 把词变成含义向量 |
| 注意力 | 自动"划重点" |
| Transformer | 用自注意力替代递归,并行高效 |
| 预训练 | 通识教育 |
| 微调 | 岗位培训 |
| Prompt | 给大模型的指令 |
| RAG | 给大模型"开卷考试" |
更多推荐


所有评论(0)