神经网络基础知识 —— 从一个方程到大模型

用一条线把"线性方程 → 非线性激活 → 神经元 → 正向传播 → 反向传播 → CNN → RNN → LSTM → NLP → 大模型"串起来,为后续 AI 应用铺路。


一、线性方程:y = wx + b —— 一切的起点

核心思想

神经网络最底层的砖块,就是一个初中就学过的直线方程。

公式与解释

y = w x + b y = wx + b y=wx+b

  • x:输入(比如一份简历的"工作年限")
  • w(权重):x 有多重要。工作年限每多 1 年,y 涨多少?w 说了算
  • b(偏置):基础分。就算工作年限是 0,这个人也不是 0 分——b 就是兜底的底分
  • y:输出(比如这个人的"匹配评分")

🗣️ 人话翻译:w 像投票权重,决定哪个因素说了算;b 像基础分,保底用的。

推广到多维

一个人的简历不只有一个特征。假设有 3 个输入:工作年限 x 1 x_1 x1、学历分数 x 2 x_2 x2、项目数量 x 3 x_3 x3

y = w 1 x 1 + w 2 x 2 + w 3 x 3 + b y = w_1 x_1 + w_2 x_2 + w_3 x_3 + b y=w1x1+w2x2+w3x3+b

用矩阵写更简洁:

y = W ⋅ X + b y = \mathbf{W} \cdot \mathbf{X} + b y=WX+b

这就是"加权求和"——把每个特征乘上它的重要性,加起来,再加个底分。

🗣️ 人话翻译:就像评委打分,每个评委手里的权重不同,最后加权平均得出总分。

🔹 场景

简历评分器第一版:给"工作年限 × 0.4 + 学历分数 × 0.3 + 项目数 × 0.3",算出一个粗略匹配分。这就是最朴素的线性模型。


二、非线性激活:Sigmoid 函数 —— 让网络学会"弯弯绕"

承上启下

线性方程再怎么叠加,结果还是线性的——10 个线性层叠在一起,等价于一个线性层。就像你把一堆直线拼起来,总体还是直线,拐不了弯。想学复杂规律,必须引入"非线性弯弯绕"。

Sigmoid 公式

σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1 + e^{-z}} σ(z)=1+ez1

不管输入 z 是多少,输出都被压缩到 0~1 之间。

  • z 特别大(比如 100)→ 输出接近 1
  • z 特别小(比如 -100)→ 输出接近 0
  • z = 0 → 输出 = 0.5

🗣️ 人话翻译:Sigmoid 像一个"软开关"——把任意大小的信号压缩成 0 到 1 之间的概率。就像考官心里有个阈值,不是线性加分,而是到了某个点突然觉得"这人靠谱"。

Sigmoid 的问题:梯度消失

Sigmoid 在两端(接近 0 或 1 时)几乎是平的,导数接近 0。这意味着"信号传着传着就没了"——后面会讲的反向传播,梯度在这就断了。

其他激活函数速览

激活函数 公式 特点
ReLU f ( z ) = max ⁡ ( 0 , z ) f(z) = \max(0, z) f(z)=max(0,z) 简单粗暴,正的直接过,负的归零。现在最常用
Tanh f ( z ) = e z − e − z e z + e − z f(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}} f(z)=ez+ezezez 输出 -1 到 1,零均值,但两端同样梯度消失

🗣️ 人话翻译:ReLU 就像"只有正电压才通电",简单粗暴但效果出奇地好,现在 90% 的网络用它。

🔹 场景

简历匹配最终要回答"匹配/不匹配"——需要输出一个概率(0.85 = 85% 匹配),Sigmoid 正好把评分压成概率。


三、神经元:把数学变成大脑细胞

承上启下

线性方程给了"加权求和",激活函数给了"非线性弯弯绕"。把这两个拼起来,就得到了一个"人工神经元"——神经网络的基本单元。

从生物神经元说起

  • 树突(接收信号):对应输入 x₁, x₂, x₃
  • 细胞体(处理信号):对应加权求和 z = W·X + b
  • 轴突(输出信号):对应激活后的输出 a = σ(z)

🗣️ 人话翻译:生物神经元就是"收到一堆信号 → 汇总判断 → 决定发不发电"。人工神经元完全照搬了这个逻辑。

人工神经元的完整计算

输入:x₁, x₂, x₃
  ↓   ↓   ↓  (每个输入乘以权重)
 w₁  w₂  w₃
  ↓   ↓   ↓
  加权求和:z = w₁x₁ + w₂x₂ + w₃x₃ + b
  ↓
  激活函数:a = σ(z)  (或 ReLU、Tanh)
  ↓
  输出:a

一步到位:

a = σ ( w 1 x 1 + w 2 x 2 + w 3 x 3 + b ) a = \sigma(w_1 x_1 + w_2 x_2 + w_3 x_3 + b) a=σ(w1x1+w2x2+w3x3+b)

从一个到一层

把多个神经元并排放,共享同一组输入,就得到一层:

x₁, x₂, x₃ → [神经元1] → a₁
             → [神经元2] → a₂
             → [神经元3] → a₃

每一层的输出 a₁, a₂, a₃,就是下一层的输入。

从一层到多层

输入层(3个特征) → 隐藏层1(4个神经元) → 隐藏层2(3个神经元) → 输出层(1个神经元)

层数越多,能学到的规律越复杂。

🗣️ 人话翻译:一个神经元像一个"单题评分器",一层神经元像"一组评委各评各的",多层叠加就像"初筛→复评→终审"层层递进。

🔹 场景

单个神经元 = 最简简历评分器(只能看线性关系);多层网络 = 能学到"3 年经验 + 本科学历 = 优秀,但 3 年经验 + 专科学历 = 一般"这种非线性组合规律。


四、正向传播与 Loss —— 网络怎么算出结果,怎么知道对不对

承上启下

有了神经元和网络结构,数据从输入一层层往前算到输出,这就是"正向传播"。但算出来的结果对不对?需要一个"裁判"来打分——这就是 Loss。

正向传播流程

输入 X → 第1层计算 → 第2层计算 → ... → 输出 ŷ

每一层做的事都一样: a ( l ) = σ ( W ( l ) ⋅ a ( l − 1 ) + b ( l ) ) a^{(l)} = \sigma(W^{(l)} \cdot a^{(l-1)} + b^{(l)}) a(l)=σ(W(l)a(l1)+b(l))

🗣️ 人话翻译:就像流水线,原材料(输入)经过一道道工序(每层神经元),最后出成品(预测结果)。

Loss 函数:裁判怎么打分

回归任务(预测连续值,比如匹配分数)——均方误差 MSE:

L = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 L = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 L=n1i=1n(yiy^i)2

🗣️ 人话翻译:预测值和真实值差多少,平方后取平均。差得越多,Loss 越大,"扣分"越狠。

分类任务(预测类别,比如匹配/不匹配)——交叉熵 Cross-Entropy:

L = − ∑ i = 1 n y i log ⁡ ( y ^ i ) L = -\sum_{i=1}^{n} y_i \log(\hat{y}_i) L=i=1nyilog(y^i)

🗣️ 人话翻译:如果真实标签是"匹配"(y=1),你预测概率 ŷ=0.1,那 -log(0.1)=2.3,扣大分;如果 ŷ=0.9,那 -log(0.9)=0.1,几乎不扣分。预测越离谱,惩罚越重。

🔹 场景

拿 1000 条已标注的"简历-岗位"匹配数据,让网络预测匹配概率,用交叉熵衡量预测有多离谱——Loss 越低,模型越靠谱。


五、反向传播:求偏导 —— 网络怎么学会改错

承上启下

正向传播算出了预测,Loss 告诉我们差多远。但"差多远"不能只怪最终输出——每个参数 w、b 都有责任。反向传播就是"追责":算出每个参数该背多少锅,然后调整它。

核心思想

Loss 是关于 w 和 b 的函数。想让 Loss 变小,就沿着梯度的反方向走一步:

w ← w − η ⋅ ∂ L ∂ w w \leftarrow w - \eta \cdot \frac{\partial L}{\partial w} wwηwL

  • η \eta η 是学习率(步长):走多大步
  • ∂ L ∂ w \frac{\partial L}{\partial w} wL 是梯度:方向(哪个方向能让 Loss 下降)

🗣️ 人话翻译:想象你蒙着眼站在山上,想下山。脚尖试一试各个方向,哪个方向最陡就往那走一步——梯度就是这个"最陡方向",学习率就是"步子大小"。

手推链式法则(2 层网络)

设一个简单网络:

z 1 = w 1 x + b 1 ( 第1层线性 ) z_1 = w_1 x + b_1 \quad (\text{第1层线性}) z1=w1x+b1(1层线性)
a 1 = σ ( z 1 ) ( 第1层激活 ) a_1 = \sigma(z_1) \quad (\text{第1层激活}) a1=σ(z1)(1层激活)
z 2 = w 2 a 1 + b 2 ( 第2层线性 ) z_2 = w_2 a_1 + b_2 \quad (\text{第2层线性}) z2=w2a1+b2(2层线性)
y ^ = σ ( z 2 ) ( 第2层激活,即最终输出 ) \hat{y} = \sigma(z_2) \quad (\text{第2层激活,即最终输出}) y^=σ(z2)(2层激活,即最终输出)
L = 1 2 ( y − y ^ ) 2 ( Loss ) L = \frac{1}{2}(y - \hat{y})^2 \quad (\text{Loss}) L=21(yy^)2(Loss)

∂ L ∂ w 2 \frac{\partial L}{\partial w_2} w2L(第 2 层权重):

∂ L ∂ w 2 = ∂ L ∂ y ^ ⋅ ∂ y ^ ∂ z 2 ⋅ ∂ z 2 ∂ w 2 \frac{\partial L}{\partial w_2} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial w_2} w2L=y^Lz2y^w2z2

一步一步算:

  • ∂ L ∂ y ^ = − ( y − y ^ ) \frac{\partial L}{\partial \hat{y}} = -(y - \hat{y}) y^L=(yy^) (Loss 对输出的导数)
  • ∂ y ^ ∂ z 2 = σ ′ ( z 2 ) \frac{\partial \hat{y}}{\partial z_2} = \sigma'(z_2) z2y^=σ(z2) (Sigmoid 的导数)
  • ∂ z 2 ∂ w 2 = a 1 \frac{\partial z_2}{\partial w_2} = a_1 w2z2=a1 z 2 = w 2 a 1 + b 2 z_2 = w_2 a_1 + b_2 z2=w2a1+b2 w 2 w_2 w2 求导)

合起来:

∂ L ∂ w 2 = − ( y − y ^ ) ⋅ σ ′ ( z 2 ) ⋅ a 1 \frac{\partial L}{\partial w_2} = -(y - \hat{y}) \cdot \sigma'(z_2) \cdot a_1 w2L=(yy^)σ(z2)a1

∂ L ∂ w 1 \frac{\partial L}{\partial w_1} w1L(第 1 层权重)——梯度往回传:

∂ L ∂ w 1 = ∂ L ∂ y ^ ⋅ ∂ y ^ ∂ z 2 ⋅ ∂ z 2 ∂ a 1 ⋅ ∂ a 1 ∂ z 1 ⋅ ∂ z 1 ∂ w 1 \frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial a_1} \cdot \frac{\partial a_1}{\partial z_1} \cdot \frac{\partial z_1}{\partial w_1} w1L=y^Lz2y^a1z2z1a1w1z1

= − ( y − y ^ ) ⋅ σ ′ ( z 2 ) ⋅ w 2 ⋅ σ ′ ( z 1 ) ⋅ x = -(y - \hat{y}) \cdot \sigma'(z_2) \cdot w_2 \cdot \sigma'(z_1) \cdot x =(yy^)σ(z2)w2σ(z1)x

🗣️ 人话翻译:误差信号像传话一样从后往前传——“输出层说:我差了这么多,你上一层传给我的信号要背 w₂ 的锅”,逐层追责。

梯度下降更新

算出梯度后,更新参数:

w 1 ← w 1 − η ⋅ ∂ L ∂ w 1 w_1 \leftarrow w_1 - \eta \cdot \frac{\partial L}{\partial w_1} w1w1ηw1L
w 2 ← w 2 − η ⋅ ∂ L ∂ w 2 w_2 \leftarrow w_2 - \eta \cdot \frac{\partial L}{\partial w_2} w2w2ηw2L

学习率 η \eta η 太大 → 跳过最低点(发散);太小 → 走得巨慢。一般从 0.01 或 0.001 开始试。

🔹 场景

我们有标注好的"简历-岗位"匹配数据,每次拿一批数据算正向传播→算 Loss→反向传播→更新参数,循环几千轮,模型就越来越准。这就是"训练"的本质。


六、CNN(卷积神经网络)—— 网络长了"眼睛"

承上启下

前面的网络都是"全连接"——每个输入和每个神经元都相连。处理图片时,一张 100×100 的图就有 10000 个像素点,全连接参数量爆炸。CNN 的思路是:不用每个像素都看全局,用一个小窗口在图上滑动,提取局部特征。

卷积操作直觉

想象你拿一个 3×3 的放大镜,在图片上从左到右、从上到下滑动:

  • 每到一个位置,放大镜覆盖的 9 个像素和放大镜里的"滤镜参数"做加权求和
  • 输出一个数值,代表"这个位置有没有某种特征"

这个放大镜就是卷积核(filter/kernel)

🗣️ 人话翻译:卷积就像"拿着模板去图片上找图案"——一个卷积核专门找横线,另一个找竖线,再来一个找圆弧。

关键概念

概念 含义 人话
卷积核 3×3 或 5×5 的小权重矩阵 放大镜/模板
步长(stride) 每次滑动几格 扫描速度
填充(padding) 边缘补零 保证边缘也能被扫到
池化(pooling) 取区域最大值或平均值 压缩,只保留最明显的特征

典型 CNN 结构

输入图片 → [卷积+ReLU] → [池化] → [卷积+ReLU] → [池化] → 展平 → 全连接 → 输出

前半段(卷积+池化)负责"提取特征",后半段(全连接)负责"做判断"。

🔹 场景

  • 简历/证书照片的 OCR 识别:CNN 提取文字区域的视觉特征,再送入后续识别模块
  • 头像质量检测、证件照合规检查

七、RNN(循环神经网络)—— 网络有了"记忆"

承上启下

CNN 处理图片很在行,但图片是"一次性"的数据。很多数据有时序关系——比如用户在 APP 上的行为序列:搜索→浏览→收藏→投递。后面的行为和前面的行为有关联。RNN 就是给网络加了个"记忆槽"。

RNN 结构

h t = f ( W ⋅ x t + U ⋅ h t − 1 + b ) h_t = f(W \cdot x_t + U \cdot h_{t-1} + b) ht=f(Wxt+Uht1+b)

  • x t x_t xt:当前时刻的输入
  • h t − 1 h_{t-1} ht1:上一时刻的记忆(隐藏状态)
  • h t h_t ht:当前时刻的输出(也是传给下一时刻的记忆)

🗣️ 人话翻译:RNN 像一个"边读边记"的人——每读一个词,结合刚才记的内容,更新记忆,再往下读。记忆在时间轴上传递。

长期依赖问题

RNN 的记忆是"短期的"。如果序列很长(比如一段 500 字的岗位描述),开头的信息传到末尾时,经过反复乘法运算,信号几乎衰减没了——和 Sigmoid 的梯度消失同理。

🗣️ 人话翻译:就像让你复述一篇 5000 字的文章,读到结尾时早忘了开头说了啥。

🔹 场景

用户行为序列建模:浏览了哪些岗位→投了哪些→最终接受了哪个。RNN 可以捕捉"先浏览 A 类,后转向 B 类"的行为模式,辅助推荐。


八、LSTM(长短期记忆网络)—— 给记忆装上"闸门"

承上启下

RNN 的记忆太短,LSTM 给它装了三道"闸门",精确控制什么该记、什么该忘、什么该输出。

三道门

1. 遗忘门(Forget Gate)——该忘什么

f t = σ ( W f ⋅ [ h t − 1 , x t ] + b f ) f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) ft=σ(Wf[ht1,xt]+bf)

输出 0~1 之间的值:0 = 全忘,1 = 全记。

🗣️ 人话翻译:“上一轮记得的’用户之前搜 Java’,现在他改搜 Python 了——Java 那条可以忘了。”

2. 输入门(Input Gate)——该记什么新的

i t = σ ( W i ⋅ [ h t − 1 , x t ] + b i ) i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) it=σ(Wi[ht1,xt]+bi)
C ~ t = tanh ⁡ ( W C ⋅ [ h t − 1 , x t ] + b C ) \tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C) C~t=tanh(WC[ht1,xt]+bC)

i_t 决定"新信息进多少", C ~ t \tilde{C}_t C~t 是"新信息的候选值"。

🗣️ 人话翻译:“新来的’用户搜了 Python’这个信息很重要,记下来。”

3. 细胞状态更新

C t = f t ⊙ C t − 1 + i t ⊙ C ~ t C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t Ct=ftCt1+itC~t

旧记忆 × 遗忘门 + 新信息 × 输入门 = 当前记忆。

🗣️ 人话翻译:细胞状态是一条"信息高速公路"——旧信息通过遗忘门过滤,新信息通过输入门加入,全程加法操作,梯度不容易消失。

4. 输出门(Output Gate)——该输出什么

o t = σ ( W o ⋅ [ h t − 1 , x t ] + b o ) o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) ot=σ(Wo[ht1,xt]+bo)
h t = o t ⊙ tanh ⁡ ( C t ) h_t = o_t \odot \tanh(C_t) ht=ottanh(Ct)

🗣️ 人话翻译:“记忆里存了很多东西,但此刻只需要输出和’岗位推荐’相关的部分。”

为什么 LSTM 能缓解梯度消失

细胞状态 C t C_t Ct 的更新主要是加法操作( f t ⊙ C t − 1 + i t ⊙ C ~ t f_t \odot C_{t-1} + i_t \odot \tilde{C}_t ftCt1+itC~t),不像 RNN 那样反复乘小于 1 的数,梯度可以传得更远。

🔹 场景

岗位推荐中的长期兴趣追踪:用户上周搜过 Java 岗,这周在看 Python——LSTM 能记住"用户从 Java 转向 Python"的趋势,推荐过渡类岗位。


九、NLP(自然语言处理)—— 让网络"读懂文字"

承上启下

前面的 CNN 看图、RNN/LSTM 处理序列,但都没解决一个根本问题:文字怎么变成数字?NLP 的核心就是让机器理解语言。

词嵌入(Word2Vec)—— 把词变成向量

把每个词映射成一个稠密向量(比如 300 维),使得语义相近的词在向量空间里也相近。

  • "招聘"和"求职"的向量距离很近
  • "苹果"和"手机"的距离比"苹果"和"梨"远(在不同语境下)

🗣️ 人话翻译:词嵌入就是给每个词发一张"身份证"——身份证上的数字编码了词的含义。语义相近的词,身份证号码也相近。

注意力机制(Attention)—— 找到重点

Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V Attention(Q,K,V)=softmax(dk QKT)V

  • Q(Query):我在找什么
  • K(Key):每个位置的关键信息
  • V(Value):每个位置的实际内容

🗣️ 人话翻译:Attention 就像"划重点"——读一段岗位描述时,自动给"5 年经验"“Java”"微服务"这些关键词打高亮,其他词低亮。

Transformer —— 自注意力 + 并行化

Transformer 用"自注意力"(Self-Attention)替代了 RNN 的递归结构:

  • 每个词同时和序列中所有其他词计算注意力(并行!)
  • 不再需要逐步递归,训练速度大幅提升
  • 多头注意力:多组 Q/K/V 同时计算,捕捉不同角度的关系

🗣️ 人话翻译:RNN 是"一个字一个字读",Transformer 是"一眼扫完全文,每个字同时看到所有其他字"。这就是为什么大模型训练能加速的核心原因。

🔹 场景

  • 简历文本理解:用 Transformer 编码简历全文,提取"3 年 Java 经验""熟悉 Spring Boot"等关键语义
  • 岗位描述匹配:简历向量和岗位描述向量做相似度计算,实现语义级匹配(而非关键词匹配)

十、大模型 —— 规模的威力

承上启下

Transformer 架构证明了自注意力的强大。那如果把模型参数从百万级放大到千亿级、训练数据从几 GB 放到几 TB 呢?——这就是大模型时代的答案:量变引起质变。

从 Transformer 到 GPT

  • GPT(Generative Pre-trained Transformer):只用 Transformer 的解码器部分,自回归生成文本
  • 核心思路:预测"下一个词"——给定"今天天气",预测"很";给定"今天天气很",预测"好"
  • 参数规模:GPT-2(15 亿)→ GPT-3(1750 亿)→ GPT-4(万亿级)→ 当前开源模型 7B/13B/70B

🗣️ 人话翻译:大模型就像"读完了整个互联网的人"——它不是在"思考",而是在"根据读过的海量文本,猜下一个最合理的词"。但猜得足够好,就像真的在理解一样。

预训练 + 微调范式

  1. 预训练:在超大规模无标注语料上学习语言规律(耗时、耗钱,大厂干)
  2. 微调:在特定任务的标注数据上调整参数(我们干)

🗣️ 人话翻译:预训练 = 通识教育(学语文、数学、历史);微调 = 岗位培训(学怎么写岗位描述、怎么匹配简历)。

Prompt Engineering 基础

大模型不需要改代码,通过设计好的"提示词"就能引导输出:

  • Zero-shot:不给示例,直接提问
  • Few-shot:给几个示例,再让模型照着做
  • Chain-of-Thought:让模型"一步一步思考",输出推理过程

🗣️ 人话翻译:Prompt 就是"给模型下指令"——指令越清晰,输出越靠谱。就像带新人,说清楚要什么比让他自己悟更高效。

RAG(检索增强生成)

大模型的知识有截止日期,且可能"幻觉"(编造答案)。RAG 的思路:

  1. 用户提问
  2. 从知识库中检索相关文档
  3. 把文档塞进 Prompt,让大模型基于真实资料回答

回答 = LLM ( Prompt + 检索到的文档 + 用户问题 ) \text{回答} = \text{LLM}(\text{Prompt} + \text{检索到的文档} + \text{用户问题}) 回答=LLM(Prompt+检索到的文档+用户问题)

🗣️ 人话翻译:大模型是"博学但可能瞎说"的人,RAG 是给他"开卷考试"——先从书架上找到相关章节,再让他照着书回答,减少胡编。

🔹 场景

  • AI 面试助手:用大模型根据岗位 JD 自动生成面试题,结合候选人简历定制追问
  • 智能问答:用户问"沈阳有哪些 Java 岗位?",RAG 从岗位库检索真实信息,大模型组织自然语言回答
  • 岗位匹配大模型:微调开源大模型,理解简历和岗位的语义匹配关系

全景回顾:从 y=wx+b 到大模型

y = wx + b           最朴素的线性关系
    ↓
  激活函数            引入非线性,让网络能"拐弯"
    ↓
  神经元              线性 + 激活 = 最小计算单元
    ↓
  正向传播 + Loss     数据流过网络,衡量结果好不好
    ↓
  反向传播            追责+调参,让网络学会改错
    ↓
  CNN                网络长了"眼睛",能看图
    ↓
  RNN                网络有了"记忆",能读序列
    ↓
  LSTM               记忆装上"闸门",不再健忘
    ↓
  NLP / Transformer   网络能"读懂文字",且并行高效
    ↓
  大模型              规模的威力:量变引起质变

一句话总结:神经网络的所有进步,本质上都在做两件事——更好地表示数据(从线性到非线性,从像素到语义)和更好地优化参数(从梯度下降到反向传播,从预训练到微调)。


附录:关键术语速查表

术语 一句话解释
权重 w 每个输入的重要性
偏置 b 基础分/兜底值
激活函数 决定神经元"发不发电"
正向传播 数据从输入流到输出
Loss 预测和真实值的差距
反向传播 从 Loss 反向追责,算每个参数的梯度
梯度下降 沿梯度反方向更新参数
学习率 每次参数更新的步长
卷积核 在图片上滑动的"特征模板"
池化 压缩特征图,只保留最重要的
隐藏状态 RNN 的"记忆"
LSTM 门控 控制记忆的"忘/记/说"
词嵌入 把词变成含义向量
注意力 自动"划重点"
Transformer 用自注意力替代递归,并行高效
预训练 通识教育
微调 岗位培训
Prompt 给大模型的指令
RAG 给大模型"开卷考试"
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐