神经网络基础知识-分享教材

用一条线把"线性方程 → 非线性激活 → 神经元 → 正向传播 → 反向传播 → CNN → RNN → LSTM → NLP → 大模型"串起来

子龙_w

196人浏览 · 2026-06-03 14:10:22

子龙_w · 2026-06-03 14:10:22 发布

神经网络基础知识 —— 从一个方程到大模型

用一条线把"线性方程 → 非线性激活 → 神经元 → 正向传播 → 反向传播 → CNN → RNN → LSTM → NLP → 大模型"串起来，为后续 AI 应用铺路。

一、线性方程：y = wx + b —— 一切的起点

核心思想

神经网络最底层的砖块，就是一个初中就学过的直线方程。

公式与解释

$y = w x + b$

x：输入（比如一份简历的"工作年限"）
w（权重）：x 有多重要。工作年限每多 1 年，y 涨多少？w 说了算
b（偏置）：基础分。就算工作年限是 0，这个人也不是 0 分——b 就是兜底的底分
y：输出（比如这个人的"匹配评分"）

🗣️ 人话翻译：w 像投票权重，决定哪个因素说了算；b 像基础分，保底用的。

推广到多维

一个人的简历不只有一个特征。假设有 3 个输入：工作年限 $x_1$ 、学历分数 $x_2$ 、项目数量 $x_3$ ：

$y = w_1 x_1 + w_2 x_2 + w_3 x_3 + b$

用矩阵写更简洁：

$\mathbf{W} \cdot \mathbf{X} + b$

这就是"加权求和"——把每个特征乘上它的重要性，加起来，再加个底分。

🗣️ 人话翻译：就像评委打分，每个评委手里的权重不同，最后加权平均得出总分。

🔹 场景

简历评分器第一版：给"工作年限 × 0.4 + 学历分数 × 0.3 + 项目数 × 0.3"，算出一个粗略匹配分。这就是最朴素的线性模型。

二、非线性激活：Sigmoid 函数 —— 让网络学会"弯弯绕"

承上启下

线性方程再怎么叠加，结果还是线性的——10 个线性层叠在一起，等价于一个线性层。就像你把一堆直线拼起来，总体还是直线，拐不了弯。想学复杂规律，必须引入"非线性弯弯绕"。

Sigmoid 公式

$\sigma(z) = \frac{1}{1 + e^{-z}}$

不管输入 z 是多少，输出都被压缩到 0~1 之间。

z 特别大（比如 100）→ 输出接近 1
z 特别小（比如 -100）→ 输出接近 0
z = 0 → 输出 = 0.5

🗣️ 人话翻译：Sigmoid 像一个"软开关"——把任意大小的信号压缩成 0 到 1 之间的概率。就像考官心里有个阈值，不是线性加分，而是到了某个点突然觉得"这人靠谱"。

Sigmoid 的问题：梯度消失

Sigmoid 在两端（接近 0 或 1 时）几乎是平的，导数接近 0。这意味着"信号传着传着就没了"——后面会讲的反向传播，梯度在这就断了。

其他激活函数速览

激活函数	公式	特点
ReLU	$\max(0, z)$	简单粗暴，正的直接过，负的归零。现在最常用
Tanh	$\frac{e^z - e^{-z}}{e^z + e^{-z}}$	输出 -1 到 1，零均值，但两端同样梯度消失

🗣️ 人话翻译：ReLU 就像"只有正电压才通电"，简单粗暴但效果出奇地好，现在 90% 的网络用它。

🔹 场景

简历匹配最终要回答"匹配/不匹配"——需要输出一个概率（0.85 = 85% 匹配），Sigmoid 正好把评分压成概率。

三、神经元：把数学变成大脑细胞

承上启下

线性方程给了"加权求和"，激活函数给了"非线性弯弯绕"。把这两个拼起来，就得到了一个"人工神经元"——神经网络的基本单元。

从生物神经元说起

树突（接收信号）：对应输入 x₁, x₂, x₃
细胞体（处理信号）：对应加权求和 z = W·X + b
轴突（输出信号）：对应激活后的输出 a = σ(z)

🗣️ 人话翻译：生物神经元就是"收到一堆信号 → 汇总判断 → 决定发不发电"。人工神经元完全照搬了这个逻辑。

人工神经元的完整计算

输入：x₁, x₂, x₃
  ↓   ↓   ↓  （每个输入乘以权重）
 w₁  w₂  w₃
  ↓   ↓   ↓
  加权求和：z = w₁x₁ + w₂x₂ + w₃x₃ + b
  ↓
  激活函数：a = σ(z)  （或 ReLU、Tanh）
  ↓
  输出：a

一步到位：

$\sigma(w_1 x_1 + w_2 x_2 + w_3 x_3 + b)$

从一个到一层

把多个神经元并排放，共享同一组输入，就得到一层：

x₁, x₂, x₃ → [神经元1] → a₁
             → [神经元2] → a₂
             → [神经元3] → a₃

每一层的输出 a₁, a₂, a₃，就是下一层的输入。

从一层到多层

输入层(3个特征) → 隐藏层1(4个神经元) → 隐藏层2(3个神经元) → 输出层(1个神经元)

层数越多，能学到的规律越复杂。

🗣️ 人话翻译：一个神经元像一个"单题评分器"，一层神经元像"一组评委各评各的"，多层叠加就像"初筛→复评→终审"层层递进。

🔹 场景

单个神经元 = 最简简历评分器（只能看线性关系）；多层网络 = 能学到"3 年经验 + 本科学历 = 优秀，但 3 年经验 + 专科学历 = 一般"这种非线性组合规律。

四、正向传播与 Loss —— 网络怎么算出结果，怎么知道对不对

承上启下

有了神经元和网络结构，数据从输入一层层往前算到输出，这就是"正向传播"。但算出来的结果对不对？需要一个"裁判"来打分——这就是 Loss。

正向传播流程

输入 X → 第1层计算 → 第2层计算 → ... → 输出 ŷ

每一层做的事都一样： $a^{(l)} = \sigma(W^{(l)} \cdot a^{(l-1)} + b^{(l)})$

🗣️ 人话翻译：就像流水线，原材料（输入）经过一道道工序（每层神经元），最后出成品（预测结果）。

Loss 函数：裁判怎么打分

回归任务（预测连续值，比如匹配分数）——均方误差 MSE：

$\frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2$

🗣️ 人话翻译：预测值和真实值差多少，平方后取平均。差得越多，Loss 越大，"扣分"越狠。

分类任务（预测类别，比如匹配/不匹配）——交叉熵 Cross-Entropy：

$-\sum_{i=1}^{n} y_i \log(\hat{y}_i)$

🗣️ 人话翻译：如果真实标签是"匹配"（y=1），你预测概率 ŷ=0.1，那 -log(0.1)=2.3，扣大分；如果 ŷ=0.9，那 -log(0.9)=0.1，几乎不扣分。预测越离谱，惩罚越重。

🔹 场景

拿 1000 条已标注的"简历-岗位"匹配数据，让网络预测匹配概率，用交叉熵衡量预测有多离谱——Loss 越低，模型越靠谱。

五、反向传播：求偏导 —— 网络怎么学会改错

承上启下

正向传播算出了预测，Loss 告诉我们差多远。但"差多远"不能只怪最终输出——每个参数 w、b 都有责任。反向传播就是"追责"：算出每个参数该背多少锅，然后调整它。

核心思想

Loss 是关于 w 和 b 的函数。想让 Loss 变小，就沿着梯度的反方向走一步：

$\leftarrow w - \eta \cdot \frac{\partial L}{\partial w}$

$\eta$ 是学习率（步长）：走多大步
$\frac{\partial L}{\partial w}$ 是梯度：方向（哪个方向能让 Loss 下降）

🗣️ 人话翻译：想象你蒙着眼站在山上，想下山。脚尖试一试各个方向，哪个方向最陡就往那走一步——梯度就是这个"最陡方向"，学习率就是"步子大小"。

手推链式法则（2 层网络）

设一个简单网络：

$z_1 = w_1 x + b_1 \quad (\text{第1层线性})$
$a_1 = \sigma(z_1) \quad (\text{第1层激活})$
$z_2 = w_2 a_1 + b_2 \quad (\text{第2层线性})$
$\hat{y} = \sigma(z_2) \quad (\text{第2层激活，即最终输出})$
$\frac{1}{2}(y - \hat{y})^2 \quad (\text{Loss})$

求 $\frac{\partial L}{\partial w_2}$ （第 2 层权重）：

$\frac{\partial L}{\partial w_2} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial w_2}$

一步一步算：

$\frac{\partial L}{\partial \hat{y}} = -(y - \hat{y})$ （Loss 对输出的导数）
$\frac{\partial \hat{y}}{\partial z_2} = \sigma'(z_2)$ （Sigmoid 的导数）
$\frac{\partial z_2}{\partial w_2} = a_1$ （ $z_2 = w_2 a_1 + b_2$ 对 $w_2$ 求导）

合起来：

$\frac{\partial L}{\partial w_2} = -(y - \hat{y}) \cdot \sigma'(z_2) \cdot a_1$

求 $\frac{\partial L}{\partial w_1}$ （第 1 层权重）——梯度往回传：

$\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z_2} \cdot \frac{\partial z_2}{\partial a_1} \cdot \frac{\partial a_1}{\partial z_1} \cdot \frac{\partial z_1}{\partial w_1}$

$\hat{y}) \cdot \sigma'(z_2) \cdot w_2 \cdot \sigma'(z_1) \cdot x$

🗣️ 人话翻译：误差信号像传话一样从后往前传——“输出层说：我差了这么多，你上一层传给我的信号要背 w₂ 的锅”，逐层追责。

梯度下降更新

算出梯度后，更新参数：

$w_1 \leftarrow w_1 - \eta \cdot \frac{\partial L}{\partial w_1}$
$w_2 \leftarrow w_2 - \eta \cdot \frac{\partial L}{\partial w_2}$

学习率 $\eta$ 太大 → 跳过最低点（发散）；太小 → 走得巨慢。一般从 0.01 或 0.001 开始试。

🔹 场景

我们有标注好的"简历-岗位"匹配数据，每次拿一批数据算正向传播→算 Loss→反向传播→更新参数，循环几千轮，模型就越来越准。这就是"训练"的本质。

六、CNN（卷积神经网络）—— 网络长了"眼睛"

承上启下

前面的网络都是"全连接"——每个输入和每个神经元都相连。处理图片时，一张 100×100 的图就有 10000 个像素点，全连接参数量爆炸。CNN 的思路是：不用每个像素都看全局，用一个小窗口在图上滑动，提取局部特征。

卷积操作直觉

想象你拿一个 3×3 的放大镜，在图片上从左到右、从上到下滑动：

每到一个位置，放大镜覆盖的 9 个像素和放大镜里的"滤镜参数"做加权求和
输出一个数值，代表"这个位置有没有某种特征"

这个放大镜就是卷积核（filter/kernel）。

🗣️ 人话翻译：卷积就像"拿着模板去图片上找图案"——一个卷积核专门找横线，另一个找竖线，再来一个找圆弧。

关键概念

概念	含义	人话
卷积核	3×3 或 5×5 的小权重矩阵	放大镜/模板
步长（stride）	每次滑动几格	扫描速度
填充（padding）	边缘补零	保证边缘也能被扫到
池化（pooling）	取区域最大值或平均值	压缩，只保留最明显的特征

典型 CNN 结构

输入图片 → [卷积+ReLU] → [池化] → [卷积+ReLU] → [池化] → 展平 → 全连接 → 输出

前半段（卷积+池化）负责"提取特征"，后半段（全连接）负责"做判断"。

🔹 场景

简历/证书照片的 OCR 识别：CNN 提取文字区域的视觉特征，再送入后续识别模块
头像质量检测、证件照合规检查

七、RNN（循环神经网络）—— 网络有了"记忆"

承上启下

CNN 处理图片很在行，但图片是"一次性"的数据。很多数据有时序关系——比如用户在 APP 上的行为序列：搜索→浏览→收藏→投递。后面的行为和前面的行为有关联。RNN 就是给网络加了个"记忆槽"。

RNN 结构

$h_t = f(W \cdot x_t + U \cdot h_{t-1} + b)$

$x_t$ ：当前时刻的输入
$h_{t-1}$ ：上一时刻的记忆（隐藏状态）
$h_t$ ：当前时刻的输出（也是传给下一时刻的记忆）

🗣️ 人话翻译：RNN 像一个"边读边记"的人——每读一个词，结合刚才记的内容，更新记忆，再往下读。记忆在时间轴上传递。

长期依赖问题

RNN 的记忆是"短期的"。如果序列很长（比如一段 500 字的岗位描述），开头的信息传到末尾时，经过反复乘法运算，信号几乎衰减没了——和 Sigmoid 的梯度消失同理。

🗣️ 人话翻译：就像让你复述一篇 5000 字的文章，读到结尾时早忘了开头说了啥。

🔹 场景

用户行为序列建模：浏览了哪些岗位→投了哪些→最终接受了哪个。RNN 可以捕捉"先浏览 A 类，后转向 B 类"的行为模式，辅助推荐。

八、LSTM（长短期记忆网络）—— 给记忆装上"闸门"

承上启下

RNN 的记忆太短，LSTM 给它装了三道"闸门"，精确控制什么该记、什么该忘、什么该输出。

三道门

1. 遗忘门（Forget Gate）——该忘什么

$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$

输出 0~1 之间的值：0 = 全忘，1 = 全记。

🗣️ 人话翻译：“上一轮记得的’用户之前搜 Java’，现在他改搜 Python 了——Java 那条可以忘了。”

2. 输入门（Input Gate）——该记什么新的

$i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$
$\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)$

i_t 决定"新信息进多少"， $\tilde{C}_t$ 是"新信息的候选值"。

🗣️ 人话翻译：“新来的’用户搜了 Python’这个信息很重要，记下来。”

3. 细胞状态更新

$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$

旧记忆 × 遗忘门 + 新信息 × 输入门 = 当前记忆。

🗣️ 人话翻译：细胞状态是一条"信息高速公路"——旧信息通过遗忘门过滤，新信息通过输入门加入，全程加法操作，梯度不容易消失。

4. 输出门（Output Gate）——该输出什么

$o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$
$h_t = o_t \odot \tanh(C_t)$

🗣️ 人话翻译：“记忆里存了很多东西，但此刻只需要输出和’岗位推荐’相关的部分。”

为什么 LSTM 能缓解梯度消失

细胞状态 $C_t$ 的更新主要是加法操作（ $f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$ ），不像 RNN 那样反复乘小于 1 的数，梯度可以传得更远。

🔹 场景

岗位推荐中的长期兴趣追踪：用户上周搜过 Java 岗，这周在看 Python——LSTM 能记住"用户从 Java 转向 Python"的趋势，推荐过渡类岗位。

九、NLP（自然语言处理）—— 让网络"读懂文字"

承上启下

前面的 CNN 看图、RNN/LSTM 处理序列，但都没解决一个根本问题：文字怎么变成数字？NLP 的核心就是让机器理解语言。

词嵌入（Word2Vec）—— 把词变成向量

把每个词映射成一个稠密向量（比如 300 维），使得语义相近的词在向量空间里也相近。

"招聘"和"求职"的向量距离很近
"苹果"和"手机"的距离比"苹果"和"梨"远（在不同语境下）

🗣️ 人话翻译：词嵌入就是给每个词发一张"身份证"——身份证上的数字编码了词的含义。语义相近的词，身份证号码也相近。

注意力机制（Attention）—— 找到重点

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V$

Q（Query）：我在找什么
K（Key）：每个位置的关键信息
V（Value）：每个位置的实际内容

🗣️ 人话翻译：Attention 就像"划重点"——读一段岗位描述时，自动给"5 年经验"“Java”"微服务"这些关键词打高亮，其他词低亮。

Transformer —— 自注意力 + 并行化

Transformer 用"自注意力"（Self-Attention）替代了 RNN 的递归结构：

每个词同时和序列中所有其他词计算注意力（并行！）
不再需要逐步递归，训练速度大幅提升
多头注意力：多组 Q/K/V 同时计算，捕捉不同角度的关系

🗣️ 人话翻译：RNN 是"一个字一个字读"，Transformer 是"一眼扫完全文，每个字同时看到所有其他字"。这就是为什么大模型训练能加速的核心原因。

🔹 场景

简历文本理解：用 Transformer 编码简历全文，提取"3 年 Java 经验""熟悉 Spring Boot"等关键语义
岗位描述匹配：简历向量和岗位描述向量做相似度计算，实现语义级匹配（而非关键词匹配）

十、大模型 —— 规模的威力

承上启下

Transformer 架构证明了自注意力的强大。那如果把模型参数从百万级放大到千亿级、训练数据从几 GB 放到几 TB 呢？——这就是大模型时代的答案：量变引起质变。

从 Transformer 到 GPT

GPT（Generative Pre-trained Transformer）：只用 Transformer 的解码器部分，自回归生成文本
核心思路：预测"下一个词"——给定"今天天气"，预测"很"；给定"今天天气很"，预测"好"
参数规模：GPT-2（15 亿）→ GPT-3（1750 亿）→ GPT-4（万亿级）→ 当前开源模型 7B/13B/70B

🗣️ 人话翻译：大模型就像"读完了整个互联网的人"——它不是在"思考"，而是在"根据读过的海量文本，猜下一个最合理的词"。但猜得足够好，就像真的在理解一样。

预训练 + 微调范式

预训练：在超大规模无标注语料上学习语言规律（耗时、耗钱，大厂干）
微调：在特定任务的标注数据上调整参数（我们干）

🗣️ 人话翻译：预训练 = 通识教育（学语文、数学、历史）；微调 = 岗位培训（学怎么写岗位描述、怎么匹配简历）。

Prompt Engineering 基础

大模型不需要改代码，通过设计好的"提示词"就能引导输出：

Zero-shot：不给示例，直接提问
Few-shot：给几个示例，再让模型照着做
Chain-of-Thought：让模型"一步一步思考"，输出推理过程

🗣️ 人话翻译：Prompt 就是"给模型下指令"——指令越清晰，输出越靠谱。就像带新人，说清楚要什么比让他自己悟更高效。

RAG（检索增强生成）

大模型的知识有截止日期，且可能"幻觉"（编造答案）。RAG 的思路：

用户提问
从知识库中检索相关文档
把文档塞进 Prompt，让大模型基于真实资料回答

$\text{回答} = \text{LLM}(\text{Prompt} + \text{检索到的文档} + \text{用户问题})$

🗣️ 人话翻译：大模型是"博学但可能瞎说"的人，RAG 是给他"开卷考试"——先从书架上找到相关章节，再让他照着书回答，减少胡编。

🔹 场景

AI 面试助手：用大模型根据岗位 JD 自动生成面试题，结合候选人简历定制追问
智能问答：用户问"沈阳有哪些 Java 岗位？"，RAG 从岗位库检索真实信息，大模型组织自然语言回答
岗位匹配大模型：微调开源大模型，理解简历和岗位的语义匹配关系

全景回顾：从 y=wx+b 到大模型

y = wx + b           最朴素的线性关系
    ↓
  激活函数            引入非线性，让网络能"拐弯"
    ↓
  神经元              线性 + 激活 = 最小计算单元
    ↓
  正向传播 + Loss     数据流过网络，衡量结果好不好
    ↓
  反向传播            追责+调参，让网络学会改错
    ↓
  CNN                网络长了"眼睛"，能看图
    ↓
  RNN                网络有了"记忆"，能读序列
    ↓
  LSTM               记忆装上"闸门"，不再健忘
    ↓
  NLP / Transformer   网络能"读懂文字"，且并行高效
    ↓
  大模型              规模的威力：量变引起质变

一句话总结：神经网络的所有进步，本质上都在做两件事——更好地表示数据（从线性到非线性，从像素到语义）和更好地优化参数（从梯度下降到反向传播，从预训练到微调）。

附录：关键术语速查表

术语	一句话解释
权重 w	每个输入的重要性
偏置 b	基础分/兜底值
激活函数	决定神经元"发不发电"
正向传播	数据从输入流到输出
Loss	预测和真实值的差距
反向传播	从 Loss 反向追责，算每个参数的梯度
梯度下降	沿梯度反方向更新参数
学习率	每次参数更新的步长
卷积核	在图片上滑动的"特征模板"
池化	压缩特征图，只保留最重要的
隐藏状态	RNN 的"记忆"
LSTM 门控	控制记忆的"忘/记/说"
词嵌入	把词变成含义向量
注意力	自动"划重点"
Transformer	用自注意力替代递归，并行高效
预训练	通识教育
微调	岗位培训
Prompt	给大模型的指令
RAG	给大模型"开卷考试"

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

越会“想“越爱乱来？聊聊大模型的“推理陷阱

2048 AI社区

构建生产级 AI Agent 记忆系统：OpenSearch 向量检索引擎与主流向量数据库全方位对比

本文探讨了如何利用OpenSearch的KNN功能为AI Agent构建长期记忆系统。OpenSearch通过融合KNN向量检索和BM25关键词检索，在搜索引擎和向量数据库之间找到平衡点。文章详细解析了OpenSearch KNN的发展阶段和配置方法，重点介绍了Index Mapping设计，包括关键字段如user_id、category、memory_vector等的设置。同时提供了Python

2048 AI社区

强化学习真能“教会“智能体推理吗？拆解 Agentic RL 的边界与配方

2048 AI社区

所有评论(0)

查看更多评论

子龙_w

@qq_36514197

已为社区贡献1条内容

神经网络基础知识-分享教材

子龙_w

神经网络基础知识 —— 从一个方程到大模型

一、线性方程：y = wx + b —— 一切的起点

核心思想

公式与解释

推广到多维

🔹 场景

二、非线性激活：Sigmoid 函数 —— 让网络学会"弯弯绕"

承上启下

Sigmoid 公式

Sigmoid 的问题：梯度消失

其他激活函数速览

🔹 场景

三、神经元：把数学变成大脑细胞

承上启下

从生物神经元说起

人工神经元的完整计算

从一个到一层

从一层到多层

🔹 场景

四、正向传播与 Loss —— 网络怎么算出结果，怎么知道对不对

承上启下

正向传播流程

Loss 函数：裁判怎么打分

🔹 场景

五、反向传播：求偏导 —— 网络怎么学会改错

承上启下

核心思想

手推链式法则（2 层网络）

梯度下降更新

🔹 场景

六、CNN（卷积神经网络）—— 网络长了"眼睛"

承上启下

卷积操作直觉

关键概念

典型 CNN 结构

🔹 场景

七、RNN（循环神经网络）—— 网络有了"记忆"

承上启下

RNN 结构

长期依赖问题

🔹 场景

八、LSTM（长短期记忆网络）—— 给记忆装上"闸门"

承上启下

三道门

为什么 LSTM 能缓解梯度消失

🔹 场景

九、NLP（自然语言处理）—— 让网络"读懂文字"

承上启下

词嵌入（Word2Vec）—— 把词变成向量

注意力机制（Attention）—— 找到重点

Transformer —— 自注意力 + 并行化

🔹 场景

十、大模型 —— 规模的威力

承上启下

从 Transformer 到 GPT

预训练 + 微调范式

Prompt Engineering 基础

RAG（检索增强生成）

🔹 场景

全景回顾：从 y=wx+b 到大模型

附录：关键术语速查表

所有评论(0)

温馨提示：您尚未绑定手机号

子龙_w