神经网络NN

Fenta01xq

555人浏览 · 2025-11-27 17:56:27

Fenta01xq · 2025-11-27 17:56:27 发布

1.神经网络（neural network，缩写NN）或类神经网络，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

2.神经网络主要由：输入层，隐藏层，输出层构成。当隐藏层只有一层时，该网络为两层神经网络，由于输入层未做任何变换，可以不看做单独的一层。实际中，网络输入层的每个神经元代表了一个特征，输出层个数代表了分类标签的个数（在做二分类时，如果采用sigmoid分类器，输出层的神经元个数为1个；如果采用softmax分类器，输出层神经元个数为2个；如果是多分类问题，即输出类别>=3时，输出层神经元为类别个数），而隐藏层层数以及隐藏层神经元是由人工设定。一个基本的两层神经网络可见下图（注意：说神经网络多少层数的时候一般不包括输入层。在神经网络中的激活主要讲的是梯度的更新的激活）：

你可以把神经网络想象成一个 “特征加工工厂”，输入层 =“原材料”，隐藏层 =“加工车间”，输出层 =“最终产品”，而 “神经元” 就是工厂里的 “加工节点”。

1. 输入层：“原材料”—— 数据的特征

通俗理解：输入层的每个神经元，对应原始数据的一个 “特征”（比如判断一张图片是不是猫，特征可能是 “是否有胡须”“耳朵形状是否尖”“毛色是否为纯色” 等）。
关键特点：输入层只负责 “传递数据”，不做任何计算或变换（就像工厂的原材料入口，只把材料送进车间，不加工）。
例子：
- 用神经网络预测学生成绩：输入特征可能是 “复习时长”“刷题数量”“上课出勤率”，所以输入层有 3 个神经元。
- 用神经网络识别手写数字（0-9）：每张图片按像素点输入（比如 28×28=784 个像素），所以输入层有 784 个神经元。

2. 隐藏层：“加工车间”—— 特征的提炼与组合

通俗理解：隐藏层是神经网络的 “核心”，负责把输入层的 “原始特征” 进行 “提炼、组合、转化”（比如把 “有胡须”“尖耳朵”“纯色毛” 这三个特征组合起来，变成 “猫的关键特征”）。
关键规则：
- 隐藏层是 “人工设定” 的：包括 “隐藏层层数”（1 层、2 层、多层）和 “每层的神经元个数”（比如 1 层隐藏层，含 10 个神经元）。
- 为什么叫 “隐藏”？因为它不直接接收原始数据，也不直接输出结果，是 “中间加工环节”，我们看不到它的具体工作过程，所以叫隐藏层。
层数定义的坑：题目里说 “隐藏层只有一层时，叫两层神经网络”，原因是：计数时通常不包括输入层（只算 “有计算功能的层”）。比如：
- 输入层（无计算）+ 1 层隐藏层（有计算）+ 输出层（有计算）→ 总共 “2 层网络”（隐藏层 + 输出层）。
- 输入层 + 2 层隐藏层 + 输出层 → 3 层网络（深度学习的入门结构）。

3. 输出层：“最终产品”—— 分类结果或预测值

通俗理解：输出层的神经元个数，对应我们要 “输出的结果类型”（分类标签的个数），是整个网络的 “最终答案”。
核心规则（重点！题目里的分类器区别）：
- 二分类问题（结果只有 2 种，比如 “是 / 否”“合格 / 不合格”“猫 / 狗”）：
  - 用 sigmoid 分类器：输出层 1 个神经元（输出值在 0-1 之间，比如≥0.5 判定为 “是”，<0.5 判定为 “否”）。
    - 例子：判断邮件是否为垃圾邮件 → 输出层 1 个神经元（0 = 正常邮件，1 = 垃圾邮件）。
  - 用 softmax 分类器：输出层 2 个神经元（两个神经元的输出值相加 = 1，分别代表 “属于类别 A 的概率” 和 “属于类别 B 的概率”）。
    - 例子：判断图片是猫还是狗 → 输出层 2 个神经元（第一个输出 0.8 = 猫的概率，第二个输出 0.2 = 狗的概率，取概率大的作为结果）。
- 多分类问题（结果≥3 种，比如识别数字 0-9、识别水果（苹果 / 香蕉 / 橙子））：
  - 必须用 softmax 分类器，输出层神经元个数 =“类别总数”（每个神经元对应一个类别的概率，总和 = 1）。
    - 例子：识别手写数字 0-9 → 输出层 10 个神经元（分别对应数字 0-9 的概率，比如第 5 个神经元输出 0.9，就判定为数字 5）。
    - 总结:给输出层每个神经元分配一个 “唯一任务”（比如识别数字 0-9 时，每个神经元对应一个数字），经过 softmax 分类器处理后，所有神经元的概率加起来 = 1（所有可能性覆盖 100%），最终哪个神经元的概率最大，就判定输入数据属于这个神经元 “任务对应的结果”。
- “激活主要讲的是梯度的更新的激活”，：激活函数是让神经网络 “学会复杂规律” 的关键，而梯度更新是让网络 “越学越准” 的方式。
  
  1. 激活函数：给 “加工车间” 加 “非线性能力”
- 通俗理解：如果没有激活函数，隐藏层的加工只是 “简单的线性组合”（比如 “胡须 + 尖耳朵 = 特征 A”），无法处理复杂问题（比如猫的特征不是简单相加，还有 “胡须长度”“耳朵角度” 等非线性关系）。
- 激活函数的作用：给每个神经元的输出加一个 “非线性变换”，让网络能学习复杂的规律（比如 sigmoid 函数把输出压缩到 0-1，ReLU 函数让无效特征 “归零”）。
- 为什么和 “梯度更新” 有关？：
  - 神经网络学习的过程，是通过 “梯度下降” 调整每个神经元的参数（比如 “胡须特征的重要性”），让预测结果更准。
  - 激活函数的选择，会影响 “梯度是否能有效传递”（比如有些激活函数会导致梯度消失，网络学不会），所以说 “激活主要讲的是梯度更新的激活”—— 核心是 “激活函数支撑了梯度更新，让网络能学习”。
- 2. 梯度更新：让网络 “知错就改”
- 通俗理解：网络第一次预测可能出错（比如把猫判成狗），梯度更新就是 “计算错误的程度”（比如 “差了多少”），然后反向调整隐藏层、输出层的参数（比如 “增加‘胡须’特征的重要性，降低‘体型大’特征的重要性”），下次预测就更准了。
- 激活函数在这里的作用：如果激活函数是 “线性的”，梯度会越来越小（梯度消失），参数无法调整；只有用 “非线性激活函数”，梯度才能有效传递，更新才能生效。

一、图中各元素的作用（对应 “快递分拣员” 的工作）

二、神经元的计算流程（四步运算）

图右上角的公式 h=f(∑i=1nθixi−b)，就是神经元的 “计算流水线”，分 4 步：

1. 第一步：输入 × 权重 → 加权求和（计算 “信息的加权重要性”）

先把每个输入 xi 和对应的权重 θi 相乘，再把所有结果加起来：∑i=1nθixi=θ1x1+θ2x2+...+θnxn

例子：如果 x1 是 “复习时长”，θ1=0.8（权重高，说明复习时长很重要）；x2 是 “刷题数”，θ2=0.5（权重低，影响较小）→ 这一步会突出 “复习时长” 的作用。

2. 第二步：减偏置 b → 调整 “触发阈值”

把第一步的结果减去偏置 b，得到 “加权和 - 偏置”：∑i=1nθixi−b

类比：分拣员的 “阈值”—— 如果 b=3，相当于 “只有加权和≥3，才会触发后续判断”（偏置越大，需要的加权和越高，神经元越难 “激活”）。

3. 第三步：过激活函数 f(⋅) → 非线性变换

把 “加权和 - 偏置” 的结果代入激活函数 f，得到最终输出 h。

常见激活函数：
- ReLU：把负数变成 0（只保留 “正向影响”）；
- Sigmoid：把结果压缩到 0-1 之间（用于二分类的概率输出）；
- Softmax：把多个神经元的输出转化为 “概率和为 1” 的结果（用于多分类）。

4. 第四步：输出 h → 传递给下一层

最终输出 h 会作为 “下一个神经元的输入 x”，继续参与后续计算（整个神经网络就是无数个这样的神经元 “连起来” 的结果）。

三、用 “学生及格预测” 的例子代入

假设这个神经元是 “隐藏层的某个神经元”，输入是 “复习时长 x1、刷题数 x2、出勤率 x3、作业完成率 x4”：

输入 x=[15,40,95,90]（新学生的特征）；
权重 θ=[0.1,0.05,0.03,0.02]（模型训练后学到的 “重要性”）；
偏置 b=3；
激活函数 f=ReLU。

计算过程：

加权和：0.1×15+0.05×40+0.03×95+0.02×90=1.5+2+2.85+1.8=8.15；
减偏置：8.15−3=5.15；
激活函数：ReLU(5.15)=5.15（ReLU 对正数直接输出本身）；
输出 h=5.15 → 传递给下一层神经元，最终经过输出层的 Sigmoid 得到 “及格概率”。

核心总结

这个图的本质是：神经元通过 “给输入加权重（突出重要信息）、减偏置（调整触发难度）、过激活函数（学习复杂规律）”，实现对信息的 “加工处理”—— 无数个这样的神经元按 “输入层→隐藏层→输出层” 连接，就组成了能解决复杂问题的神经网络。

————————————————
版权声明：本文为CSDN博主「意念回复」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_39910711/article/details/100775918

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【每天一个AI小知识】：什么是生成对抗网络？

2048 AI社区

进程入门基础

2048 AI社区

【人工智能】【AI外呼】从骚扰电话到智能语音机器人：技术架构、行业生态与工程实践

本文为《【人工智能】【AI外呼】系统架构设计与实现详解》的行业纵深篇，从用户深恶痛绝的“骚扰电话”痛点出发，系统解析智能外呼背后的技术架构、成本模型与商业生态。全文深入剖析 ASR/TTS/对话管理（DMS）的工程实现，详解号码资源、运营商线路、并发控制等关键要素，并对比云厂商、垂直 SaaS 与通信设备商三大阵营。既延续前文 FreeSWITCH + 名单系统 + DMS 的技术骨架，又补全成本