1.神经网络(neural network,缩写NN)或类神经网络,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似

2.神经网络主要由:输入层,隐藏层,输出层构成。当隐藏层只有一层时,该网络为两层神经网络,由于输入层未做任何变换,可以不看做单独的一层。实际中,网络输入层的每个神经元代表了一个特征,输出层个数代表了分类标签的个数(在做二分类时,如果采用sigmoid分类器,输出层的神经元个数为1个;如果采用softmax分类器,输出层神经元个数为2个;如果是多分类问题,即输出类别>=3时,输出层神经元为类别个数),而隐藏层层数以及隐藏层神经元是由人工设定。一个基本的两层神经网络可见下图(注意:说神经网络多少层数的时候一般不包括输入层。 在神经网络中的激活主要讲的是梯度的更新的激活):

你可以把神经网络想象成一个 “特征加工工厂”,输入层 =“原材料”,隐藏层 =“加工车间”,输出层 =“最终产品”,而 “神经元” 就是工厂里的 “加工节点”。

1. 输入层:“原材料”—— 数据的特征
  • 通俗理解:输入层的每个神经元,对应原始数据的一个 “特征”(比如判断一张图片是不是猫,特征可能是 “是否有胡须”“耳朵形状是否尖”“毛色是否为纯色” 等)。
  • 关键特点:输入层只负责 “传递数据”,不做任何计算或变换(就像工厂的原材料入口,只把材料送进车间,不加工)。
  • 例子
    • 用神经网络预测学生成绩:输入特征可能是 “复习时长”“刷题数量”“上课出勤率”,所以输入层有 3 个神经元。
    • 用神经网络识别手写数字(0-9):每张图片按像素点输入(比如 28×28=784 个像素),所以输入层有 784 个神经元。
2. 隐藏层:“加工车间”—— 特征的提炼与组合
  • 通俗理解:隐藏层是神经网络的 “核心”,负责把输入层的 “原始特征” 进行 “提炼、组合、转化”(比如把 “有胡须”“尖耳朵”“纯色毛” 这三个特征组合起来,变成 “猫的关键特征”)。
  • 关键规则
    • 隐藏层是 “人工设定” 的:包括 “隐藏层层数”(1 层、2 层、多层)和 “每层的神经元个数”(比如 1 层隐藏层,含 10 个神经元)。
    • 为什么叫 “隐藏”?因为它不直接接收原始数据,也不直接输出结果,是 “中间加工环节”,我们看不到它的具体工作过程,所以叫隐藏层。
  • 层数定义的坑:题目里说 “隐藏层只有一层时,叫两层神经网络”,原因是:计数时通常不包括输入层(只算 “有计算功能的层”)。比如:
    • 输入层(无计算)+ 1 层隐藏层(有计算)+ 输出层(有计算)→ 总共 “2 层网络”(隐藏层 + 输出层)。
    • 输入层 + 2 层隐藏层 + 输出层 → 3 层网络(深度学习的入门结构)。
3. 输出层:“最终产品”—— 分类结果或预测值
  • 通俗理解:输出层的神经元个数,对应我们要 “输出的结果类型”(分类标签的个数),是整个网络的 “最终答案”。
  • 核心规则(重点!题目里的分类器区别):
    • 二分类问题(结果只有 2 种,比如 “是 / 否”“合格 / 不合格”“猫 / 狗”):
      • 用 sigmoid 分类器:输出层 1 个神经元(输出值在 0-1 之间,比如≥0.5 判定为 “是”,<0.5 判定为 “否”)。
        • 例子:判断邮件是否为垃圾邮件 → 输出层 1 个神经元(0 = 正常邮件,1 = 垃圾邮件)。
      • 用 softmax 分类器:输出层 2 个神经元(两个神经元的输出值相加 = 1,分别代表 “属于类别 A 的概率” 和 “属于类别 B 的概率”)。
        • 例子:判断图片是猫还是狗 → 输出层 2 个神经元(第一个输出 0.8 = 猫的概率,第二个输出 0.2 = 狗的概率,取概率大的作为结果)。
    • 多分类问题(结果≥3 种,比如识别数字 0-9、识别水果(苹果 / 香蕉 / 橙子)):
      • 必须用 softmax 分类器,输出层神经元个数 =“类别总数”(每个神经元对应一个类别的概率,总和 = 1)。
        • 例子:识别手写数字 0-9 → 输出层 10 个神经元(分别对应数字 0-9 的概率,比如第 5 个神经元输出 0.9,就判定为数字 5)。
        • 总结:给输出层每个神经元分配一个 “唯一任务”(比如识别数字 0-9 时,每个神经元对应一个数字),经过 softmax 分类器处理后,所有神经元的概率加起来 = 1(所有可能性覆盖 100%),最终哪个神经元的概率最大,就判定输入数据属于这个神经元 “任务对应的结果”。
    • “激活主要讲的是梯度的更新的激活”,:激活函数是让神经网络 “学会复杂规律” 的关键,而梯度更新是让网络 “越学越准” 的方式

      1. 激活函数:给 “加工车间” 加 “非线性能力”

    • 通俗理解:如果没有激活函数,隐藏层的加工只是 “简单的线性组合”(比如 “胡须 + 尖耳朵 = 特征 A”),无法处理复杂问题(比如猫的特征不是简单相加,还有 “胡须长度”“耳朵角度” 等非线性关系)。
    • 激活函数的作用:给每个神经元的输出加一个 “非线性变换”,让网络能学习复杂的规律(比如 sigmoid 函数把输出压缩到 0-1,ReLU 函数让无效特征 “归零”)。
    • 为什么和 “梯度更新” 有关?:
      • 神经网络学习的过程,是通过 “梯度下降” 调整每个神经元的参数(比如 “胡须特征的重要性”),让预测结果更准。
      • 激活函数的选择,会影响 “梯度是否能有效传递”(比如有些激活函数会导致梯度消失,网络学不会),所以说 “激活主要讲的是梯度更新的激活”—— 核心是 “激活函数支撑了梯度更新,让网络能学习”。
    •  2. 梯度更新:让网络 “知错就改”

    • 通俗理解:网络第一次预测可能出错(比如把猫判成狗),梯度更新就是 “计算错误的程度”(比如 “差了多少”),然后反向调整隐藏层、输出层的参数(比如 “增加‘胡须’特征的重要性,降低‘体型大’特征的重要性”),下次预测就更准了。
    • 激活函数在这里的作用:如果激活函数是 “线性的”,梯度会越来越小(梯度消失),参数无法调整;只有用 “非线性激活函数”,梯度才能有效传递,更新才能生效。

一、图中各元素的作用(对应 “快递分拣员” 的工作)

二、神经元的计算流程(四步运算)

图右上角的公式 h=f(∑i=1n​θi​xi​−b),就是神经元的 “计算流水线”,分 4 步:

1. 第一步:输入 × 权重 → 加权求和(计算 “信息的加权重要性”)

先把每个输入 xi​ 和对应的权重 θi​ 相乘,再把所有结果加起来:∑i=1n​θi​xi​=θ1​x1​+θ2​x2​+...+θn​xn​

  • 例子:如果 x1​ 是 “复习时长”,θ1​=0.8(权重高,说明复习时长很重要);x2​ 是 “刷题数”,θ2​=0.5(权重低,影响较小)→ 这一步会突出 “复习时长” 的作用。
2. 第二步:减偏置 b → 调整 “触发阈值”

把第一步的结果减去偏置 b,得到 “加权和 - 偏置”:∑i=1n​θi​xi​−b

  • 类比:分拣员的 “阈值”—— 如果 b=3,相当于 “只有加权和≥3,才会触发后续判断”(偏置越大,需要的加权和越高,神经元越难 “激活”)。
3. 第三步:过激活函数 f(⋅) → 非线性变换

把 “加权和 - 偏置” 的结果代入激活函数 f,得到最终输出 h。

  • 常见激活函数:
    • ReLU:把负数变成 0(只保留 “正向影响”);
    • Sigmoid:把结果压缩到 0-1 之间(用于二分类的概率输出);
    • Softmax:把多个神经元的输出转化为 “概率和为 1” 的结果(用于多分类)。
4. 第四步:输出 h → 传递给下一层

最终输出 h 会作为 “下一个神经元的输入 x”,继续参与后续计算(整个神经网络就是无数个这样的神经元 “连起来” 的结果)。

三、用 “学生及格预测” 的例子代入

假设这个神经元是 “隐藏层的某个神经元”,输入是 “复习时长 x1​、刷题数 x2​、出勤率 x3​、作业完成率 x4​”:

  • 输入 x=[15,40,95,90](新学生的特征);
  • 权重 θ=[0.1,0.05,0.03,0.02](模型训练后学到的 “重要性”);
  • 偏置 b=3;
  • 激活函数 f=ReLU。

计算过程:

  1. 加权和:0.1×15+0.05×40+0.03×95+0.02×90=1.5+2+2.85+1.8=8.15;
  2. 减偏置:8.15−3=5.15;
  3. 激活函数:ReLU(5.15)=5.15(ReLU 对正数直接输出本身);
  4. 输出 h=5.15 → 传递给下一层神经元,最终经过输出层的 Sigmoid 得到 “及格概率”。

核心总结

这个图的本质是:神经元通过 “给输入加权重(突出重要信息)、减偏置(调整触发难度)、过激活函数(学习复杂规律)”,实现对信息的 “加工处理”—— 无数个这样的神经元按 “输入层→隐藏层→输出层” 连接,就组成了能解决复杂问题的神经网络。

————————————————
版权声明:本文为CSDN博主「意念回复」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_39910711/article/details/100775918

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐