一、神经网络Graph本质:节点与边的协同

神经网络的核心拓扑结构是有向图(Directed Graph),其定义完全契合“节点+边”的Graph模型:

  • 节点(Node):即神经元(Neuron),是神经网络的基本计算单元,负责接收输入、执行计算并输出结果;
  • 边(Edge):连接两个神经元的“数据通道”,每条边都附带一个权重(Weight),权重的大小代表这条边传递数据的“重要性”——权重越大,对应输入特征对输出结果的影响越强。

与Tree的关系:Tree是Graph的特殊子集

Tree(树)的定义是“无回路的连通图”,而神经网络的Graph允许存在回路(如循环神经网络RNN)或非连通结构(如并行分支网络),因此:

  • 树是Graph的特例(无回路、单根节点、层级分明);
  • 部分神经网络的结构可看作“树状Graph”(如决策树、CNN的卷积层池化层构成的层级结构),但绝大多数复杂神经网络(如TransformerGAN)是包含回路或多分支的通用Graph,远超Tree的结构限制。

二、神经元:迷你且标准的计算单元

神经元是神经网络的“最小功能模块”,其核心特点是“迷你的函数封装”和“标准的计算流程”,具体拆解如下:

1. 迷你的:聚焦单一功能的小型函数

神经元本质是一个输入→计算→输出的迷你函数,“迷你”体现在:

  • 输入维度灵活(可接收1个或多个特征输入,如输入是图像的像素值、前层神经元的输出);
  • 计算逻辑简洁(仅包含两步核心操作,无冗余流程);
  • 输出单一(仅输出1个计算结果,作为下一层神经元的输入或最终预测值)。

简单说,神经元就像一个“微型计算器”,只负责完成“整合输入→转换输出”的专项任务,无数个这样的“微型计算器”通过Graph的边连接,就构成了能处理复杂问题的神经网络。

2. 标准的:固定两步计算流程(线性变换+非线性变换

所有神经元的计算过程都遵循统一标准,不存在例外——第一步做线性变换整合输入,第二步做非线性变换打破线性束缚,两步缺一不可:

第一步:线性变换(整合输入特征)

核心目的是将多个输入特征按权重加权求和,再加入偏置项,得到线性组合结果。

  • 数学表达式:设神经元接收  个输入 ,对应边的权重为 ,偏置项为 ,则线性变换结果为: 
    (其中  是权重向量, 是输入向量, 表示向量内积);
  • 物理意义:
    • 权重 :调节对应输入  的“贡献度”(如输入  是关键特征, 会被训练得更大);
    • 偏置项 :提供一个“基准偏移量”,避免因输入全为0导致输出为0的情况,增加模型的表达能力(比如即使所有输入特征为0,偏置  仍能让神经元输出非零值,捕捉基础规律)。

第二步:非线性变换(激活函数,打破线性限制)

核心目的是给模型注入“非线性能力”,让神经网络能拟合复杂的数据分布(如图像识别、自然语言处理中的非线性关系)。

  • 为什么必须有这一步? 若没有非线性变换,无论神经网络有多少层,最终的输出都是输入的线性组合(比如两层神经元的输出是 ,本质还是线性函数),无法处理非线性问题(如区分“圆形”和“方形”、预测文本的语义关联);
  • 常用激活函数(非线性变换工具):
    • ReLU(Rectified Linear Unit):,最常用,解决梯度消失问题,计算高效;
    • Sigmoid:,输出范围0~1,适用于二元分类的输出层;
    • Tanh(双曲正切):,输出范围-1~1,比Sigmoid更易训练;
    • Softmax:( 为类别数),输出和为1的概率分布,适用于多分类输出层。

  • 最终输出:经过非线性变换后的结果 (称为“激活值”),会通过边传递给下一层神经元,或作为模型的最终预测结果。

总结

  • 神经网络的结构本质是“带权重的有向Graph”,Tree是其无回路的特殊形式;
  • 神经元是“迷你函数单元”,核心遵循“线性变换(加权求和+偏置)→非线性变换(激活函数)”的标准流程——线性变换负责整合特征,非线性变换负责拟合复杂关系,二者共同构成了神经网络的计算基础。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐