在大模型班学算法笔记记录-神经网络

神经网络的结构本质是“带权重的有向Graph”，Tree是其无回路的特殊形式；神经元是“迷你函数单元”，核心遵循“线性变换（加权求和+偏置）→非线性变换（激活函数）”的标准流程——线性变换负责整合特征，非线性变换负责拟合复杂关系，二者共同构成了神经网络的计算基础。

Shineeeeee_

725人浏览 · 2025-12-08 10:30:43

Shineeeeee_ · 2025-12-08 10:30:43 发布

一、神经网络的Graph本质：节点与边的协同

神经网络的核心拓扑结构是有向图（Directed Graph），其定义完全契合“节点+边”的Graph模型：

节点（Node）：即神经元（Neuron），是神经网络的基本计算单元，负责接收输入、执行计算并输出结果；
边（Edge）：连接两个神经元的“数据通道”，每条边都附带一个权重（Weight），权重的大小代表这条边传递数据的“重要性”——权重越大，对应输入特征对输出结果的影响越强。

与Tree的关系：Tree是Graph的特殊子集

Tree（树）的定义是“无回路的连通图”，而神经网络的Graph允许存在回路（如循环神经网络RNN）或非连通结构（如并行分支网络），因此：

树是Graph的特例（无回路、单根节点、层级分明）；
部分神经网络的结构可看作“树状Graph”（如决策树、CNN的卷积层与池化层构成的层级结构），但绝大多数复杂神经网络（如Transformer、GAN）是包含回路或多分支的通用Graph，远超Tree的结构限制。

二、神经元：迷你且标准的计算单元

神经元是神经网络的“最小功能模块”，其核心特点是“迷你的函数封装”和“标准的计算流程”，具体拆解如下：

1. 迷你的：聚焦单一功能的小型函数

神经元本质是一个输入→计算→输出的迷你函数，“迷你”体现在：

输入维度灵活（可接收1个或多个特征输入，如输入是图像的像素值、前层神经元的输出）；
计算逻辑简洁（仅包含两步核心操作，无冗余流程）；
输出单一（仅输出1个计算结果，作为下一层神经元的输入或最终预测值）。

简单说，神经元就像一个“微型计算器”，只负责完成“整合输入→转换输出”的专项任务，无数个这样的“微型计算器”通过Graph的边连接，就构成了能处理复杂问题的神经网络。

2. 标准的：固定两步计算流程（线性变换+非线性变换）

所有神经元的计算过程都遵循统一标准，不存在例外——第一步做线性变换整合输入，第二步做非线性变换打破线性束缚，两步缺一不可：

第一步：线性变换（整合输入特征）

核心目的是将多个输入特征按权重加权求和，再加入偏置项，得到线性组合结果。

数学表达式：设神经元接收个输入，对应边的权重为，偏置项为，则线性变换结果为：
（其中是权重向量，是输入向量，表示向量内积）；
物理意义：
- 权重：调节对应输入的“贡献度”（如输入是关键特征，会被训练得更大）；
- 偏置项：提供一个“基准偏移量”，避免因输入全为0导致输出为0的情况，增加模型的表达能力（比如即使所有输入特征为0，偏置仍能让神经元输出非零值，捕捉基础规律）。

第二步：非线性变换（激活函数，打破线性限制）

核心目的是给模型注入“非线性能力”，让神经网络能拟合复杂的数据分布（如图像识别、自然语言处理中的非线性关系）。

为什么必须有这一步？若没有非线性变换，无论神经网络有多少层，最终的输出都是输入的线性组合（比如两层神经元的输出是，本质还是线性函数），无法处理非线性问题（如区分“圆形”和“方形”、预测文本的语义关联）；
常用激活函数（非线性变换工具）：
- ReLU（Rectified Linear Unit）：，最常用，解决梯度消失问题，计算高效；
- Sigmoid：，输出范围0~1，适用于二元分类的输出层；
- Tanh（双曲正切）：，输出范围-1~1，比Sigmoid更易训练；
- Softmax：（为类别数），输出和为1的概率分布，适用于多分类输出层。

最终输出：经过非线性变换后的结果（称为“激活值”），会通过边传递给下一层神经元，或作为模型的最终预测结果。

总结

神经网络的结构本质是“带权重的有向Graph”，Tree是其无回路的特殊形式；
神经元是“迷你函数单元”，核心遵循“线性变换（加权求和+偏置）→非线性变换（激活函数）”的标准流程——线性变换负责整合特征，非线性变换负责拟合复杂关系，二者共同构成了神经网络的计算基础。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

12.4-9国内外互联网技术热点TOP3及开发者指南（AWS Kiro自主智能体发布）

12月4日-9日的三大热点勾勒出“AI自主化、基建硬支撑、生态强整合”的技术演进脉络：AWS Kiro智能体推动AI从辅助工具向自主执行者升级，未来网络试验设施夯实数字经济的网络底座，IBM收购Confluent加速数据与AI的融合落地。对开发者而言，需重点把握三大方向：一是学习智能体开发技术，适配AI自主化趋势；二是利用国家级试验设施开展前沿技术探索；三是关注云数据生态的整合机遇，优化技术栈选型

2048 AI社区

阅读《AI Engineering》笔记09 为什么大模型的回答不是固定的

Sampling 决定了：模型会不会“胡说八道”输出是创意还是稳定同样 prompt 得到的答案会不会变化模型生成的效率和速度多样性 vs 可控性如何平衡Sampling 是大模型“性格”的调节器。如果你能熟练调教 temperature、top-k、top-p、采样次数、停止条件，你就能让模型输出朝着你想要的方向走。