PyTorch 神经网络工具箱学习笔记

对比维度nn.Module用法先实例化，再以函数形式调用直接调用函数，传入数据和参数参数管理自动管理可学习参数需手动定义和传入参数与容器配合支持（如 nn.Sequential）不支持状态切换（如 dropout）自动切换（model.eval ()）需手动控制（如设置 train_flag）适用场景构建可训练层（Linear、Conv2d）激活函数、池化层、损失计算这是最基础也最灵活的方式，适用

凳子（刘博浩）

256人浏览 · 2025-09-22 16:44:29

凳子（刘博浩） · 2025-09-22 16:44:29 发布

在深度学习实践中，PyTorch 凭借灵活的架构和直观的 API 成为众多开发者的首选框架。最近系统学习了 PyTorch 神经网络工具箱的核心内容，从组件认知到模型构建，再到自定义模块开发，每一步都让我对 PyTorch 的设计逻辑有了更深的理解。

一、神经网络的核心组件：理解 “搭积木” 的基础

要构建一个神经网络，首先得搞清楚它的 “基本零件”。在 PyTorch 中，神经网络的核心组件主要分为四类，它们各司其职，共同完成从数据输入到结果输出的全过程：

组件	作用	示例
层（Layer）	神经网络的基本结构单元，负责对输入张量进行数据变换（如线性变换、卷积）	全连接层（Linear）、卷积层（Conv2d）
模型（Model）	由多个层按特定逻辑组合而成的整体，实现端到端的任务（如分类、回归）	手写数字识别模型、ResNet 系列模型
损失函数	衡量模型预测结果与真实值的差距，是参数优化的 “指南针”	交叉熵损失（CrossEntropyLoss）、MSE 损失
优化器	根据损失函数的梯度，调整模型参数以最小化损失	Adam、SGD、RMSprop

这四个组件的协作逻辑很清晰：数据通过 “层” 组成的 “模型” 得到预测结果，“损失函数” 计算预测误差，“优化器” 则根据误差调整模型参数 —— 就像工厂的流水线，每个环节都不可或缺。

二、PyTorch 构建网络的两大核心工具：nn.Module vs nn.functional

PyTorch 提供了两种主要方式来构建网络层和实现功能，分别是nn.Module和nn.functional。刚开始我很容易混淆二者，后来通过对比才理清它们的区别和适用场景：

1. nn.Module：面向 “模块”，省心省力

nn.Module是 PyTorch 中所有可训练模块的基类，比如nn.Linear（全连接层）、nn.Conv2d（卷积层）、nn.Dropout（ dropout 层）等，都需要先实例化再使用。它的核心优势在于自动管理可学习参数，不用我们手动定义权重（weight）和偏置（bias），还能与模型容器（如nn.Sequential）无缝配合。

举个直观的例子，定义一个全连接层：

python

运行

import torch.nn as nn
# 实例化全连接层：输入特征数784，输出特征数300
linear = nn.Linear(784, 300)
# 直接传入数据即可，参数由模块自动管理
x = linear(torch.randn(10, 784))  # 输入形状：(batch_size=10, feature=784)

另外，nn.Module还有个很实用的特性：对于nn.Dropout这类在训练 / 测试阶段行为不同的层，调用model.eval()后会自动切换到测试模式，不用手动调整状态，非常适合工程化开发。

2. nn.functional：面向 “函数”，灵活轻便

nn.functional更像一组纯函数，比如nn.functional.relu（激活函数）、nn.functional.max_pool2d（池化层）、nn.functional.cross_entropy（损失计算）等，调用时需要手动传入输入数据，部分函数还需要自己定义和管理参数。

比如用nn.functional.linear实现全连接层，就得手动定义权重和偏置：

nn.functional的优势在于灵活，适合快速实验或实现一些自定义逻辑，但缺点也很明显：参数管理繁琐，无法与nn.Sequential配合，且像 dropout 这类层需要手动切换训练 / 测试状态。

3. 二者的核心区别总结

对比维度	nn.Module	nn.functional
用法	先实例化，再以函数形式调用	直接调用函数，传入数据和参数
参数管理	自动管理可学习参数	需手动定义和传入参数
与容器配合	支持（如 nn.Sequential）	不支持
状态切换（如 dropout）	自动切换（model.eval ()）	需手动控制（如设置 train_flag）
适用场景	构建可训练层（Linear、Conv2d）	激活函数、池化层、损失计算

三、三种模型构建方式：从简单到灵活

掌握了核心工具后，接下来就是如何将 “层” 组合成 “模型”。PyTorch 提供了多种模型构建方式，分别适用于不同复杂度的场景，我将它们分为三类：

1. 继承 nn.Module 基类：自定义程度最高

这是最基础也最灵活的方式，适用于构建复杂网络（如残差网络、Transformer）。核心步骤有两步：

在__init__方法中定义网络层；
在forward方法中实现前向传播逻辑（数据流经各层的顺序）。

以一个简单的手写数字识别模型为例：

python

运行

这种方式的优点是可以自由定义前向传播逻辑，比如添加分支、跳过层等，缺点是需要手动编写每一层的连接关系，对于简单模型来说有些繁琐。

2. 使用 nn.Sequential：按顺序搭积木，简单高效

nn.Sequential是 PyTorch 提供的 “层容器”，可以按顺序将多个层组合成一个模型，无需手动编写forward方法，适合构建结构简单、层与层顺序连接的网络（如 LeNet、简单全连接网络）。它有三种常用的构建方式：

（1）可变参数方式：快速搭建，无层名称

直接将层作为可变参数传入，缺点是无法给每层指定名称，不利于后续调试和查看

（2）add_module 方法：手动指定层名称

通过add_module("层名称", 层实例)的方式添加层，便于后续通过名称访问特定层

（3）OrderedDict 方式：有序字典，清晰规范

使用collections.OrderedDict构建层字典，既可以指定层名称，又能保证层的顺序，是工程中推荐的方式

nn.Sequential的优点是代码简洁，无需编写forward方法，缺点是只能实现层的顺序连接，无法处理分支、跳跃连接等复杂结构。

3. 继承 nn.Module + 模型容器：兼顾灵活与简洁

对于中等复杂度的网络（如包含多个子模块的网络），可以结合nn.Module和模型容器（nn.Sequential、nn.ModuleList、nn.ModuleDict），将网络拆分为多个子模块，既保证灵活性，又简化代码。

（1）用 nn.Sequential 封装子模块

比如将前面的全连接网络拆分为 “特征提取层” 和 “输出层”，用nn.Sequential封装子模块

（2）nn.ModuleList：像列表一样管理层

nn.ModuleList可以像 Python 列表一样存储多个层，支持索引访问，适合需要动态调整层数量的场景（如根据参数决定层数）

（3）nn.ModuleDict：用字典管理层，支持名称访问

nn.ModuleDict用字典的形式存储层，通过键（名称）访问层，适合需要根据条件选择不同层的场景

这种 “基类 + 容器” 的方式，既保留了nn.Module的灵活性，又借助容器简化了层的管理，是实际项目中最常用的模型构建方式。

四、自定义网络模块：以 ResNet 残差块为例

对于复杂网络（如 ResNet、Transformer），需要自定义基础模块，再组合成完整模型。这里以 ResNet 的残差块为例，讲解如何实现自定义模块。

ResNet 的核心是 “残差连接”—— 将输入直接加到网络层的输出上，解决深层网络的梯度消失问题。残差块主要分为两种：

1. 普通残差块（RestNetBasicBlock）：输入输出形状一致

当输入和输出的通道数、分辨率相同时，直接将输入与输出相加

2. 下采样残差块（RestNetDownBlock）：输入输出形状不同

当输入和输出的通道数或分辨率不同时，需要用 1×1 卷积调整输入的形状，再进行残差连接

3. 组合残差块构建 ResNet18

有了基础残差块，就可以组合成完整的 ResNet18 模型：

python

运行

自定义模块的关键在于：先实现最小功能单元（如残差块），再通过容器组合成复杂网络，这样既便于调试，又能提高代码复用性。

五、模型训练的通用流程

构建好模型后，就进入训练阶段。PyTorch 模型训练有一套通用流程，无论是分类、回归还是其他任务，都可以参考这个框架：

1. 加载预处理数据集

首先需要加载数据，并进行预处理（如归一化、数据增强），PyTorch 的torch.utils.data.DataLoader可以方便地实现批量加载和多线程处理

2. 定义损失函数和优化器

根据任务类型选择合适的损失函数（如分类用交叉熵损失，回归用 MSE 损失），并选择优化器（如 Adam、SGD）：

python

运行

# 定义模型、损失函数、优化器
model = DigitModel()  # 前面定义的手写数字识别模型
criterion = nn.CrossEntropyLoss()  # 交叉熵损失（适用于分类任务）
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)  # Adam优化器，学习率1e-3

3. 循环训练模型

训练过程通常包含多个 epoch，每个 epoch 又分为训练阶段和验证阶段：

python

运行

4. 可视化结果

训练过程中可以用 TensorBoard 或 Matplotlib 可视化损失和准确率，便于分析模型训练情况

运行tensorboard --logdir=./logs即可在浏览器中查看可视化结果。

六、总结

通过这段时间的学习，我对 PyTorch 神经网络工具箱的理解从 “零散知识点” 变成了 “系统框架”：

核心组件是基础，理解层、模型、损失函数、优化器的协作逻辑，就能明白神经网络的工作原理；
构建工具是关键，nn.Module适合构建可训练模块，nn.functional适合灵活实现函数功能，二者结合使用效率最高；
模型构建方式需根据复杂度选择，简单模型用nn.Sequential，复杂模型用 “继承 nn.Module + 容器”，自定义模块则需实现最小功能单元；
训练流程是通用框架，加载数据→定义损失和优化器→循环训练→可视化，掌握这套流程就能应对大多数深度学习任务。

PyTorch 的灵活性在于它没有强制的 “标准答案”，但也要求我们对每个组件的原理有清晰的认识。后续我会尝试用这些知识解决实际问题（如图像分类、目标检测），在实践中加深理解。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2025大模型训练框架选型：AI架构师必须关注的3个新兴技术（JAX_Megatron-LM_Colossal-AI）

当GPT-4的万亿参数模型刷新认知、Gemini的多模态能力突破边界时，大模型的“规模竞赛”早已转向“训练效率竞赛”。用PyTorch训练100B参数模型时，分布式通信开销占比高达60%，训练速度慢到“无法忍受”；用TensorFlow 2.x调试模型结构时，静态图的“僵化”让迭代周期拉长3倍；为了优化显存占用，手动拆分模型层到十几个GPU，却因并行策略错误导致性能不升反降。核心问题现有通用框架的