零基础入门PyTorch肺部感染案例实践（ResNet迁移学习）——超详细保姆级教程系列

本文为零基础开发者提供PyTorch肺部感染分类实战指南，基于ResNet迁移学习技术，详解从数据集预处理（随机裁剪/旋转/色彩增强）、模型微调（池化层重构+全连接层改造）到训练流程搭建（梯度管理/损失优化/TensorBoard监控）的全链路实践，重点解决Loss震荡、GPU显存不足等常见问题，最终通过可视化训练结果验证模型效果，配套完整项目源码助力医疗影像分析入门。

unique_williams

2579人浏览 · 2025-02-25 16:22:58

unique_williams · 2025-02-25 16:22:58 发布

训练流程

一、项目准备

（一）数据集下载（肺部感染数据集）

二、数据集预处理（构建transforms）

（二）通过 DataLoader 读取数据

五、获取并微调预训练模型（替代ResNet池化层与全连接层）

六、定义训练方法（理解迁移学习的核心训练流程）

（二）使用TensorBoard可视化结果

模型训练流程

1、数据集预处理
2、加载数据集
3、获取微调预训练模型
4、定义训练方法
5、定义测试方法
6、开始训练

一、项目准备

（一）数据集下载（肺部感染数据集）

Kaggle官网下载地址：Chest X-Ray Images (Pneumonia) | Kaggle

嘻嘻，当然你也可以网盘下载：Chest X-Ray数据集下载——百度网盘

~~呜呜，数据集1.14G，上传蓝奏云不太方便哩~~

下载后解压后如下图所示（注意放到代码所在的同级文件夹下哦~）：

数据集共分三个类别，如下所示：

数据类别	NORMAL	PNEUMONIA
train	1341	3875
val	8	8
test	234	390

（二）项目必要库

import torch
import torch.nn as nn
import numpy as np
import torch.optim as optim
from torchvision import transforms, datasets, models, utils
from torchsummary import summary # 可视化训练过程
from torch.utils.data import DataLoader
import time
import matplotlib.pyplot as plt
import os
import seaborn as sns
import pandas as pd
from mlxtend.plotting import plot_confusion_matrix
from sklearn.metrics import confusion_matrix
from PIL import Image

本项目torch、numpy、torchvision、torchsummary、seaborn、pandas、mlxtend、sklearn需要提前下载哦~

除了Pytorch，其他都可以在当前虚拟环境下直接使用 pip 安装。

pip install 包名

PyTorch未安装的同学可以参考下方博客哦~零基础入门PyTorch手写数字识别实战教程（含PyTorch环境搭建）——CNN篇_阿里云 cu126-CSDN博客https://blog.csdn.net/2401_83325465/article/details/145535002

二、数据集预处理（构建transforms）

（一）不同数据的预处理

本数据集共分为'train'，'val'，'test'三种数据，其中我们只需要对'train'的数据进行随机化处理，其他两种数据只需要标准化处理即可

随机化处理包括但不限于：随机长宽比裁剪，随机角度旋转，亮度、对比度和饱和度随机改变，随机水平翻转。

1、随机长宽比裁剪

功能：随机长宽比裁剪原始图片, 表示随机 crop 出来的图片会在的 0.08 倍至 1.1 倍之间

transforms.RandomResizedCrop(size=300, scale=(0.8, 1.1))

2、随机角度旋转

功能：根据 degrees 随机旋转一定角度, 则表示在（-10，+10）度之间随机旋转

transforms.RandomRotation(degrees=10)

3、亮度、对比度和饱和度随机改变

功能：修改亮度、对比度和饱和度

transforms.ColorJitter(0.4, 0.4, 0.4)

4、随机水平翻转

功能：水平翻转

transforms.RandomHorizontalFlip()

5、中心裁剪

功能：根据给定的 size 从中心进行裁剪

transforms.CenterCrop(size=256)

6、转换数据格式

功能：将数据从 numpy 格式转换成 tensor

transforms.ToTensor()

7、标准化处理

功能：对数据按通道进行标准化处理

transforms.Normalize([0.485, 0.456, 0.406],    # mean
                     [0.229, 0.224, 0.225])    # std

（二）处理源代码

# 分为为train, val, test定义transform
image_transforms = {
    'train' : transforms.Compose([
        transforms.RandomResizedCrop(size=300, scale=(0.8, 1.1)),
        transforms.RandomRotation(degrees=10),
        transforms.ColorJitter(0.4, 0.4, 0.4),
        transforms.RandomHorizontalFlip(),
        transforms.CenterCrop(size=256),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406],
                             [0.229, 0.224, 0.225])
    ]),
    
    'val' : transforms.Compose([
        transforms.Resize(300),
        transforms.CenterCrop(256),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406],
                             [0.229, 0.224, 0.225])
    ]),
    
    'test' : transforms.Compose([
        transforms.Resize(300),
        transforms.CenterCrop(256),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406],
                             [0.229, 0.224, 0.225])
    ])
}

三、加载数据集

（一）从文件中读取数据

由于我们已经提前创建好了 transforms 通道，因此此处只需调用ImageFolder函数就行啦！

datasets = {
    'train' : datasets.ImageFolder(train_dir, transform=image_transforms['train']), # 读取train中的数据集，并transform
    'val' : datasets.ImageFolder(val_dir, transform=image_transforms['val']),  # 读取val中的数据集，并transform
    'test' : datasets.ImageFolder(test_dir, transform=image_transforms['test']) #  读取test中的数据集，并transform
}

（二）通过 DataLoader 读取数据

dataloaders = {
    'train' : DataLoader(datasets['train'], batch_size=BATCH_SIZE, shuffle=True), # 训练集
    'val' : DataLoader(datasets['val'], batch_size=BATCH_SIZE, shuffle=True), # 验证集
    'test' : DataLoader(datasets['test'], batch_size=BATCH_SIZE, shuffle=True) # 测试集
}

（三）创建 Label 键值对

此处是为了提高后续代码的可读性。

LABEL = dict((v, k) for k, v in datasets['train'].class_to_idx.items())

四、定义日志函数，记录错误分类的图片

在模型训练过程中，记录错误分类的样本对改进模型性能具有重要意义。本章将详细讲解如何使用TensorBoard的日志功能记录错误分类的肺部影像，帮助后续进行错误分析。

（一）日志系统搭建

我们通过 tb_writer()函数创建 TensorBoard 日志记录器：

from torch.utils.tensorboard import SummaryWriter
import time

def tb_writer():
    timestr = time.strftime("%Y%m%d_%H%M%S")  # 生成时间戳
    writer = SummaryWriter('logdir/' + timestr)  # 创建带时间戳的日志目录
    return writer

实现特点：

使用%Y%m%d_%H%M%S时间格式确保日志目录唯一性
日志存储在 logdir /目录下（需提前创建该目录）
返回的 writer 对象用于后续所有日志记录

（二）错误分类记录函数

核心函数 misclassified_images 实现错误样本记录：

def misclassified_images(pred, writer, target, images, output, epoch, count=10):
    # 定位错误分类样本
    misclassified = (pred != target.data)
    
    # 记录前count个错误样本
    for index, image_tensor in enumerate(images[misclassified][:count]):
        # 生成带语义的图片名称
        img_name = f'Epoch:{epoch}-->Predict:{LABEL[pred[misclassified].tolist()[index]]}-->Actual:{LABEL[target.data[misclassified].tolist()[index]]}'
        
        # 写入TensorBoard
        writer.add_image(img_name, image_tensor, epoch)

参数说明：

pred: 模型预测结果
target: 真实标签
images: 原始图像张量
count: 每个epoch最多记录的错误样本数

（三）集成到训练流程

在训练主函数中调用记录函数：

def train_epochs(...):
    for epoch in range(epochs):
        # 训练验证流程...
        
        # 在适当位置调用错误分类记录
        with torch.no_grad():
            outputs = model(images)
            _, preds = torch.max(outputs, 1)
            misclassified_images(preds, writer, labels, images, outputs, epoch)
        
        writer.flush()  # 确保日志写入磁盘

五、获取并微调预训练模型（替代ResNet池化层与全连接层）

（一）获取预训练模型

我们采用经典的ResNet50作为基础模型，通过PyTorch官方提供的预训练权重进行初始化：

model = models.resnet50(pretrained=True)

这里使用pretrained=True参数会自动下载在ImageNet数据集上预训练的模型参数。对于医学图像任务，预训练模型已经具备良好的特征提取能力，特别适合数据量相对较小的肺部感染分类任务。

冻结参数操作：

for param in model.parameters():
    param.requires_grad = False

通过将requires_grad设为False，可以冻结所有网络层的参数更新。这样做既能保留预训练模型的特征提取能力，又能显著减少训练时的计算量。

（二）改进池化层结构

原ResNet的池化层结构较为简单，我们通过自定义的AdaptiveConcatPool2d实现特征增强：

改进方案解析

class AdaptiveConcatPool2d(nn.Module):
    def __init__(self, size=None):
        super().__init__()
        self.avgPooling = nn.AdaptiveAvgPool2d(size or (1,1))
        self.maxPooling = nn.AdaptiveMaxPool2d(size or (1,1))
        
    def forward(self, x):
        return torch.cat([self.maxPooling(x), self.avgPooling(x)], dim=1)

设计特点	作用说明
双路池化	同时保留最大响应特征和平均分布特征
自适应池化	自动调整池化核尺寸，适配不同尺寸的特征图
通道维度拼接	将两种池化结果在通道维度拼接（dim=1），使特征信息量翻倍

为何改进池化层？ 最大池化擅长捕捉显著特征，平均池化反映整体分布特征。肺部感染病灶的形态多样性需要这种互补的特征表达方式。

（三）重构全连接层

原模型的1000类分类头不适合二分类任务，我们重新设计分类器：

model.fc = nn.Sequential(
    nn.Flatten(),
    nn.BatchNorm1d(4096),
# 输入特征维度计算：ResNet50最终特征图通道数2048 * 双路池化2 = 4096
    nn.Dropout(0.5),
    nn.Linear(4096, 512),
    nn.ReLU(),
    nn.BatchNorm1d(512),
    nn.Dropout(0.5),
    nn.Linear(512, 2),
    nn.LogSoftmax(dim=1)
)

关键组件说明

Batch Normalization
加速训练收敛，缓解梯度消失/爆炸问题。在Flatten后立即使用，标准化高维特征
Dropout正则化
设置0.5的丢弃概率，强制网络学习冗余特征，有效防止过拟合
阶梯式降维
从4096→512→2的维度设计，逐步压缩特征空间，保留关键分类信息
LogSoftmax输出
配合NLLLoss损失函数，直接输出对数概率，提升数值稳定性

（四）模型微调策略

本方案采用部分微调策略：

冻结特征提取器：保留卷积层的预训练参数，防止小数据过拟合
微调分类器：仅训练新增的池化层和全连接层参数
可扩展方案：若数据量允许，可解冻最后2-3个卷积块进行微调

通过这种设计，既利用了预训练模型的强大特征提取能力，又让模型能够学习到适应特定任务的分类决策边界。这种策略在医学影像处理中尤为有效，因为底层特征（如边缘、纹理）在不同图像领域具有通用性，而高层特征组合需要针对具体病症进行调整。

（五）截取源码

自适应池化层：

class AdaptiveConcatPool2d(nn.Module):
    def __init__(self, size=None):
        super(AdaptiveConcatPool2d,self).__init__()
        size = size or (1, 1) # kernel大小
        # 自适应算法能够自动帮助我们计算核的大小和每次移动的步长。
        self.avgPooling = nn.AdaptiveAvgPool2d(size) # 自适应平均池化
        self.maxPooling = nn.AdaptiveMaxPool2d(size) # 最大池化
    def forward(self, x):
        # 拼接avg和max
        return torch.cat([self.maxPooling(x), self.avgPooling(x)], dim=1)

迁移学习：

# 迁移学习：获取预训练模型，并替换池化层和全连接层
def get_model():
    # 获取欲训练模型 restnet50
    model = models.resnet50(pretrained=True)
    # 冻结模型参数
    for param in model.parameters():
        param.requires_grad = False
    # 替换最后2层：池化层和全连接层
    # 池化层
    model.avgpool = AdaptiveConcatPool2d()
    # 全连接层
    model.fc = nn.Sequential(
        nn.Flatten(), # 拉平
        nn.BatchNorm1d(4096), # 加速神经网络的收敛过程，提高训练过程中的稳定性
        nn.Dropout(0.5), # 丢掉部分神经元
        nn.Linear(4096, 512), # 全连接层
        nn.ReLU(), # 激活函数
        nn.BatchNorm1d(512),
        nn.Dropout(0.5),
        nn.Linear(512, 2), # 2个输出
        nn.LogSoftmax(dim=1) # 损失函数：将input转换成概率分布的形式，输出2个概率
    )
    return model