深度学习入门Day5：现代CNN架构与迁移学习实战

4. **[HuggingFace视觉库](https://huggingface.co/docs/transformers/v4.37.2/en/model_doc/vision)**：最新视觉模型集合。1. **[ResNet原始论文](https://arxiv.org/abs/1512.03385)**：深度学习里程碑式工作。2. **[Fast.ai课程](https://course.

m0_71614333

259人浏览 · 2025-08-02 11:05:21

m0_71614333 · 2025-08-02 11:05:21 发布

一、开篇：深度网络的进化革命

当传统CNN网络深度超过20层时，准确率反而开始下降——这一反直觉现象曾困扰着研究者们，直到残差连接（ResNet）的出现打破了深度限制。今天我们将探索这一革命性设计，并掌握迁移学习这一实用技能，让预训练模型为我们所用。从理论到部署，完成工业级深度学习应用的完整闭环。

二、上午攻坚：深度CNN架构精析

2.1残差连接原理与实现

经典残差块结构：

class ResidualBlock(nn.Module):
  def __init__(self, in_channels, out_channels, stride=1):
    super().__init__()
    self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3,
               stride=stride, padding=1, bias=False)
    self.bn1 = nn.BatchNorm2d(out_channels)
    self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3,
               stride=1, padding=1, bias=False)
    self.bn2 = nn.BatchNorm2d(out_channels)
       
    # 下采样捷径
    self.shortcut = nn.Sequential()
    if stride != 1 or in_channels != out_channels:
      self.shortcut = nn.Sequential(
        nn.Conv2d(in_channels, out_channels, kernel_size=1,
            stride=stride, bias=False),
        nn.BatchNorm2d(out_channels)
      )

  def forward(self, x):
    out = F.relu(self.bn1(self.conv1(x)))
    out = self.bn2(self.conv2(out))
    out += self.shortcut(x) # 残差连接
    out = F.relu(out)
    return out

残差连接效果对比：

网络类型	层数	Top-1错误率	训练难度
普通CNN	34	28.5%	难收敛
ResNet	34	24.0%	易训练
ResNet	152	21.3%	可训练

2.2现代架构对比实验

CIFAR-10测试结果：

models = {
  'VGG16': vgg16(pretrained=False),
  'ResNet18': resnet18(pretrained=False),
  'MobileNetV2': mobilenet_v2(pretrained=False)
}
for name, model in models.items():
  # 统一训练设置
  optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
  train(model, train_loader, test_loader, epochs=10)
   
  # 计算参数量
  params = sum(p.numel() for p in model.parameters())
  print(f"{name}: 参数量={params/1e6:.2f}M, 测试准确率={test_acc:.2f}%")

架构特性对比表：

架构	核心创新	参数量	适用场景
VGG	小卷积核堆叠	138M	高精度
ResNet	残差连接	11.7M-60M	深度网络
MobileNet	深度可分离卷积	3.5M	移动端

三、下午实战：迁移学习精要

3.1 PyTorch迁移学习三策略

from torchvision import models

# 方法1：特征提取（冻结卷积层）
model = models.resnet50(pretrained=True)
for param in model.parameters(): # 冻结所有参数
  param.requires_grad = False
model.fc = nn.Linear(2048, num_classes) # 替换最后一层

# 方法2：部分微调（解冻高层）
for param in model.layer4.parameters():
  param.requires_grad = True

# 方法3：完整微调（解冻全部）
for param in model.parameters():
  param.requires_grad = True

3.2 医学影像分类实战

皮肤癌检测数据集处理：

# 自定义数据集
class SkinCancerDataset(Dataset):
  def __init__(self, img_dir, transform=None):
    self.img_dir = img_dir
    self.transform = transform
    self.classes = ['良性', '恶性'] 
    
  def __len__(self):
    return len(os.listdir(self.img_dir))
  
  def __getitem__(self, idx):
    img_path = os.path.join(self.img_dir, f"{idx}.jpg")
    image = Image.open(img_path).convert('RGB')
    label = 0 if "benign" in img_path else 1   
    
    if self.transform:
      image = self.transform(image)   
    return image, label

# 数据增强
train_transform = transforms.Compose([
  transforms.RandomResizedCrop(224),
  transforms.RandomHorizontalFlip(),
  transforms.ColorJitter(0.2, 0.2, 0.2),
  transforms.ToTensor(),
  transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

迁移学习效果对比：

方法	训练时间	准确率	所需数据量
从头训练	4小时	78%	大量
特征提取	30分钟	85%	中等
完整微调	2小时	92%	少量

四、部署实践：模型产品化

4.1 模型保存与加载

# 保存完整模型
torch.save(model, 'skin_cancer_resnet50.pt')

# 保存状态字典（推荐）
torch.save({
  'model_state': model.state_dict(),
  'optimizer_state': optimizer.state_dict(),
}, 'checkpoint.pth')

# 加载模型
checkpoint = torch.load('checkpoint.pth')
model.load_state_dict(checkpoint['model_state'])

4.2 Flask API部署

from flask import Flask, request, jsonify
import torchvision.transforms as transforms
from PIL import Image

app = Flask(__name__)
model = torch.load('model.pt').eval()

@app.route('/predict', methods=['POST'])
def predict():
  # 接收图像
  file = request.files['image']
  img = Image.open(file.stream).convert('RGB')
  
  # 预处理
  transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
  ])
  img_tensor = transform(img).unsqueeze(0)
  
  # 预测
  with torch.no_grad():
    output = model(img_tensor)
  
  return jsonify({
    'prediction': '恶性' if output.argmax() == 1 else '良性',
    'confidence': float(torch.sigmoid(output[0,1]))
  })

if __name__ == '__main__':
  app.run(host='0.0.0.0', port=5000)

4.3 ONNX格式转换

dummy_input = torch.randn(1, 3, 224, 224)
torch.onnx.export(model, dummy_input, "model.onnx",
        input_names=["input"], output_names=["output"],
        dynamic_axes={"input": {0: "batch"}, "output": {0: "batch"}})

五、学习总结与明日计划

5.1 今日核心成果

理解残差连接解决梯度消失的原理
实现ResNet并对比传统CNN性能差异
掌握三种迁移学习策略及应用场景
完成模型部署基础实践

5.2 待探索方向

自注意力机制在CV中的应用（Vision Transformer）
模型量化与剪枝的具体实现
分布式训练加速技巧

5.3 明日学习重点

循环神经网络（RNN）基础原理
LSTM/GRU解决长期依赖问题
时序数据预处理方法
股票预测或文本生成小项目

六、资源推荐与延伸阅读

6.1 资源推荐

ResNet原始论文：深度学习里程碑式工作
Fast.ai课程：最实用的迁移学习教程
ONNX Runtime文档：跨平台部署解决方案
HuggingFace视觉库：最新视觉模型集合

七、关键经验总结

7.1 残差网络使用技巧

初始学习率设置比普通CNN小（约0.001）
配合BN层效果更好
适用于超过20层的深度网络

7.2 迁移学习策略选择

数据量	推荐方法	学习率设置
非常少(<1k)	特征提取	1e-4~1e-3
中等(1k-10k)	部分微调	1e-4~5e-4
大量(>10k)	完整微调	1e-5~1e-4

7.3 部署注意事项

保持训练和推理的预处理一致
注意内存管理（大模型需要裁剪）
考虑使用TorchScript提升推理速度

> "残差连接的美妙之处在于，它让网络可以选择忽略不必要的层，从而实现了真正的深度学习。" —— Kaiming He（ResNet作者）

---

**下篇预告**：《Day6：循环神经网络入门—时序数据处理之道》
将探索RNN的独特魅力，并实现第一个文本生成模型

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

DPO相比SFT，有哪些优劣？它在agent任务上效果明显吗，你怎么构造偏好对？构造逻辑时自动的还是人工的？

SFT(监督微调)和DPO(直接偏好优化)是模型优化的两个关键阶段。SFT通过模仿标准答案注入知识，但存在答案固化、无法学习相对偏好的局限；DPO则通过对比学习人类偏好，能优化思考路径、工具选择等复杂决策。在Agent任务中，DPO效果显著，可优化思考链、提升鲁棒性和效率。偏好数据构造需人机结合：初期人工确定标准，后期用模型对比、规则修改等方式自动化扩展，辅以AI裁判和人工审核。DPO是构建高质量