PyTorch 生态与昇腾平台适配实践

PyTorch生态与昇腾AI平台的适配实践，重点探讨了ResNet-50模型迁移的全流程

二哈喇子！

362人浏览 · 2026-01-10 09:56:32

二哈喇子！ · 2026-01-10 09:56:32 发布

文章目录

前言
PyTorch 生态与昇腾平台适配实践

前言

提示：这里可以添加本文要记录的大概内容：

随着人工智能技术的快速发展，PyTorch 作为主流深度学习框架之一，其生态系统的完善性和易用性受到了广大开发者的青睐。而昇腾（Ascend）平台作为国产AI硬件的代表，凭借其卓越的计算性能和能效比，在AI计算领域占据了重要地位。将 PyTorch 生态与昇腾平台深度融合，成为推动AI技术落地应用的关键环节。本文将围绕 PyTorch 与昇腾的适配核心需求，结合 A10a（小模型迁移）和 A19a（算子注册）等实际案例，系统介绍从模型迁移到算子开发再到精度保障的全流程实践。

PyTorch 生态与昇腾平台适配实践

1. 小模型迁移与精度调优

1.1 实战案例：ResNet-50图像分类迁移

环境准备与验证

# 环境检查脚本
import torch
import torch_npu
import numpy as np

def check_environment():
    print(f"PyTorch版本: {torch.__version__}")
    print(f"torch_npu版本: {torch_npu.__version__}")
    
    # 检查NPU设备
    if torch_npu.npu.is_available():
        device_count = torch_npu.npu.device_count()
        print(f"发现 {device_count} 个NPU设备")
        
        for i in range(device_count):
            print(f"NPU {i}: {torch_npu.npu.get_device_name(i)}")
            print(f"  计算能力: {torch_npu.npu.get_device_capability(i)}")
    else:
        print("NPU不可用")
    
    # 设置默认设备
    device = torch.device("npu:0")
    print(f"使用设备: {device}")
    return device

device = check_environment()

完整的ResNet-50迁移实战

import torch
import torch_npu
import torch.nn as nn
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader
import time
from tqdm import tqdm

class ResNet50Trainer:
    def __init__(self, device):
        self.device = device
        self.model = None
        self.optimizer = None
        self.criterion = None
        
    def setup_data(self):
        """数据准备"""
        print("准备CIFAR-10数据集...")
        
        # 数据预处理
        transform_train = transforms.Compose([
            transforms.RandomCrop(32, padding=4),
            transforms.RandomHorizontalFlip(),
            transforms.ToTensor(),
            transforms.Normalize((0.4914, 0.4822, 0.4465), 
                               (0.2023, 0.1994, 0.2010)),
        ])

        transform_test = transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize((0.4914, 0.4822, 0.4465), 
                               (0.2023, 0.1994, 0.2010)),
        ])

        # 下载数据集
        trainset = torchvision.datasets.CIFAR10(
            root='./data', train=True, download=True, transform=transform_train)
        testset = torchvision.datasets.CIFAR10(
            root='./data', train=False, download=True, transform=transform_test)

        # 数据加载器
        self.train_loader = DataLoader(
            trainset, batch_size=128, shuffle=True, num_workers=4)
        self.test_loader = DataLoader(
            testset, batch_size=100, shuffle=False, num_workers=4)
        
        print(f"训练集: {len(trainset)} 样本")
        print(f"测试集: {len(testset)} 样本")

    def setup_model(self):
        """模型初始化"""
        print("初始化ResNet-50模型...")
        
        # 加载预训练模型
        self.model = torchvision.models.resnet50(pretrained=True)
        
        # 修改最后一层适应CIFAR-10的10个类别
        self.model.fc = nn.Linear(self.model.fc.in_features, 10)
        
        # 转移到NPU
        self.model = self.model.to(self.device)
        
        # 优化器和损失函数
        self.optimizer = torch.optim.SGD(
            self.model.parameters(), lr=0.01, momentum=0.9, weight_decay=5e-4)
        self.scheduler = torch.optim.lr_scheduler.StepLR(
            self.optimizer, step_size=30, gamma=0.1)
        self.criterion = nn.CrossEntropyLoss().to(self.device)
        
        print("模型初始化完成")

    def train_epoch(self, epoch):
        """训练一个epoch"""
        self.model.train()
        train_loss = 0
        correct = 0
        total = 0
        
        pbar = tqdm(self.train_loader, desc=f'Epoch {epoch}')
        
        for batch_idx, (inputs, targets) in enumerate(pbar):
            inputs, targets = inputs.to(self.device), targets.to(self.device)
            
            self.optimizer.zero_grad()
            outputs = self.model(inputs)
            loss = self.criterion(outputs, targets)
            loss.backward()
            self.optimizer.step()

            train_loss += loss.item()
            _, predicted = outputs.max(1)
            total += targets.size(0)
            correct += predicted.eq(targets).sum().item()

            pbar.set_postfix({
                'Loss': f'{loss.item():.3f}',
                'Acc': f'{100.*correct/total:.2f}%'
            })
        
        accuracy = 100. * correct / total
        avg_loss = train_loss / len(self.train_loader)
        
        return avg_loss, accuracy

    def test(self):
        """测试模型"""
        self.model.eval()
        test_loss = 0
        correct = 0
        total = 0
        
        with torch.no_grad():
            for inputs, targets in self.test_loader:
                inputs, targets = inputs.to(self.device), targets.to(self.device)
                outputs = self.model(inputs)
                loss = self.criterion(outputs, targets)

                test_loss += loss.item()
                _, predicted = outputs.max(1)
                total += targets.size(0)
                correct += predicted.eq(targets).sum().item()

        accuracy = 100. * correct / total
        avg_loss = test_loss / len(self.test_loader)
        
        return avg_loss, accuracy

    def run_training(self, epochs=10):
        """运行完整训练流程"""
        print("开始训练...")
        
        best_accuracy = 0
        training_times = []
        
        for epoch in range(epochs):
            start_time = time.time()
            
            # 训练
            train_loss, train_acc = self.train_epoch(epoch)
            
            # 测试
            test_loss, test_acc = self.test()
            
            epoch_time = time.time() - start_time
            training_times.append(epoch_time)
            
            # 学习率调整
            self.scheduler.step()
            
            print(f'Epoch: {epoch} | Time: {epoch_time:.2f}s')
            print(f'Train Loss: {train_loss:.4f} | Train Acc: {train_acc:.2f}%')
            print(f'Test Loss: {test_loss:.4f} | Test Acc: {test_acc:.2f}%')
            print('-' * 50)
            
            # 保存最佳模型
            if test_acc > best_accuracy:
                best_accuracy = test_acc
                torch.save(self.model.state_dict(), 'best_resnet50_cifar10.pth')
        
        avg_time = np.mean(training_times)
        print(f'训练完成! 最佳准确率: {best_accuracy:.2f}%')
        print(f'平均每个epoch时间: {avg_time:.2f}s')
        
        return best_accuracy, avg_time

# 运行实战
def main():
    device = check_environment()
    
    trainer = ResNet50Trainer(device)
    trainer.setup_data()
    trainer.setup_model()
    
    best_acc, avg_time = trainer.run_training(epochs=5)
    
    print(f"\n实战结果总结:")
    print(f"设备: {device}")
    print(f"最佳测试准确率: {best_acc:.2f}%")
    print(f"平均训练时间: {avg_time:.2f}s/epoch")

if __name__ == "__main__":
    main()

1.2 精度调优实战：精度问题排查

精度对比分析工具

class PrecisionAnalyzer:
    def __init__(self, cpu_model, npu_model, device):
        self.cpu_model = cpu_model
        self.npu_model = npu_model
        self.device = device
        
    def compare_predictions(self, test_loader, num_batches=5):
        """对比CPU和NPU预测结果"""
        self.cpu_model.eval()
        self.npu_model.eval()
        
        cpu_predictions = []
        npu_predictions = []
        differences = []
        
        with torch.no_grad():
            for i, (inputs, targets) in enumerate(test_loader):
                if i >= num_batches:
                    break
                    
                # CPU推理
                cpu_outputs = self.cpu_model(inputs)
                cpu_probs = torch.softmax(cpu_outputs, dim=1)
                
                # NPU推理
                npu_inputs = inputs.to(self.device)
                npu_outputs = self.npu_model(npu_inputs)
                npu_probs = torch.softmax(npu_outputs.cpu(), dim=1)
                
                # 计算差异
                diff = torch.abs(cpu_probs - npu_probs)
                max_diff = diff.max().item()
                mean_diff = diff.mean().item()
                
                differences.append({
                    'batch': i,
                    'max_diff': max_diff,
                    'mean_diff': mean_diff
                })
                
                print(f'Batch {i}: 最大差异={max_diff:.6f}, 平均差异={mean_diff:.6f}')
                
        return differences
    
    def analyze_layer_outputs(self, input_sample):
        """分析各层输出差异"""
        print("分析各层输出差异...")
        
        # 注册hook收集中间输出
        cpu_outputs = {}
        npu_outputs = {}
        
        def get_hook(name, storage):
            def hook(module, input, output):
                storage[name] = output.detach()
            return hook
        
        # 为各层注册hook
        cpu_hooks = []
        npu_hooks = []
        
        for name, module in self.cpu_model.named_modules():
            if isinstance(module, (nn.Conv2d, nn.BatchNorm2d, nn.Linear)):
                hook = module.register_forward_hook(get_hook(name, cpu_outputs))
                cpu_hooks.append(hook)
                
        for name, module in self.npu_model.named_modules():
            if isinstance(module, (nn.Conv2d, nn.BatchNorm2d, nn.Linear)):
                hook = module.register_forward_hook(get_hook(name, npu_outputs))
                npu_hooks.append(hook)
        
        # 前向传播
        with torch.no_grad():
            _ = self.cpu_model(input_sample)
            _ = self.npu_model(input_sample.to(self.device))
        
        # 分析差异
        layer_differences = []
        for layer_name in cpu_outputs.keys():
            if layer_name in npu_outputs:
                cpu_out = cpu_outputs[layer_name]
                npu_out = npu_outputs[layer_name].cpu()
                
                diff = torch.abs(cpu_out - npu_out)
                max_diff = diff.max().item()
                mean_diff = diff.mean().item()
                
                layer_differences.append({
                    'layer': layer_name,
                    'max_diff': max_diff,
                    'mean_diff': mean_diff
                })
                
                if max_diff > 1e-4:
                    print(f"⚠️  层 {layer_name}: 最大差异={max_diff:.6f}")
        
        # 移除hook
        for hook in cpu_hooks + npu_hooks:
            hook.remove()
            
        return layer_differences

# 使用精度分析工具
def precision_debug_demo():
    """精度调试演示"""
    device = torch.device("npu:0")
    
    # 创建相同模型的CPU和NPU版本
    cpu_model = torchvision.models.resnet50(pretrained=True)
    cpu_model.fc = nn.Linear(cpu_model.fc.in_features, 10)
    
    npu_model = torchvision.models.resnet50(pretrained=True)
    npu_model.fc = nn.Linear(npu_model.fc.in_features, 10)
    npu_model = npu_model.to(device)
    
    # 创建分析器
    analyzer = PrecisionAnalyzer(cpu_model, npu_model, device)
    
    # 创建测试数据
    transform = transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize((0.4914, 0.4822, 0.4465), 
                           (0.2023, 0.1994, 0.2010)),
    ])
    
    testset = torchvision.datasets.CIFAR10(
        root='./data', train=False, download=True, transform=transform)
    test_loader = DataLoader(testset, batch_size=32, shuffle=False)
    
    print("=== 预测结果对比 ===")
    pred_diffs = analyzer.compare_predictions(test_loader)
    
    print("\n=== 层输出分析 ===")
    sample_input, _ = next(iter(test_loader))
    layer_diffs = analyzer.analyze_layer_outputs(sample_input[0:1])
    
    return pred_diffs, layer_diffs

2. 自定义算子开发实战

2.1 实战案例：自定义Swish激活函数

完整的算子开发流程

import torch
import torch_npu
import torch.nn as nn
from torch.utils.cpp_extension import load_inline
import os

# 自定义Swish激活函数的C++实现
swish_cpp_source = """
#include <torch/extension.h>
#include <torch_npu/npu_framework.h>

torch::Tensor swish_forward(const torch::Tensor& input) {
    // 前向传播: x * sigmoid(x)
    torch::Tensor output = torch::empty_like(input);
    
    // 调用昇腾AI计算接口
    aclError ret = aclopSigmoid(
        input.data_ptr(),
        output.data_ptr(),
        input.sizes().data(),
        input.dim(),
        input.scalar_type(),
        nullptr);
    
    if (ret != ACL_ERROR_NONE) {
        throw std::runtime_error("Sigmoid operation failed in swish forward");
    }
    
    output = input * output;
    return output;
}

torch::Tensor swish_backward(
    const torch::Tensor& grad_output,
    const torch::Tensor& input) {
    
    torch::Tensor sigmoid_x = torch::sigmoid(input);
    torch::Tensor grad_input = grad_output * (sigmoid_x + input * sigmoid_x * (1 - sigmoid_x));
    
    return grad_input;
}

PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
    m.def("swish_forward", &swish_forward, "Swish forward");
    m.def("swish_backward", &swish_backward, "Swish backward");
}
"""

class SwishFunction(torch.autograd.Function):
    @staticmethod
    def forward(ctx, input):
        ctx.save_for_backward(input)
        return swish_forward(input)
    
    @staticmethod
    def backward(ctx, grad_output):
        input, = ctx.saved_tensors
        return swish_backward(grad_output, input)

class Swish(nn.Module):
    """自定义Swish激活函数"""
    def __init__(self):
        super().__init__()
    
    def forward(self, x):
        return SwishFunction.apply(x)

# 编译自定义算子
def compile_custom_ops():
    """编译自定义算子"""
    try:
        # 尝试加载预编译的算子
        from custom_ops import swish_forward, swish_backward
        print("成功加载预编译的自定义算子")
        return swish_forward, swish_backward
    except ImportError:
        print("编译自定义算子...")
        
        # 内联编译
        swish_ops = load_inline(
            name='swish_ops',
            cpp_sources=swish_cpp_source,
            functions=['swish_forward', 'swish_backward'],
            with_npu=True,
            extra_include_paths=[
                '/usr/local/Ascend/ascend-toolkit/latest/include/'
            ],
            extra_ldflags=[
                '-L/usr/local/Ascend/ascend-toolkit/latest/lib64/',
                '-lascendcl'
            ],
            verbose=True
        )
        
        print("自定义算子编译完成")
        return swish_ops.swish_forward, swish_ops.swish_backward

# 测试自定义算子
def test_swish_operator():
    """测试自定义Swish算子"""
    print("测试自定义Swish激活函数...")
    
    # 编译算子
    swish_forward, swish_backward = compile_custom_ops()
    
    # 创建测试数据
    x = torch.randn(4, 16, 32, 32, requires_grad=True)
    x_npu = x.npu()
    
    print(f"输入形状: {x.shape}")
    print(f"输入设备: {x_npu.device}")
    
    # 测试前向传播
    with torch.no_grad():
        y_npu = SwishFunction.apply(x_npu)
        print(f"输出形状: {y_npu.shape}")
        print(f"输出范围: [{y_npu.min().item():.4f}, {y_npu.max().item():.4f}]")
    
    # 测试梯度计算
    x_npu.requires_grad_(True)
    y_npu = SwishFunction.apply(x_npu)
    loss = y_npu.sum()
    loss.backward()
    
    print(f"梯度计算完成，梯度形状: {x_npu.grad.shape}")
    
    # 与参考实现对比
    class ReferenceSwish(nn.Module):
        def forward(self, x):
            return x * torch.sigmoid(x)
    
    ref_swish = ReferenceSwish()
    x_cpu = x.clone().detach().requires_grad_(True)
    y_ref = ref_swish(x_cpu)
    loss_ref = y_ref.sum()
    loss_ref.backward()
    
    # 对比结果
    output_diff = torch.abs(y_npu.cpu() - y_ref).max().item()
    grad_diff = torch.abs(x_npu.grad.cpu() - x_cpu.grad).max().item()
    
    print(f"前向输出最大差异: {output_diff:.6f}")
    print(f"反向梯度最大差异: {grad_diff:.6f}")
    
    if output_diff < 1e-4 and grad_diff < 1e-4:
        print("✅ 自定义算子测试通过!")
    else:
        print("❌ 自定义算子测试失败!")
    
    return output_diff, grad_diff

# 在真实模型中使用自定义算子
class CustomSwishNetwork(nn.Module):
    """使用自定义Swish算子的网络"""
    def __init__(self, num_classes=10):
        super().__init__()
        
        self.features = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=3, padding=1),
            nn.BatchNorm2d(64),
            Swish(),  # 使用自定义Swish
            
            nn.Conv2d(64, 128, kernel_size=3, padding=1),
            nn.BatchNorm2d(128),
            Swish(),
            
            nn.AdaptiveAvgPool2d((1, 1))
        )
        
        self.classifier = nn.Linear(128, num_classes)
    
    def forward(self, x):
        x = self.features(x)
        x = x.view(x.size(0), -1)
        x = self.classifier(x)
        return x

def benchmark_custom_operator():
    """性能基准测试"""
    print("开始性能基准测试...")
    
    device = torch.device("npu:0")
    model = CustomSwishNetwork().to(device)
    
    # 测试数据
    inputs = torch.randn(64, 3, 32, 32).to(device)
    
    # 预热
    print("预热运行...")
    for _ in range(10):
        _ = model(inputs)
    
    # 性能测试
    torch.npu.synchronize()
    start_time = time.time()
    
    num_iterations = 100
    for _ in range(num_iterations):
        _ = model(inputs)
    
    torch.npu.synchronize()
    end_time = time.time()
    
    total_time = end_time - start_time
    throughput = num_iterations * inputs.size(0) / total_time
    
    print(f"总时间: {total_time:.2f}s")
    print(f"吞吐量: {throughput:.2f} samples/s")
    
    return throughput

3. 算法定制落地实战

3.1 实战案例：YOLOv5目标检测优化

完整的YOLOv5昇腾优化实现

import torch
import torch_npu
import torch.nn as nn
from torch.utils.data import DataLoader
import cv2
import numpy as np
from pathlib import Path

class YOLOv5NPUOptimizer:
    """YOLOv5在昇腾平台上的优化器"""
    
    def __init__(self, model_path, device):
        self.device = device
        self.model = self.load_model(model_path)
        self.optimized = False
        
    def load_model(self, model_path):
        """加载YOLOv5模型"""
        try:
            # 这里使用简化的YOLOv5结构作为示例
            from models.yolo import Model
            model = Model(model_path)
            model = model.to(self.device)
            print(f"成功加载YOLOv5模型: {model_path}")
            return model
        except ImportError:
            print("使用简化版YOLOv5进行演示")
            return self.create_demo_model()
    
    def create_demo_model(self):
        """创建演示用的简化YOLOv5模型"""
        class DemoYOLOv5(nn.Module):
            def __init__(self):
                super().__init__()
                # 简化版骨干网络
                self.backbone = nn.Sequential(
                    # 初始卷积层
                    nn.Conv2d(3, 32, 3, 2, 1),
                    nn.BatchNorm2d(32),
                    nn.SiLU(),
                    
                    # 更多层...
                    nn.Conv2d(32, 64, 3, 2, 1),
                    nn.BatchNorm2d(64),
                    nn.SiLU(),
                )
                
                # 检测头
                self.detection_head = nn.Conv2d(64, 85, 1)  # 85 = 4box + 1obj + 80classes
            
            def forward(self, x):
                features = self.backbone(x)
                predictions = self.detection_head(features)
                return predictions
        
        model = DemoYOLOv5().to(self.device)
        return model
    
    def apply_optimizations(self):
        """应用NPU优化策略"""
        if self.optimized:
            return
            
        print("应用NPU优化策略...")
        
        # 1. 启用混合精度
        self.model.half()
        
        # 2. 图编译优化
        torch_npu.npu.set_compile_mode(jit_compile=True)
        
        # 3. 算子融合
        self.fuse_conv_bn()
        
        # 4. 内存优化
        torch_npu.npu.set_memory_strategy(True)
        
        self.optimized = True
        print("NPU优化完成")
    
    def fuse_conv_bn(self):
        """融合卷积和批归一化层"""
        print("融合Conv-BN层...")
        
        fused_layers = 0
        for name, module in self.model.named_children():
            if isinstance(module, nn.Sequential):
                for i in range(len(module) - 1):
                    if (isinstance(module[i], nn.Conv2d) and 
                        isinstance(module[i+1], nn.BatchNorm2d)):
                        # 融合Conv和BN
                        fused_conv = self.fuse_conv_bn_layer(module[i], module[i+1])
                        module[i] = fused_conv
                        module[i+1] = nn.Identity()
                        fused_layers += 1
        
        print(f"融合了 {fused_layers} 个Conv-BN层")
    
    def fuse_conv_bn_layer(self, conv, bn):
        """融合单个Conv-BN层"""
        fused_conv = nn.Conv2d(
            conv.in_channels,
            conv.out_channels,
            kernel_size=conv.kernel_size,
            stride=conv.stride,
            padding=conv.padding,
            bias=True
        ).to(self.device)
        
        # 计算融合后的权重和偏置
        fused_conv.weight.data = (bn.weight / torch.sqrt(bn.running_var + bn.eps)) \
                                .view(-1, 1, 1, 1) * conv.weight.data
        fused_conv.bias.data = (conv.bias - bn.running_mean) * bn.weight \
                              / torch.sqrt(bn.running_var + bn.eps) + bn.bias
        
        return fused_conv
    
    def preprocess_image(self, image_path):
        """图像预处理"""
        # 读取图像
        image = cv2.imread(image_path)
        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
        
        # 调整大小
        h, w = image.shape[:2]
        new_size = 640
        scale = min(new_size / h, new_size / w)
        
        new_h, new_w = int(h * scale), int(w * scale)
        image_resized = cv2.resize(image, (new_w, new_h))
        
        # 填充到正方形
        padded_image = np.full((new_size, new_size, 3), 114, dtype=np.uint8)
        padded_image[:new_h, :new_w] = image_resized
        
        # 转换为Tensor
        tensor_image = torch.from_numpy(padded_image).float() / 255.0
        tensor_image = tensor_image.permute(2, 0, 1).unsqueeze(0)  # CHW -> NCHW
        
        return tensor_image.to(self.device), (w, h), scale
    
    def inference(self, image_path, confidence_threshold=0.25):
        """推理单张图像"""
        self.model.eval()
        
        # 预处理
        input_tensor, original_size, scale = self.preprocess_image(image_path)
        
        # 转换为半精度
        if self.optimized:
            input_tensor = input_tensor.half()
        
        # 推理
        with torch.no_grad():
            start_time = time.time()
            outputs = self.model(input_tensor)
            inference_time = time.time() - start_time
        
        # 后处理
        detections = self.postprocess(outputs, original_size, scale, confidence_threshold)
        
        print(f"推理时间: {inference_time * 1000:.2f}ms")
        print(f"检测到 {len(detections)} 个目标")
        
        return detections, inference_time
    
    def postprocess(self, outputs, original_size, scale, confidence_threshold):
        """后处理检测结果"""
        # 简化的后处理逻辑
        detections = []
        
        # 这里应该是复杂的后处理，包括NMS等
        # 为了演示简化处理
        
        return detections
    
    def benchmark_performance(self, image_dir, num_images=100):
        """性能基准测试"""
        print(f"开始性能测试，使用 {num_images} 张图像...")
        
        # 获取测试图像
        image_paths = list(Path(image_dir).glob("*.jpg"))[:num_images]
        if not image_paths:
            print("未找到测试图像，使用虚拟数据")
            image_paths = ['demo'] * num_images
        
        # 预热
        print("预热运行...")
        for _ in range(10):
            _ = self.model(torch.randn(1, 3, 640, 640).to(self.device))
        
        # 性能测试
        inference_times = []
        
        for i, image_path in enumerate(image_paths):
            if image_path == 'demo':
                # 使用虚拟数据
                input_tensor = torch.randn(1, 3, 640, 640).to(self.device)
                if self.optimized:
                    input_tensor = input_tensor.half()
                
                start_time = time.time()
                with torch.no_grad():
                    _ = self.model(input_tensor)
                torch.npu.synchronize()
                inference_time = time.time() - start_time
            else:
                _, inference_time = self.inference(str(image_path))
            
            inference_times.append(inference_time)
            
            if (i + 1) % 10 == 0:
                print(f"已处理 {i + 1}/{len(image_paths)} 张图像")
        
        # 统计结果
        avg_time = np.mean(inference_times) * 1000  # 转换为毫秒
        fps = 1000 / avg_time
        
        print(f"\n性能测试结果:")
        print(f"平均推理时间: {avg_time:.2f}ms")
        print(f"帧率: {fps:.2f} FPS")
        print(f"总处理时间: {np.sum(inference_times):.2f}s")
        
        return avg_time, fps

# 完整的实战演示
def yolov5_npu_demo():
    """YOLOv5 NPU优化完整演示"""
    print("=" * 50)
    print("YOLOv5 昇腾平台优化实战")
    print("=" * 50)
    
    device = torch.device("npu:0")
    
    # 创建优化器
    optimizer = YOLOv5NPUOptimizer("yolov5s.pt", device)
    
    # 应用优化
    optimizer.apply_optimizations()
    
    # 性能测试
    print("\n1. 优化前性能:")
    # 这里可以保存优化前的状态进行对比
    avg_time_before, fps_before = optimizer.benchmark_performance("./images")
    
    print("\n2. 优化后性能:")
    avg_time_after, fps_after = optimizer.benchmark_performance("./images")
    
    # 性能提升计算
    speedup = avg_time_before / avg_time_after
    fps_improvement = (fps_after - fps_before) / fps_before * 100
    
    print(f"\n性能提升总结:")
    print(f"推理时间减少: {avg_time_before - avg_time_after:.2f}ms")
    print(f"速度提升: {speedup:.2f}x")
    print(f"FPS提升: {fps_improvement:.2f}%")
    
    return {
        'avg_time_before': avg_time_before,
        'avg_time_after': avg_time_after,
        'speedup': speedup,
        'fps_improvement': fps_improvement
    }

if __name__ == "__main__":
    # 运行ResNet-50迁移实战
    print("=== ResNet-50 迁移实战 ===")
    main()
    
    print("\n" + "="*60 + "\n")
    
    # 运行自定义算子实战
    print("=== 自定义Swish算子实战 ===")
    test_swish_operator()
    benchmark_custom_operator()
    
    print("\n" + "="*60 + "\n")
    
    # 运行YOLOv5优化实战
    print("=== YOLOv5 NPU优化实战 ===")
    yolov5_npu_demo()

3.2 性能监控与分析工具

class NPUPerformanceMonitor:
    """NPU性能监控工具"""
    
    def __init__(self, device):
        self.device = device
        self.metrics = {}
        
    def start_monitoring(self):
        """开始性能监控"""
        self.metrics = {
            'inference_times': [],
            'memory_usage': [],
            'utilization': []
        }
        
    def record_inference(self, inference_time):
        """记录推理时间"""
        self.metrics['inference_times'].append(inference_time)
    
    def get_memory_info(self):
        """获取内存信息"""
        if hasattr(torch_npu.npu, 'memory_allocated'):
            allocated = torch_npu.npu.memory_allocated(self.device) / 1024**3  # GB
            cached = torch_npu.npu.memory_cached(self.device) / 1024**3  # GB
            return allocated, cached
        return 0, 0
    
    def generate_report(self):
        """生成性能报告"""
        if not self.metrics['inference_times']:
            return "没有性能数据"
        
        times = self.metrics['inference_times']
        
        report = {
            'total_inferences': len(times),
            'avg_inference_time': np.mean(times) * 1000,  # ms
            'min_inference_time': np.min(times) * 1000,
            'max_inference_time': np.max(times) * 1000,
            'throughput': len(times) / np.sum(times),  # FPS
            'percentile_95': np.percentile(times, 95) * 1000,
            'percentile_99': np.percentile(times, 99) * 1000
        }
        
        print("\n" + "="*50)
        print("NPU 性能分析报告")
        print("="*50)
        for key, value in report.items():
            if 'time' in key:
                print(f"{key:.<30} {value:>8.2f} ms")
            elif 'throughput' in key:
                print(f"{key:.<30} {value:>8.2f} FPS")
            else:
                print(f"{key:.<30} {value:>8}")
        
        return report

# 使用示例
def comprehensive_demo():
    """综合演示所有实战内容"""
    monitor = NPUPerformanceMonitor(torch.device("npu:0"))
    monitor.start_monitoring()
    
    # 运行各个实战案例
    print("开始综合演示...")
    
    # 1. 模型迁移实战
    print("\n1. 运行模型迁移实战...")
    device = check_environment()
    trainer = ResNet50Trainer(device)
    trainer.setup_data()
    trainer.setup_model()
    best_acc, avg_time = trainer.run_training(epochs=2)
    monitor.record_inference(avg_time)
    
    # 2. 自定义算子实战
    print("\n2. 运行自定义算子实战...")
    output_diff, grad_diff = test_swish_operator()
    
    # 3. 算法优化实战
    print("\n3. 运行算法优化实战...")
    yolov5_results = yolov5_npu_demo()
    
    # 生成最终报告
    print("\n" + "="*60)
    print("综合实战总结报告")
    print("="*60)
    print(f"📊 模型迁移 - ResNet50 最佳准确率: {best_acc:.2f}%")
    print(f"⚡ 自定义算子 - Swish 输出差异: {output_diff:.6f}")
    print(f"🎯 算法优化 - YOLOv5 速度提升: {yolov5_results['speedup']:.2f}x")
    
    final_report = monitor.generate_report()
    return final_report

# 运行完整演示
if __name__ == "__main__":
    comprehensive_demo()