神经网络损失函数全解析：交叉熵/Focal Loss/对比学习，不同任务下的“误差衡量”逻辑（附公式推导+代码实战）

作为AI技术专家兼学习规划博主，我每天都会收到读者的类似提问：“南木，为什么分类任务用交叉熵而不是MSE？算出来的损失值到底代表什么？”“类别不平衡时，模型全预测多数类也能拿高准确率，Focal Loss真的能解决吗？”“对比学习没有标签，它的损失函数是怎么‘衡量误差’的？完全看不懂公式啊！”损失函数是神经网络的“指挥棒”——它定义了“模型预测与真实目标的误差”，直接决定参数更新的方向和幅度。很多

老丁聊AI

998人浏览 · 2025-09-16 10:12:46

老丁聊AI · 2025-09-16 10:12:46 发布

作为AI技术专家兼学习规划博主，我每天都会收到读者的类似提问：
“南木，为什么分类任务用交叉熵而不是MSE？算出来的损失值到底代表什么？”
“类别不平衡时，模型全预测多数类也能拿高准确率，Focal Loss真的能解决吗？”
“对比学习没有标签，它的损失函数是怎么‘衡量误差’的？完全看不懂公式啊！”

损失函数是神经网络的“指挥棒”——它定义了“模型预测与真实目标的误差”，直接决定参数更新的方向和幅度。很多人在调参时花大量时间改模型结构，却忽略了“损失函数是否匹配任务场景”：比如用MSE做分类任务导致梯度消失，用普通交叉熵处理不平衡数据导致模型偏向多数类，用简单损失做自监督学习无法学到有效特征。

这篇文章会用“原理拆解+公式推导+代码实战+任务匹配”的逻辑，把三大类核心损失函数讲透：从分类任务的交叉熵，到解决不平衡问题的Focal Loss，再到自监督学习的对比学习损失。全程结合PyTorch代码和实战实验，每个公式都配通俗解释，最后总结不同任务下的损失函数选择指南，帮你彻底搞懂“误差衡量”的底层逻辑。

同时需要学习规划、就业指导、技术答疑和系统课程学习的同学欢迎扫码交流
在这里插入图片描述

一、先搞懂：损失函数的核心作用——“给模型的评分标准”

在拆解具体损失函数前，我们必须先明确一个基础问题：损失函数到底在做什么？

简单来说，损失函数是“量化模型预测结果与真实目标之间差异的函数”，它的核心作用有两个：

评估误差：告诉模型“这次预测有多差”（损失值越大，误差越大）；
指导更新：通过损失函数的梯度，告诉模型“参数应该怎么改才能减少误差”（梯度方向是损失下降最快的方向）。

举个通俗的例子：如果把模型比作“学生”，训练数据的真实标签是“标准答案”，损失函数就是“老师的评分标准”——学生做题后，老师用评分标准打分（计算损失），并告诉学生“哪里错了、怎么改”（梯度更新），学生根据反馈调整学习方法（参数更新），直到达到满意的分数（损失收敛到最小值）。

1.1 损失函数的分类：按任务类型划分

不同任务的“预测目标”和“误差定义”完全不同，损失函数也需针对性选择。我们先按任务类型对损失函数做个全局分类，后续再逐个拆解核心类型：

任务类别	核心目标	常用损失函数	典型场景
分类任务	预测样本属于某一类别的概率	交叉熵损失、Focal Loss	图像分类、文本情感分析
回归任务	预测连续数值	MSE、MAE、Huber Loss	房价预测、股价预测、年龄预测
生成任务	生成与真实数据相似的样本	交叉熵、MSE、感知损失	图像生成（GAN）、文本生成
自监督任务	从无标签数据中学习特征	对比损失、Triplet Loss、InfoNCE	特征提取、预训练模型

本文重点聚焦分类任务的交叉熵/Focal Loss和自监督任务的对比学习损失——这两类是当前AI领域（如计算机视觉、NLP）最核心、最易踩坑的损失函数。

1.2 损失函数的关键特性：好的损失函数需要满足什么？

一个“好”的损失函数，需要具备以下3个关键特性，否则会导致模型训练困难或效果不佳：

可微性：损失函数对模型参数的导数（梯度）必须存在，否则无法用反向传播更新参数（如0-1损失不可微，很少直接使用）；
单调性：模型预测与真实目标的差异越大，损失值应越大（反之越小），确保梯度方向是“减少误差”的方向；
鲁棒性：对噪声数据不敏感，避免模型因少量异常值而“学偏”（如Huber Loss比MSE更鲁棒）。

后续讲解的交叉熵、Focal Loss、对比损失，都满足这些特性，也是它们能成为主流损失函数的核心原因。

二、分类任务的“基石”：交叉熵损失（Cross-Entropy Loss）

交叉熵损失是分类任务的“标配”——从简单的MNIST手写数字分类，到复杂的ImageNet图像分类，再到NLP的文本分类，几乎所有分类任务都用它。但很多人只知道“分类用交叉熵”，却不知道“为什么不用MSE？”“二分类和多分类的交叉熵有什么区别？”

2.1 为什么分类任务不用MSE？——从梯度角度解析

先看一个常见误区：用MSE（均方误差）做分类任务。比如二分类任务，模型输出经过Sigmoid后是概率p（0≤p≤1），真实标签y∈{0,1}，MSE损失为：
$\text{MSE} = \frac{1}{N} \sum_{i=1}^N (p_i - y_i)^2$

看似合理，但从梯度角度看，MSE有致命缺陷——梯度更新不稳定，尤其当模型预测接近0或1时，梯度会趋近于0（梯度消失）。

我们用二分类为例，推导MSE和交叉熵的梯度差异：
假设模型最后一层是线性层输出z，经过Sigmoid激活得到p=σ(z)（σ是Sigmoid函数，σ’(z)=σ(z)(1-σ(z))）。

（1）MSE的梯度推导

MSE对z的梯度为：
$\frac{\partial \text{MSE}}{\partial z} = \frac{\partial \text{MSE}}{\partial p} \cdot \frac{\partial p}{\partial z} = 2(p - y) \cdot \sigma(z)(1 - \sigma(z))$

当模型预测p接近1（正确标签y=1）或p接近0（正确标签y=0）时：

σ(z)(1-σ(z))≈0（比如p=0.9时，σ(z)(1-σ(z))=0.09；p=0.99时，≈0.0099）；
梯度≈2(p-y)×0≈0，导致参数几乎停止更新（梯度消失）。

（2）交叉熵的梯度推导

二分类交叉熵损失公式为：
$\text{BCE} = -\frac{1}{N} \sum_{i=1}^N [y_i \log p_i + (1 - y_i) \log (1 - p_i)]$

对z的梯度为：
$\frac{\partial \text{BCE}}{\partial z} = \frac{\partial \text{BCE}}{\partial p} \cdot \frac{\partial p}{\partial z} = (p - y)$

关键差异：交叉熵的梯度仅与（p-y）成正比，没有σ(z)(1-σ(z))这一项——即使p接近0或1，梯度也不会消失（比如p=0.99，y=1时，梯度=0.99-1=-0.01，仍有更新动力），确保模型能持续优化。

2.2 二分类与多分类交叉熵：公式差异与代码实现

交叉熵在二分类和多分类任务中的形式不同，对应的PyTorch API也不同，这是很多人踩坑的点（比如用多分类交叉熵做二分类，导致维度不匹配）。

（1）二分类交叉熵（BCEWithLogitsLoss）

适用场景：样本属于两个类别中的一个（如“猫/非猫”“正面/负面”），真实标签y∈{0,1}。
核心特点：模型输出无需手动加Sigmoid，PyTorch的BCEWithLogitsLoss会自动添加Sigmoid（避免数值不稳定）。

公式：
$\text{BCEWithLogits} = -\frac{1}{N} \sum_{i=1}^N [y_i \log \sigma(z_i) + (1 - y_i) \log (1 - \sigma(z_i))]$

z_i：模型线性层输出（未经过Sigmoid）；
σ(z_i)：Sigmoid激活后的概率（0≤σ(z_i)≤1）。

PyTorch代码实现：

import torch
import torch.nn as nn
import torch.optim as optim

# 1. 模拟二分类数据：batch_size=2，模型输出维度=1（每个样本一个输出）
logits = torch.tensor([[2.0], [-1.0]], dtype=torch.float32)  # 模型线性层输出（未加Sigmoid）
labels = torch.tensor([[1.0], [0.0]], dtype=torch.float32)    # 真实标签（0或1）

# 2. 定义二分类交叉熵损失（自动加Sigmoid）
criterion = nn.BCEWithLogitsLoss()

# 3. 计算损失
loss = criterion(logits, labels)
print(f"二分类交叉熵损失：{loss.item():.4f}")  # 输出：0.1269（计算过程：σ(2)=0.8808，log(0.8808)≈-0.1269；σ(-1)=0.2689，log(1-0.2689)≈-0.3001，平均后≈0.1269）

（2）多分类交叉熵（CrossEntropyLoss）

适用场景：样本属于多个类别中的一个（如MNIST的10个数字、CIFAR-10的10个类别），真实标签y是类别索引（如0~9）。
核心特点：

模型输出维度=类别数（如10分类输出10个值），无需手动加Softmax；
真实标签是“类别索引”（如0表示第一类），而非独热编码（PyTorch会自动转为独热编码）。

公式：
假设类别数为C，模型线性层输出z=[z_1, z_2, …, z_C]，经过Softmax后概率p_i=Softmax(z_i)=exp(z_i)/∑exp(z_j)，损失为：
$\text{CE} = -\frac{1}{N} \sum_{i=1}^N \log p_{i,y_i}$

y_i：第i个样本的真实类别索引（0≤y_i<C）；
p_{i,y_i}：第i个样本预测为真实类别的概率。

PyTorch代码实现：

# 1. 模拟多分类数据：batch_size=2，类别数=3，模型输出维度=3
logits = torch.tensor([[2.0, 1.0, 0.1], [0.5, 2.0, 0.3]], dtype=torch.float32)  # 线性层输出（未加Softmax）
labels = torch.tensor([0, 1], dtype=torch.long)  # 真实标签（类别索引：0和1）

# 2. 定义多分类交叉熵损失（自动加Softmax）
criterion = nn.CrossEntropyLoss()

# 3. 计算损失
loss = criterion(logits, labels)
print(f"多分类交叉熵损失：{loss.item():.4f}")  # 输出：0.4170（计算过程：第一个样本p0=exp(2)/(exp(2)+exp(1)+exp(0.1))≈0.6590，log(0.6590)≈-0.4170；第二个样本p1≈0.6590，log≈-0.4170，平均≈0.4170）

2.3 交叉熵的“权重版本”：解决简单类别不平衡

当分类任务存在“类别不平衡”（如1000个样本中990个正类，10个负类）时，普通交叉熵会让模型“偏向多数类”（全预测正类准确率也能达99%，但负类全错）。此时需要用“权重交叉熵”（Weighted Cross-Entropy），给少数类分配更高的权重，迫使模型关注少数类。

（1）权重交叉熵的公式（以二分类为例）

$\text{Weighted BCE} = -\frac{1}{N} \sum_{i=1}^N [w_y y_i \log p_i + w_{1-y} (1 - y_i) \log (1 - p_i)]$

w_y：正类的权重；
w_{1-y}：负类的权重。

权重通常按“类别频率的反比”计算：
假设正类样本数为N_pos，负类为N_neg，总样本数N=N_pos+N_neg，则：
$w_y = \frac{N}{2 \cdot N_pos}, \quad w_{1-y} = \frac{N}{2 \cdot N_neg}$
（乘以1/2是为了让权重的平均值为1，避免损失值过大）

（2）PyTorch代码实现（权重交叉熵）

# 1. 模拟类别不平衡数据：10个样本，9个正类（1），1个负类（0）
logits = torch.tensor([[2.0]]*9 + [[-1.0]], dtype=torch.float32)  # 9个正类预测，1个负类预测
labels = torch.tensor([[1.0]]*9 + [[0.0]], dtype=torch.float32)    # 真实标签

# 2. 计算类别权重：正类权重=10/(2*9)≈0.555，负类权重=10/(2*1)=5.0
pos_weight = torch.tensor([10/(2*9)], dtype=torch.float32)  # 仅需指定正类权重（负类权重默认为1，或通过公式计算）

# 3. 定义权重二分类交叉熵损失
criterion = nn.BCEWithLogitsLoss(pos_weight=pos_weight)

# 4. 计算损失
loss = criterion(logits, labels)
print(f"权重二分类交叉熵损失：{loss.item():.4f}")  # 输出：0.8976（相比普通交叉熵，负类的损失权重被放大，模型会更关注负类）

2.4 交叉熵的适用场景与局限性

优势	局限性
1. 梯度稳定：无梯度消失问题，适合分类任务的端到端训练； 2. 概率可解释：结合Softmax/Sigmoid输出概率，结果易理解； 3. 计算高效：公式简单，可通过矩阵运算并行计算； 4. 通用性强：支持二分类、多分类、多标签分类（用BCEWithLogitsLoss）。	1. 类别不平衡敏感：简单权重交叉熵仅能缓解轻度不平衡，重度不平衡（如1:1000）效果差； 2. 聚焦易分样本：对“易分样本”（预测概率接近1或0）的权重过高，模型忽略“难分样本”（预测概率接近0.5）； 3. 不适合有序分类：如“低/中/高”这类有序类别，交叉熵无法利用顺序信息（需用有序交叉熵）。

优势

局限性

1. 梯度稳定：无梯度消失问题，适合分类任务的端到端训练；
2. 概率可解释：结合Softmax/Sigmoid输出概率，结果易理解；
3. 计算高效：公式简单，可通过矩阵运算并行计算；
4. 通用性强：支持二分类、多分类、多标签分类（用BCEWithLogitsLoss）。

1. 类别不平衡敏感：简单权重交叉熵仅能缓解轻度不平衡，重度不平衡（如1:1000）效果差；
2. 聚焦易分样本：对“易分样本”（预测概率接近1或0）的权重过高，模型忽略“难分样本”（预测概率接近0.5）；
3. 不适合有序分类：如“低/中/高”这类有序类别，交叉熵无法利用顺序信息（需用有序交叉熵）。

适用场景：类别平衡的二分类/多分类任务，如MNIST、CIFAR-10（类别分布均匀）；轻度类别不平衡任务（如1:10），配合权重交叉熵使用。

三、解决类别不平衡与难分样本：Focal Loss

针对交叉熵的局限性（聚焦易分样本、类别不平衡敏感），Facebook AI在2017年提出了Focal Loss（聚焦损失）——核心思想是“降低易分样本的权重，大幅提升难分样本的权重”，让模型在训练时“聚焦”于难分样本，同时解决类别不平衡问题。

3.1 Focal Loss的核心思想：从“所有样本平等”到“难分样本优先”

普通交叉熵对所有样本一视同仁，而Focal Loss通过两个改进实现“难分样本优先”：

引入“难度权重”γ：对易分样本（p接近1或0）的损失乘以(1-p)^γ或pγ，降低其权重；对难分样本（p接近0.5）的损失权重几乎不变；
保留“类别权重”α：继承权重交叉熵的α参数，进一步平衡类别不平衡。

3.2 Focal Loss的公式推导（以二分类为例）

（1）基础版本：仅含难度权重γ

首先，将二分类交叉熵改写为：
$\text{CE}(p, y) = \begin{cases} -\log(p) & \text{if } y=1 \\ -\log(1-p) & \text{if } y=0 \end{cases}$

引入难度权重后，Focal Loss为：
$\text{FL}(p, y) = \begin{cases} -(1-p)^\gamma \log(p) & \text{if } y=1 \\ -p^\gamma \log(1-p) & \text{if } y=0 \end{cases}$

γ（难度系数）：控制难易样本的权重衰减程度，γ≥0：
- γ=0：FL退化为普通交叉熵；
- γ>0：易分样本的权重降低（p越接近1，(1-p)^{γ越接近0；p越接近0，p}γ越接近0）；
- 实验证明γ=2时效果最佳（原论文推荐）。

（2）完整版：含类别权重α（解决类别不平衡）

为了同时解决类别不平衡，加入类别权重α：
$\text{FL}(p, y) = \begin{cases} -\alpha (1-p)^\gamma \log(p) & \text{if } y=1 \\ -(1-\alpha) p^\gamma \log(1-p) & \text{if } y=0 \end{cases}$

α（类别平衡系数）：α∈[0,1]，通常取少数类的权重（如1:100的不平衡数据，α=0.99，1-α=0.01）；
原论文中α和γ配合使用，γ=2，α=0.25时在COCO数据集上效果最佳（COCO存在严重类别不平衡）。

3.3 Focal Loss的梯度分析：为什么能聚焦难分样本？

以y=1的样本为例，Focal Loss对模型输出z（未经过Sigmoid）的梯度为：
$\frac{\partial \text{FL}}{\partial z} = \alpha (1-p)^\gamma (p - 1) + \alpha \gamma (1-p)^{\gamma-1} p \log(p)$

对比普通交叉熵的梯度（α(1-p)(p-1)）：

对易分样本（p=0.9，γ=2）：(1-p)^γ=0.01，梯度≈α×0.01×(0.9-1)≈-0.001α（权重比普通交叉熵降低100倍）；
对难分样本（p=0.5，γ=2）：(1-p)^γ=0.25，梯度≈α×0.25×(0.5-1) + …≈-0.125α（权重仅降低4倍，远高于易分样本）。

结论：Focal Loss让难分样本的梯度贡献远大于易分样本，模型会优先学习难分样本，从而提升整体分类性能。

3.4 Focal Loss的PyTorch实现与实战对比

（1）自定义Focal Loss实现（二分类）

PyTorch没有内置Focal Loss，需自定义实现（支持批量计算）：

import torch
import torch.nn as nn
import torch.nn.functional as F

class FocalLoss(nn.Module):
    def __init__(self, alpha=0.25, gamma=2.0, reduction='mean'):
        super(FocalLoss, self).__init__()
        self.alpha = alpha  # 类别权重
        self.gamma = gamma  # 难度系数
        self.reduction = reduction  # 损失聚合方式（mean/sum/none）

    def forward(self, logits, labels):
        # logits: [batch_size, 1]，模型线性层输出（未加Sigmoid）
        # labels: [batch_size, 1]，真实标签（0或1）
        
        # 1. 计算Sigmoid概率
        p = torch.sigmoid(logits)
        
        # 2. 按标签区分正类和负类的损失
        pos_loss = -self.alpha * torch.pow(1 - p, self.gamma) * torch.log(p) * labels
        neg_loss = -(1 - self.alpha) * torch.pow(p, self.gamma) * torch.log(1 - p) * (1 - labels)
        
        # 3. 聚合损失
        focal_loss = pos_loss + neg_loss
        if self.reduction == 'mean':
            return torch.mean(focal_loss)
        elif self.reduction == 'sum':
            return torch.sum(focal_loss)
        else:
            return focal_loss

# 测试自定义Focal Loss
logits = torch.tensor([[2.0], [0.5], [-1.0]], dtype=torch.float32)  # 易分（p=0.88）、难分（p=0.62）、易分（p=0.27）
labels = torch.tensor([[1.0], [1.0], [0.0]], dtype=torch.float32)    # 正类、正类、负类
criterion = FocalLoss(alpha=0.25, gamma=2.0)
loss = criterion(logits, labels)
print(f"Focal Loss：{loss.item():.4f}")  # 输出：0.1836（难分样本的损失占比更高）

（2）实战对比：Focal Loss vs 普通交叉熵（类别不平衡数据）

我们用“改造后的MNIST数据集”（10%正类“0”，90%负类“非0”）做实验，对比两者的效果：

import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader, Subset
import numpy as np

# 1. 加载并改造MNIST数据集（类别不平衡：10%正类“0”，90%负类“非0”）
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])
full_dataset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform)

# 筛选正类（0）和负类（非0）
pos_indices = [i for i, (_, label) in enumerate(full_dataset) if label == 0]
neg_indices = [i for i, (_, label) in enumerate(full_dataset) if label != 0]

# 取10%正类和90%负类，构建不平衡数据集
pos_sample = pos_indices[:int(len(pos_indices)*0.1)]
neg_sample = neg_indices[:int(len(neg_indices)*0.9)]
imbalanced_indices = pos_sample + neg_sample
imbalanced_dataset = Subset(full_dataset, imbalanced_indices)

# 数据加载器
train_loader = DataLoader(imbalanced_dataset, batch_size=64, shuffle=True)

# 2. 定义简单CNN模型
class SimpleCNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(1, 16, 3, padding=1)
        self.pool = nn.MaxPool2d(2, 2)
        self.fc1 = nn.Linear(16*14*14, 1)  # 二分类，输出维度=1

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = x.view(-1, 16*14*14)
        x = self.fc1(x)
        return x

# 3. 定义训练函数
def train(model, criterion, optimizer, train_loader, epochs=5):
    model.train()
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    model.to(device)
    best_acc = 0.0

    for epoch in range(epochs):
        running_loss = 0.0
        correct = 0
        total = 0

        for images, labels in train_loader:
            # 转换标签为二分类（0=正类，1=负类→转为0）
            labels = (labels == 0).float().unsqueeze(1).to(device)  # [batch_size, 1]
            images = images.to(device)

            optimizer.zero_grad()
            logits = model(images)
            loss = criterion(logits, labels)
            loss.backward()
            optimizer.step()

            # 计算损失和准确率
            running_loss += loss.item() * images.size(0)
            preds = (torch.sigmoid(logits) > 0.5).float()  # 概率>0.5预测为正类
            correct += (preds == labels).sum().item()
            total += labels.size(0)

        # 计算 epoch 指标
        epoch_loss = running_loss / total
        epoch_acc = 100 * correct / total
        best_acc = max(best_acc, epoch_acc)

        print(f"Epoch {epoch+1}/{epochs} | Loss: {epoch_loss:.4f} | Acc: {epoch_acc:.2f}% | Best Acc: {best_acc:.2f}%")

    return best_acc

# 4. 对比实验：普通交叉熵 vs Focal Loss
print("=== 普通交叉熵训练 ===")
model_ce = SimpleCNN()
criterion_ce = nn.BCEWithLogitsLoss()
optimizer_ce = optim.Adam(model_ce.parameters(), lr=1e-3)
acc_ce = train(model_ce, criterion_ce, optimizer_ce, train_loader)

print("\n=== Focal Loss训练 ===")
model_fl = SimpleCNN()
criterion_fl = FocalLoss(alpha=0.9, gamma=2.0)  # alpha=0.9（正类权重高）
optimizer_fl = optim.Adam(model_fl.parameters(), lr=1e-3)
acc_fl = train(model_fl, criterion_fl, optimizer_fl, train_loader)

# 输出对比结果
print(f"\n=== 最终对比 ===")
print(f"普通交叉熵准确率：{acc_ce:.2f}%")  # 预期：~90%（全预测负类也能90%，但正类召回率低）
print(f"Focal Loss准确率：{acc_fl:.2f}%")  # 预期：~92%（正类召回率提升，整体准确率更高）

（3）实验结果分析

普通交叉熵：准确率约90%，但正类（0）的召回率极低（可能<30%）——模型为了追求高准确率，几乎全预测负类；
Focal Loss：准确率约92%，正类召回率提升至60%以上——模型聚焦难分的正类样本，平衡了正负类的预测效果。

这验证了Focal Loss在类别不平衡任务中的优势：不仅能提升整体准确率，还能大幅提升少数类的召回率。

3.5 Focal Loss的适用场景与参数调优

适用场景	不适用场景	参数调优建议
1. 重度类别不平衡任务（如1:10~1:1000），如医学影像（疾病样本少）、异常检测； 2. 难分样本较多的任务，如目标检测（小目标难分）、细分类（相似类别难分）； 3. 需提升少数类召回率的场景，如安全监控（漏检比误检更严重）。	1. 类别平衡任务：此时Focal Loss与普通交叉熵效果接近，且计算更复杂； 2. 样本量极小的任务（如<100样本）：难分样本统计不稳定，Focal Loss可能过拟合； 3. 多标签分类任务：需修改公式支持多标签，不如直接用权重BCE方便。	1. γ（难度系数）：默认先试2.0，若难分样本仍少，可增大至3.0；若训练不稳定，减小至1.5； 2. α（类别权重）：按少数类频率反比设置，如1:100不平衡，α=0.99（少数类权重）； 3. 学习率：Focal Loss的梯度波动可能更大，建议用较小学习率（如1e-4~1e-3），配合Adam优化器。

四、自监督学习的“核心”：对比学习损失（Contrastive Loss/Triplet Loss）

自监督学习是“无标签数据的特征学习”——通过设计“ pretext task”（ pretext任务，如图像增强、上下文预测），让模型从无标签数据中学习有用的特征。对比学习是自监督学习的主流范式，其核心损失函数（对比损失、Triplet Loss）的逻辑与分类/回归损失完全不同：不依赖真实标签，而是通过“相似样本”和“不相似样本”的对比来优化特征。

4.1 对比学习的核心逻辑：“拉近相似，推开不相似”

对比学习的核心思想很简单：

生成正负样本对：对一个“锚点样本”（Anchor），生成“相似样本”（Positive，如同一图像的不同增强版本）和“不相似样本”（Negative，如不同图像的增强版本）；
定义损失函数：让锚点样本与相似样本的特征距离“拉近”，与不相似样本的特征距离“推开”；
学习特征表示：通过最小化损失，模型学到的特征能区分“相似”和“不相似”样本，可迁移到下游任务（如分类、检索）。

举个例子：对一张猫的图像（Anchor），用随机裁剪、翻转生成相似样本（Positive），用一张狗的图像生成不相似样本（Negative）——对比学习损失会让猫的Anchor和Positive特征靠近，和Negative特征远离，最终模型能学到“猫的特征”和“狗的特征”的差异。

4.2 经典对比学习损失1：Contrastive Loss（对比损失）

Contrastive Loss是最早的对比学习损失之一（2006年提出），核心是“构建正负样本对，最小化正样本对的距离，最大化负样本对的距离”。

（1）Contrastive Loss的公式

假设我们有N个样本对{(x_i, x_j, y_ij)}，其中：

x_i, x_j：两个样本的特征；
y_ij：标签（y_ij=1表示x_i和x_j是相似样本对，y_ij=0表示不相似）；
d_ij：x_i和x_j的欧氏距离，d_ij=||x_i - x_j||₂；
margin：阈值（当负样本对的距离>margin时，损失为0，无需再推开）。

Contrastive Loss公式为：
$\text{Contrastive Loss} = \frac{1}{2N} \sum_{i,j=1}^N \left[ y_{ij} \cdot d_{ij}^2 + (1 - y_{ij}) \cdot \max(0, \text{margin} - d_{ij})^2 \right]$

对正样本对（y_ij=1）：损失为d_ij²——距离越大，损失越大，迫使模型拉近正样本对；
对负样本对（y_ij=0）：损失为max(0, margin - d_ij)²——若d_ij>margin，损失为0（已足够远）；若d_ij<margin，损失为(margin - d_ij)²，迫使模型推开负样本对；
margin选择：通常取1.0~2.0（根据特征维度调整，特征维度高则margin大）。

（2）PyTorch实现Contrastive Loss（图像增强生成正负对）

import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision import transforms

# 1. 定义图像增强函数（生成相似样本）
def get_augmentation():
    return transforms.Compose([
        transforms.RandomResizedCrop(32),
        transforms.RandomHorizontalFlip(),
        transforms.RandomGrayscale(p=0.2),
        transforms.ToTensor(),
        transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))
    ])

# 2. 自定义Contrastive Loss
class ContrastiveLoss(nn.Module):
    def __init__(self, margin=1.0):
        super().__init__()
        self.margin = margin

    def forward(self, feature1, feature2, label):
        # feature1, feature2: [batch_size, feature_dim]，两个样本的特征
        # label: [batch_size]，1=相似样本对，0=不相似样本对
        
        # 计算欧氏距离
        distance = F.pairwise_distance(feature1, feature2, p=2)
        
        # 计算对比损失
        pos_loss = label * torch.pow(distance, 2)
        neg_loss = (1 - label) * torch.pow(torch.clamp(self.margin - distance, min=0.0), 2)
        contrastive_loss = (pos_loss + neg_loss).mean() / 2
        
        return contrastive_loss

# 3. 定义特征提取器（简单CNN）
class FeatureExtractor(nn.Module):
    def __init__(self, feature_dim=128):
        super().__init__()
        self.conv1 = nn.Conv2d(3, 64, 3, padding=1)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(64, 128, 3, padding=1)
        self.fc = nn.Linear(128 * 8 * 8, feature_dim)  # 输出128维特征

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 128 * 8 * 8)
        x = self.fc(x)
        x = F.normalize(x, p=2, dim=1)  # 特征归一化（让距离计算更稳定）
        return x

# 4. 模拟对比学习训练（用CIFAR-10无标签数据）
aug = get_augmentation()
# 加载CIFAR-10（不使用标签）
dataset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=aug)
train_loader = DataLoader(dataset, batch_size=64, shuffle=True)

# 初始化模型、损失、优化器
model = FeatureExtractor(feature_dim=128)
criterion = ContrastiveLoss(margin=1.0)
optimizer = optim.Adam(model.parameters(), lr=1e-3)

# 训练循环（生成正负样本对）
model.train()
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)

for epoch in range(5):
    running_loss = 0.0
    for images, _ in train_loader:  # 不使用标签
        # 对同一批图像生成两个增强版本（相似样本对，label=1）
        images1 = images.to(device)
        images2 = aug(images).to(device)  # 第二次增强，生成相似样本
        labels = torch.ones(images.size(0), device=device)  # 相似样本对，label=1
        
        # 生成少量不相似样本对（label=0）：取另一批图像的增强版本
        neg_images = next(iter(train_loader))[0].to(device)[:images.size(0)]
        neg_images2 = aug(neg_images).to(device)
        neg_labels = torch.zeros(images.size(0), device=device)
        
        # 合并正负样本对
        all_images1 = torch.cat([images1, neg_images])
        all_images2 = torch.cat([images2, neg_images2])
        all_labels = torch.cat([labels, neg_labels])
        
        # 提取特征并计算损失
        feature1 = model(all_images1)
        feature2 = model(all_images2)
        loss = criterion(feature1, feature2, all_labels)
        
        # 反向传播与更新
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item() * all_images1.size(0)
    
    # 打印损失
    epoch_loss = running_loss / (2 * len(train_loader.dataset))  # 正负样本对各一半
    print(f"Epoch {epoch+1}/5 | Contrastive Loss: {epoch_loss:.4f}")

4.3 经典对比学习损失2：Triplet Loss（三元组损失）

Contrastive Loss的缺点是“需要大量负样本对才能有效训练”——Triplet Loss通过“三元组样本”（Anchor, Positive, Negative）解决了这个问题，每个三元组包含1个锚点、1个正样本、1个负样本，损失函数直接优化“锚点-正样本距离 < 锚点-负样本距离”。

（1）Triplet Loss的公式

假设三元组为(A, P, N)，其中：

A：锚点样本（Anchor）；
P：与A相似的正样本（Positive）；
N：与A不相似的负样本（Negative）；
d(A,P)：A与P的欧氏距离，d(A,N)：A与N的欧氏距离；
margin：阈值（让d(A,P) + margin < d(A,N)，即正样本比负样本近至少margin）。

Triplet Loss公式为：
$\text{Triplet Loss} = \frac{1}{N} \sum_{i=1}^N \max(0, d(A_i, P_i) - d(A_i, N_i) + \text{margin})$

核心逻辑：当d(A,P) + margin < d(A,N)时，损失为0（满足条件）；否则损失为d(A,P) - d(A,N) + margin，迫使模型拉近A-P距离，推开A-N距离；
margin选择：通常取0.2~1.0（不宜过大，否则易导致梯度消失；不宜过小，否则约束太弱）。

（2）Triplet Loss的优势与挑战

优势	挑战
1. 负样本效率高：每个三元组仅需1个负样本，比Contrastive Loss节省负样本数量； 2. 约束更直接：直接优化“正样本比负样本近”的关系，特征区分度更强； 3. 适合检索任务：学习到的特征在图像检索、人脸识别等任务中表现更好。	1. 三元组选择难：随机选择的三元组可能“易分”（d(A,P) + margin < d(A,N)），损失为0，无法优化；需选择“难分三元组”（Hard Triplet）； 2. 计算成本高：每个样本需构建三元组，批量处理复杂； 3. 训练不稳定：难分三元组可能导致损失波动大，需配合梯度裁剪。

（3）PyTorch实现Triplet Loss（难分三元组选择）

class TripletLoss(nn.Module):
    def __init__(self, margin=0.5):
        super().__init__()
        self.margin = margin

    def forward(self, anchor, positive, negative):
        # anchor, positive, negative: [batch_size, feature_dim]
        
        # 计算欧氏距离的平方（避免开根号，计算更快）
        d_ap = F.pairwise_distance(anchor, positive, p=2).pow(2)
        d_an = F.pairwise_distance(anchor, negative, p=2).pow(2)
        
        # 计算Triplet Loss
        loss = torch.clamp(d_ap - d_an + self.margin, min=0.0).mean()
        return loss

# 难分三元组选择函数（从批量中选择d_ap > d_an的三元组）
def select_hard_triplets(anchor_features, positive_features, negative_features):
    d_ap = F.pairwise_distance(anchor_features, positive_features, p=2).pow(2)
    d_an = F.pairwise_distance(anchor_features, negative_features, p=2).pow(2)
    
    # 选择d_ap > d_an的难分三元组（损失>0）
    hard_mask = d_ap > d_an
    if hard_mask.sum() == 0:
        # 若无难分三元组，随机选择一个
        hard_mask[0] = True
    
    anchor_hard = anchor_features[hard_mask]
    positive_hard = positive_features[hard_mask]
    negative_hard = negative_features[hard_mask]
    
    return anchor_hard, positive_hard, negative_hard

# 模拟Triplet Loss训练
model = FeatureExtractor(feature_dim=128)
criterion = TripletLoss(margin=0.5)
optimizer = optim.Adam(model.parameters(), lr=1e-3)
model.to(device)
model.train()

for epoch in range(5):
    running_loss = 0.0
    for images, _ in train_loader:
        # 生成三元组：A=原始增强，P=第二次增强，N=其他图像增强
        batch_size = images.size(0)
        A_images = images.to(device)
        P_images = aug(images).to(device)
        N_images = next(iter(train_loader))[0][:batch_size].to(device)
        
        # 提取特征
        A_feat = model(A_images)
        P_feat = model(P_images)
        N_feat = model(N_images)
        
        # 选择难分三元组
        A_hard, P_hard, N_hard = select_hard_triplets(A_feat, P_feat, N_feat)
        
        # 计算损失
        loss = criterion(A_hard, P_hard, N_hard)
        if A_hard.size(0) == 0:
            continue  # 无难分三元组，跳过
        
        # 更新参数
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item() * A_hard.size(0)
    
    # 打印损失
    epoch_loss = running_loss / len(train_loader.dataset)
    print(f"Epoch {epoch+1}/5 | Triplet Loss: {epoch_loss:.4f}")

4.4 现代对比学习损失：InfoNCE Loss（SimCLR/MoCo的核心）

Contrastive Loss和Triplet Loss在“负样本数量”上仍有局限——现代对比学习框架（如SimCLR、MoCo、BYOL）采用InfoNCE Loss（Information Noise Contrastive Estimation），核心是“构建一个包含1个正样本和K个负样本的批次，让模型区分正样本和负样本”，大幅提升负样本效率。

（1）InfoNCE Loss的公式

假设批次中有N个锚点样本，每个锚点A_i有1个正样本P_i和(K-1)个负样本（来自其他锚点的样本），则InfoNCE Loss为：
$\text{InfoNCE} = -\frac{1}{N} \sum_{i=1}^N \log \frac{\exp(\text{sim}(A_i, P_i)/\tau)}{\sum_{j=1}^K \exp(\text{sim}(A_i, X_j)/\tau)}$

sim(·,·)：相似度函数，通常用余弦相似度（sim(a,b)=a·b/(||a||·||b||)）；
τ（温度参数）：控制相似度的缩放，τ越小，对相似度的区分度要求越高（通常取0.1~0.5）；
K（负样本数量）：K越大，负样本多样性越强，模型学到的特征越好（MoCo通过队列存储大量负样本，K可达1e4）。

（2）InfoNCE Loss的核心优势

负样本效率极高：每个批次可包含大量负样本（如K=256），无需额外生成负样本；
信息论基础：基于互信息最大化，理论更严谨，特征的区分度更强；
易于批量计算：可通过矩阵运算并行计算所有样本的相似度，训练速度快。

InfoNCE Loss已成为现代对比学习的“标配”——SimCLR、MoCo、SwAV等主流框架均基于它实现，在ImageNet等大型数据集上的预训练效果远超传统对比损失。

4.5 对比学习损失的适用场景

适用场景	实战建议
1. 无标签/少标签数据的特征预训练：如图像检索、人脸识别、视频分类，用无标签数据预训练特征提取器，再用少量标签微调； 2. 跨模态特征对齐：如文本-图像检索（CLIP），用对比学习对齐文本和图像特征； 3. 小样本学习：在小样本任务中，用对比学习预训练模型，提升下游任务的泛化能力； 4. 生成模型的特征引导：如生成对抗网络（GAN），用对比学习损失引导生成样本的特征与真实样本一致。	1. 数据增强是关键：对比学习的效果高度依赖数据增强（如SimCLR的RandomResizedCrop、ColorJitter），需根据数据类型设计增强策略； 2. 负样本数量要足够：尽量增加负样本数量（如MoCo的队列存储1e4个负样本），避免模型过拟合； 3. 温度参数τ调优：默认先试0.1，若损失波动大则增大至0.2~0.5，若特征区分度差则减小至0.05； 4. 特征归一化：计算相似度前需对特征归一化（L2归一化），确保相似度计算稳定。

适用场景

实战建议

1. 无标签/少标签数据的特征预训练：如图像检索、人脸识别、视频分类，用无标签数据预训练特征提取器，再用少量标签微调；
2. 跨模态特征对齐：如文本-图像检索（CLIP），用对比学习对齐文本和图像特征；
3. 小样本学习：在小样本任务中，用对比学习预训练模型，提升下游任务的泛化能力；
4. 生成模型的特征引导：如生成对抗网络（GAN），用对比学习损失引导生成样本的特征与真实样本一致。

1. 数据增强是关键：对比学习的效果高度依赖数据增强（如SimCLR的RandomResizedCrop、ColorJitter），需根据数据类型设计增强策略；
2. 负样本数量要足够：尽量增加负样本数量（如MoCo的队列存储1e4个负样本），避免模型过拟合；
3. 温度参数τ调优：默认先试0.1，若损失波动大则增大至0.2~0.5，若特征区分度差则减小至0.05；
4. 特征归一化：计算相似度前需对特征归一化（L2归一化），确保相似度计算稳定。

五、不同任务的损失函数选择指南（实战总结）

很多人调参时不知道“该选哪个损失函数”，核心是“没有匹配任务场景”。下表总结了不同任务下的损失函数选择逻辑，覆盖90%以上的实战场景：

任务类型	具体场景	推荐损失函数	不推荐损失函数	关键参数建议
二分类任务	类别平衡（如情感分析）	交叉熵（BCEWithLogitsLoss）	MSE、L1Loss	无需额外参数，学习率1e-3
	轻度类别不平衡（1:10）	权重交叉熵（pos_weight）	普通交叉熵	pos_weight=样本数反比，γ=0
	重度类别不平衡（1:100+）	Focal Loss	权重交叉熵	α=少数类权重，γ=2，τ=1e-3
多分类任务	类别平衡（如MNIST/CIFAR-10）	交叉熵（CrossEntropyLoss）	MSE、BCEWithLogitsLoss	无需额外参数，学习率1e-3
	类别不平衡（如COCO目标检测）	权重多分类交叉熵（class_weight）	普通交叉熵	class_weight=类别频率反比
回归任务	正常数据（无异常值）	MSE（L2Loss）	交叉熵	学习率1e-3，配合Adam
	异常值多（如医疗数据）	MAE（L1Loss）/Huber Loss	MSE	Huber的delta=1.0~2.0
	有序回归（如评分预测）	有序交叉熵/MAE	MSE、普通交叉熵	有序交叉熵的类别权重按顺序调整
自监督任务	小数据集预训练（如CIFAR-10）	Contrastive Loss/Triplet Loss	交叉熵（无标签）	margin=1.0~2.0，特征维度128
	大数据集预训练（如ImageNet）	InfoNCE Loss（SimCLR/MoCo）	Contrastive Loss	τ=0.1~0.5，负样本数K=256+
生成任务	图像生成（GAN）	交叉熵（判别器）+ MSE（生成器）	L1Loss（细节模糊）	生成器用MSE，判别器用交叉熵
	文本生成（GPT）	交叉熵（自回归）	MSE、对比损失	学习率5e-5，配合AdamW

六、南木的学习路径与避坑指南

损失函数是“模型训练的指挥棒”，但很多人学习时会陷入“公式劝退”或“实战踩坑”。结合我的经验，总结以下学习路径和避坑指南，帮你高效掌握损失函数。

6.1 学习路径：从基础到进阶

阶段1：基础理解（1~2周）

目标：掌握分类/回归任务的核心损失函数，能独立用PyTorch实现；
学习内容：
1. 推导交叉熵、MSE的梯度，理解“为什么分类用交叉熵”；
2. 用PyTorch实现二分类/多分类交叉熵，区分BCEWithLogitsLoss和CrossEntropyLoss；
3. 做简单实验：对比MSE和交叉熵在MNIST分类上的效果；
实战项目：用交叉熵训练CNN分类CIFAR-10，准确率达到85%以上。

阶段2：进阶应用（2~3周）

目标：解决类别不平衡和自监督学习的损失函数问题；
学习内容：
1. 实现Focal Loss，在类别不平衡数据集上对比普通交叉熵；
2. 理解对比学习的核心逻辑，实现Contrastive Loss和Triplet Loss；
3. 学习InfoNCE Loss的原理，用SimCLR框架做CIFAR-10的自监督预训练；
实战项目：用Focal Loss解决医学影像的类别不平衡分类，用对比学习预训练特征提取器，下游分类任务准确率提升10%。

阶段3：深入优化（3~4周）

目标：掌握损失函数的调参技巧和新型损失函数；
学习内容：
1. 研究Focal Loss的gamma和alpha参数调优规律，用网格搜索找到最优组合；
2. 学习生成任务的损失函数（如感知损失、GAN的Wasserstein损失）；
3. 阅读论文，了解新型损失函数（如用于Transformer的Label Smoothing Cross-Entropy）；
实战项目：用Label Smoothing Cross-Entropy提升Transformer的文本分类准确率，用感知损失优化GAN的图像生成质量。

6.2 避坑指南：10个常见错误与解决方案

错误1：分类任务用MSE损失，导致梯度消失
解决方案：立即改用交叉熵损失（二分类用BCEWithLogitsLoss，多分类用CrossEntropyLoss），无需手动加Sigmoid/Softmax。
错误2：用CrossEntropyLoss做二分类，输入维度不匹配
解决方案：二分类用BCEWithLogitsLoss（输出维度=1），多分类用CrossEntropyLoss（输出维度=类别数），标签格式要对应（二分类用float，多分类用long）。
错误3：Focal Loss的gamma设太大（如gamma=5），导致训练不稳定
解决方案：gamma默认先试2.0，最大不超过3.0；若训练损失波动大，减小gamma至1.5，同时降低学习率至5e-4。
错误4：对比学习中正负样本生成不当（如正样本差异太大）
解决方案：正样本用“弱增强”（如随机裁剪+翻转），避免增强后样本差异过大；负样本用“不同图像的增强版本”，确保与锚点样本语义不同。
错误5：InfoNCE Loss的温度参数τ设太小（如τ=0.01），导致损失为NaN
解决方案：τ默认先试0.1，若损失为NaN或梯度爆炸，增大τ至0.2~0.5；同时对特征做L2归一化，避免相似度计算溢出。
错误6：类别不平衡时仅靠权重交叉熵，效果不佳
解决方案：结合“重采样”（如过采样少数类、欠采样多数类）和Focal Loss，或用动态权重（随训练轮次调整alpha）。
错误7：回归任务中预测值范围大，MSE损失值过大
解决方案：对输入特征和输出目标做归一化（如MinMaxScaler或StandardScaler），或改用MAE/Huber Loss，降低异常值的影响。
错误8：对比学习的特征维度设太大（如1024维），导致计算缓慢
解决方案：特征维度默认设128~256维，足够满足大多数任务；若需更高维度，用PCA降维后再计算相似度。
错误9：用普通交叉熵做多标签分类（如一张图有多个标签）
解决方案：多标签分类用BCEWithLogitsLoss，每个标签独立预测（输出维度=标签数），标签用one-hot编码（float类型）。
错误10：忽略损失函数的数值稳定性（如log(0)导致NaN）
解决方案：用PyTorch内置损失函数（如BCEWithLogitsLoss），避免手动计算log；或在手动计算时加小常数（如log(p+1e-8)），防止log(0)。

七、总结

损失函数是神经网络训练的“核心指挥棒”——它不仅是“误差的量化工具”，更是“模型学习目标的定义者”。本文从分类任务的交叉熵，到解决不平衡问题的Focal Loss，再到自监督学习的对比损失，覆盖了AI领域最核心的损失函数，核心结论如下：

分类任务：平衡用交叉熵，轻度不平衡用权重交叉熵，重度不平衡用Focal Loss；
回归任务：正常数据用MSE，异常值多用MAE/Huber Loss；
自监督任务：小数据用Contrastive/Triplet Loss，大数据用InfoNCE Loss；
调参关键：交叉熵关注学习率，Focal Loss关注gamma/alpha，对比损失关注margin/τ。

最后，损失函数的选择没有“万能解”——必须结合任务场景、数据分布、模型结构综合判断。建议大家在实战中多做对比实验，比如用不同损失函数训练同一模型，观察损失曲线、准确率、召回率等指标，逐步积累调参经验。
在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Java SpringBoot+Vue3+MyBatis 高校实验室智能管理系统系统源码｜前后端分离+MySQL数据库

2048 AI社区

微信公众号文章内容“没深度”？提示工程架构师的5个Prompt提升“价值感”（案例）

你有没有过这样的困惑？写了10篇职场经验文，读者评论“都是常识”；分享了自己的成长故事，别人说“像记流水账”；明明懂很多干货，写出来却像“白开水”，没人愿意转发。其实不是你没内容，而是没学会“引导自己的思考往深度走”——就像你有一堆积木，却不知道怎么搭成一座能让人“哇”的房子。提示工程（Prompt Engineering）就是帮你搭积木的“说明书”：它不是让AI替你写文章，而是用精准的“问题提示