BCE损失+sigmoid搭配、CE损失+softmax激活函数

Zora.wang

2836人浏览 · 2023-04-26 11:53:44

Zora.wang · 2023-04-26 11:53:44 发布

一、基础知识

1. 交叉熵损失可以采用“sigmoid+BCE”或是“softmax+CE”。pyytorch的使用:

“sigmoid+BCE”:

torch.nn.BCELoss(weight=None, reduction='mean')
torch.nn.BCEWithLogitsLoss(weight=None, reduction='mean', pos_weight=None)

BCEWithLogitsLoss损失函数把 Sigmoid 层集成到了 BCELoss 类中. 该版比用一个简单的 Sigmoid 层和 BCELoss 在数值上更稳定, 因为把这两个操作合并为一个层之后, 可以利用 log-sum-exp 的技巧来实现数值稳定.

“softmax+CE”:

torch.nn.CrossEntropyLoss(weight=None,ignore_index=-100, reduction='mean')

2. 如何选择“sigmoid+BCE”还是“softmax+CE”？

在分类问题中，如果遇到类别间不互斥的情况，只能采用“sigmoid+BCE”当作多个二分类问题处理；--> 二分类只能用“sigmoid+BCE”
如果遇到类别间互斥的情况（只能有一类胜出），“sigmoid+BCE”化为多个二分类问题与“softmax+CE”直接进行分类都是有被用到的方法。-->多分类两者都有应用

二、理论部分

2.1 BCE 损失函数

设标签为y，网络预测结果为，BCE损失函数为：

此时有：

因此，采用sigmoid激活函数+BCE损失函数，回传的梯度值是正比于预测与真值之差的。

2.2 CE 损失函数

设标签为 y，网络预测结果为，CE损失函数为：

此时有，

可以观察到，对于只有一个类别是正确类别的分类问题:

因此，softmax激活函数+CE损失函数，回传梯度的大小都是与预测值的偏差成正比。

三、参考文章

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

一文读懂AI语言模型

2048 AI社区

如何选择合适的互斥锁类型？

普通互斥锁（Non-recursive Mutex）是最基础的锁类型，同一线程不可重复加锁，否则会导致死锁。适用于简单的临界区保护，例如对共享变量的修改。互斥锁（Mutex）的主要类型包括普通互斥锁、递归互斥锁、读写锁和自旋锁。读写锁（Read-Write Lock）区分读操作和写操作，允许多个线程同时读，但写操作独占锁。自旋锁（Spin Lock）通过忙等待（Busy-Waiting）实现锁，避

2048 AI社区

Java 与智能制造供应链：柔性生产与协同优化

智能制造与供应链协同优化是工业 4.0 的重要组成部分。Java 凭借其跨平台、稳定性、生态完善，在ERP、MES、SCM、物流仓储、协同平台等方面发挥了重要作用。未来，随着数字孪生、AI、区块链、绿色制造的深入应用，Java 将继续成为智能制造供应链的核心技术支撑，推动产业向高效、柔性、智能、可持续方向发展。