[踩坑] 交叉熵损失不下降

在深度学习中，有时候会遇到各种奇奇怪怪的问题，这些问题也不容易在网上搜到解答。一些有报错的问题还好，没有报错的问题简直就是灾难。在以上图片中，可以看到dice loss有轻微下降，而ce loss几乎不动。这时候肯定是出问题了。问题在哪呢？我用的是Pytorch中的CrossEntropyLoss()函数。注意这个函数是自带softmax操作的。而我在传入网络输出前，又做了一次softmax。这样

骜蛟

5112人浏览 · 2022-03-23 09:43:53

骜蛟 · 2022-03-23 09:43:53 发布

在深度学习中，有时候会遇到各种奇奇怪怪的问题，这些问题也不容易在网上搜到解答。一些有报错的问题还好，没有报错的问题简直就是灾难。

在这里插入图片描述
在刚开始训练的时候，ce loss 是明显下降的，但训练了一段时间后，在以上图片中，可以看到dice loss有轻微下降，而ce loss几乎不动，模型还没有收敛，这时候肯定是出问题了。

问题在哪呢？

我用的是Pytorch中的CrossEntropyLoss()函数。注意这个函数是自带softmax操作的。

而我在传入网络输出前，又做了一次softmax。这样就做了两层的softmax。这就导致了交叉熵损失下降不下去，回传梯度几乎为0。

解决方法

删掉一层softmax。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

文科本科论文怎么写？2026 年图表、流程图与思维导图规范一次讲清

2048 AI社区

面向人机协同的AI Agent设计范式：理论框架与架构实践

本文提出一种基于人机协同理念的AI Agent设计范式，针对当前系统存在的意图理解模糊、职责边界不清等核心挑战，构建了包含三大原则和四层架构的解决方案。该范式通过不确定性分层理论，明确AI与人类在不同任务中的分工：AI处理技术性不确定（如模式识别），人类负责认知性不确定（如伦理判断）。系统设计强调确定性组件封装、不确定性智能处理和人本必然参与，形成包含战略层、能力层、交互层和保障层的完整架构，为构