训练时评估指标无变化，且预测值都一样

文章目录问题原因解决方案问题将特征全都标准化到 [0,1]，设计了多层 Dense，训练，发现评估指标一直不下降，而且预测值全部都相同，如下所示：原因看了一下激活函数用的是relu，因为relu的激活小于0全等于0，大于0就保持不变；猜测是全部都小于0，导致全部都等于0，于是对于所有样本都输出同一个预测值。解决方案激活函数改为tanh，性能评估指标发生了变化，预测值也发生变化...

大奸猫

8709人浏览 · 2020-05-28 15:49:49

大奸猫 · 2020-05-28 15:49:49 发布

文章目录

问题
原因
解决方案

问题

将特征全都标准化到 [0,1]，设计了多层 Dense，训练，发现评估指标一直不下降，而且预测值全部都相同，如下所示：
在这里插入图片描述

原因

看了一下激活函数用的是relu，因为relu的激活小于0全等于0，大于0就保持不变；猜测是全部都小于0，导致全部都等于0，于是对于所有样本都输出同一个预测值。
在这里插入图片描述

解决方案

激活函数改为tanh，性能评估指标发生了变化，预测值也发生变化
在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Anaconda加速AI训练全攻略

Anaconda通过集成优化工具显著提升AI模型训练效率。其核心优势包括：1）Conda虚拟环境管理避免依赖冲突，支持GPU加速版本框架；2）内置Intel MKL库优化矩阵运算，加速CPU计算；3）结合Dask实现分布式并行计算。通过Jupyter Notebook实时监控和可视化工具，配合环境导出功能确保团队协作一致性。实测显示，在ResNet50等模型训练中，Anaconda能大幅缩短epo

2048 AI社区

AI 让数据主动服务研发：TDengine IDMP 在沈阳化工研究院的应用

2048 AI社区

AI大模型-深度学习-卷积神经网络-残差网络

残差网络（ResNet）是一种通过引入“快捷连接”来构建极深卷积神经网络的架构。其核心思想是“残差学习”。残差在数学和统计学中，残差指的是观测值与预测值之间的差值。在ResNet中，理想的"观测值"设为H(x)基准预测值设为B(x)=x（即输入和输出相同，什么也不改变）残差传统网络：让多层网络直接学习一个目标映射H(x)。残差网络：让多层网络学习一个残差映射，而最终的输出仍是。这里的x就是通过快捷