跟着StatQuest学知识04-ArgMax、SoftMax和交叉熵

ArgMax、SoftMax和交叉熵

m0_74803856

562人浏览 · 2025-03-22 13:47:50

m0_74803856 · 2025-03-22 13:47:50 发布

一、ArgMax

把各个输出元都送到ArgMax层后，ArgMax会简单地将最大值设为1，其余值设为0。

但是这将会导致的问题是：无法通过反向传播来优化权重和偏差。

插入0之后，整个导数为0，梯度下降并不能朝着最优参数求解。

二、SoftMax

特点：

SoftMax函数保留了原始输出值的原始顺序或排名
所有输出值都在0和1之间。
所有输出值之和为1。→ 因此SoftMax输出值可以被解释为预测概率（不准确的）。

相比之下， SoftMax函数有一个可以用来反向传播的导数。

因此带有多个输出的神经网络，总是使用SoftMax进行训练，然后使用ArgMax来对新观察进行分类（它的输出更易于理解）。

三、交叉熵

（一）原理

交叉熵用来确定神经网络对于数据的拟合程度。

（二）特点

（三）为什么Softmax使用交叉熵而不是MSE（残差平方和）？

概率分布的特性 ：Softmax输出的是一个概率分布（所有输出值的和为1），而交叉熵是专门为衡量概率分布差异设计的。MSE更适合衡量数值差异，而不是概率分布差异。
梯度特性：步长是取决于这些函数的导数，交叉熵的的导数变化更大，所以神经网络做出糟糕预测时，交叉熵会帮助我们向更好的预测迈出较大的步伐。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

企业级酒店管理系统管理系统源码｜SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

2048 AI社区

Python潮流数据分析与人工智能的完美融合

Python通过其丰富的库，如Apache Kafka的Python客户端、PyFlink、Faust等，同样在这一领域展现出强大的适应性与活力。未来，我们可以预见一个更加智能的时代，其中AI系统不再是静态的、迟钝的，而是动态的、自适应的，能够像活体生物一样，通过Python这一强有力的“神经脉络”，从永不停息的数据流中持续感知、学习和进化。更进一步，系统可以将推理结果与真实结果（通过后续反馈回路

2048 AI社区

Python在数据科学与自动化运维中的实战应用与技巧

数据可视化方面，Matplotlib和Seaborn库能够生成高质量的图表和图形，帮助数据科学家直观地探索数据模式和趋势。从数据预处理的StandardScaler，到模型选择的train_test_split，再到模型评估的cross_val_score，Python为整个机器学习流程提供了完整解决方案。在自动化运维领域，Python通过其简洁的语法和强大的标准库，成为自动化任务的首选语言。通过