机器学习常用损失函数与评价指标

人工智能中的智能体现在学习与应变能力上。学习对应的是训练，应变对应对学习能力的应用。学习的目的达到某个设定的目标，有了目标才能衡量学习有没有进步，调整自己的学习方向。这个目标在机器学习中称为损失函数，衡量应变能力的指标就是评估方法。下面主要介绍一下这两方面的一些知识。

yanghuashuiyue

753人浏览 · 2025-11-17 21:06:15

yanghuashuiyue · 2025-11-17 21:06:15 发布

1 损失函数

1.1 均方误差

在有些地方看见具体实现的时候是1/2n，看见多除以2的地方不要奇怪，除2主要是方便计算，因为对MSE求导数的时时2次方刚好和2约掉。这里n样本个数，yi 是真实值,ŷ 是预测值。

损失函数的目标就是要使预测值与真实值越来越接近。因为存在标签，所以只能在有监督学习情况下使用。

后面的绝对值误差也是类似作用，只是计算形式不一样。还有一些基于这两个公式的变体，可以自行研究

1.2 交叉熵损失

二分类交叉熵损失

对于二分类问题，样本的真实标签 yi只能取 0 或 1，模型预测为正类的概率为 y^（取值范围是 [0,1]）。

当 yi=1 时，公式简化为 CE=−log⁡(y^)，希望 y^ 尽可能接近 1‌。

当 yi=0时，公式变为 CE=−log⁡(1−y^)L=−log(1−y^)，希望y^ 尽可能接近 0‌

多分类交叉熵损失

对于多分类问题，假设共有 c个类别，样本的真实标签 y 是一个独热编码向量，模型预测的概率分布为 y^=(y^1,y^2,…,y^c)，其公式为：

其中 yi是真实标签向量的第 i个元素。该公式通过最小化预测分布与真实分布的差异来优化模型‌

1.3 选择

对于回归问题一般选择均方差损失函数，对于分类问题一般选择交叉熵。分类问题通常都是以概率来确定分类，交叉熵中的熵在信息论中也是个概率相关的计算。

2 评估方法

2.1 混淆矩阵

纵坐标表示真实分类，横坐标表示预测分类。T表示true,F表示false,N表示negative,P表示positive

TN表示，实际类型为N（反类），预测类型为反类（预测正确）。TN、TP都是表示预测正确，FN、FP都表示预测错误

2.1.1 准确率（Accuracy）‌

正确预测样本占总样本的比例：(TP+TN)/(TP+FP+FN+TN)‌

局限性‌：对不平衡数据敏感（如负样本远多于正样本时，高准确率可能掩盖模型缺陷）‌。比如A分类占95% B分类占5%，一致预测成A分类的准确率可以达到95%，但是不能说模型的预测能力很强。

2.1.2 精确率（Precision）‌

预测为正的样本中实际为正的比例：TP/(TP+FP)‌
‌ 适用场景‌：关注减少误报（如垃圾邮件过滤）‌

2.1.3 召回率（Recall）‌

实际为正的样本中被正确预测的比例：TP/(TP+FN)‌
‌ 适用场景‌：关注减少漏报（如疾病筛查）‌

2.1.4 F1分数‌

精确率与召回率的调和平均数：2*(Precision*Recall)/(Precision+Recall)

2.2 ‌ROC曲线与AUC‌

ROC曲线‌：以假正率（FPR）为横轴、真正率（TPR）为纵轴的可视化曲线

FPR = FP / (FP + TN) TPR=TP / (FP + TN)

TPR 是预测正确的情况，当然是TPR 这个比FPR大好。可以把y=x看作一个分界线

‌AUC值‌：曲线下面积，越接近1模型性能越好‌

实际这两个东西不是很好理解，画出来也不直白，也不好计算，多分类计算量也大。

2.3 无监督学习聚类评估

无监督学习聚类评估主要分为有标签评估和无标签评估，评估的目标都是组内尽可能凝聚，组间尽可能分散。无标签评估主要有轮廓系数，CH index、DB index等，有标签评估主要有调整兰德指数、纯度、人工检查等。无监督学习通常都是无标签的数据。

2.3.1 轮廓系数（Silhouette Coefficient）‌

公式：

原理：衡量样本与同簇内其他样本的相似度（a）和与其他簇样本的相似度（b）。范围‌：-1到1，值越接近1表示聚类效果越好（簇内紧密、簇间分离）‌。

s≈1：样本聚类效果理想（内聚度高、分离度强）‌
s≈0：样本可能位于簇边界。
s≈−1：样本可能被错误分配‌
‌ 适用场景‌：适用于凸簇结构，但对非凸簇可能失效‌

2.3.2 CH Index (Calinski-Harabasz Index)

公式：

原理：基于簇间离散度与簇内离散度的比率，值越高表示聚类效果越好‌，其中 B 为簇间距离，W为簇内距离‌。k‌：表示聚类算法中预设的簇（类别）数量，即需要将数据划分成的组数‌
‌n‌：表示数据集中的样本总数（即所有数据点的数量）‌。

分子部分通过簇间离散度与簇内离散度的比值衡量聚类效果，分母部分通过 (n−k)/(k−1)(n−k)/(k−1) 对簇数进行归一化，避免簇数增加时指标虚高‌16。该指数值越大，表示簇间分离度越高、簇内紧凑度越好，聚类效果越优‌。

2.3.3 DB Index(‌Davies-Bouldin Index)

原理‌：计算每个簇与其最相似簇的平均相似度，值越小表示聚类效果越好‌,公式

‌ 特点‌：对簇间重叠敏感，适用于密度差异较大的数据‌

2‌.3.4 调整兰德指数（Adjusted Rand Index, ARI）‌

‌公式：

原理：

a‌：同属一个聚类簇且同属一个真实类别的样本对数
‌b‌：同属一个聚类簇但不同属一个真实类别的样本对数
‌c‌：不同属一个聚类簇但同属一个真实类别的样本对数
‌d‌：不同属一个聚类簇且不同属一个真实类别的样本对数
N：为总样本数，k为真实类别数，l为聚类簇数
ni为第i个真实类别的样本数，mj为第j个聚类簇的样本数
表示从n个样本中选取2个的组合数