1. 前言:为什么不能只看“准确率”?

在 AI 新手阶段,我们容易陷入一个误区:认为评估模型好坏只需要看它“答对了多少题”(即 Accuracy 准确率)。

但在很多真实场景下,这远远不够。
举个例子:假设有 100 个病人,其中只有 1 个得了癌症。如果我的 AI 模型非常“懒”,它闭着眼睛预测所有人都是“健康”的。

  • 结果:它答对了 99 个人,准确率高达 99%。
  • 问题:它漏掉了那个唯一的癌症病人,这个模型在医疗上是完全失败的。

为了解决这个问题,我们需要引入两个更专业的指标:Precision (查准率)Recall (查全率/召回率)


2. 核心概念:混淆矩阵 (Confusion Matrix)

在计算准召率之前,我们需要先搞清楚 4 种基础情况。假设我们在做一个垃圾邮件拦截系统

  • 正例 (Positive) = 垃圾邮件
  • 负例 (Negative) = 正常邮件
预测情况 \ 真实情况 确实是垃圾邮件 (True) 其实是正常邮件 (False)
预测是垃圾邮件 TP (True Positive)
抓对了(成功拦截)
FP (False Positive)
抓错了(误报,把重要邮件当垃圾扔了)
预测是正常邮件 FN (False Negative)
漏掉了(漏报,垃圾邮件跑进收件箱)
TN (True Negative)
判断正确(正常邮件正常放行)

3. 怎样计算?

3.1 Precision (查准率/精确率)

> 含义:在所有被我预测为正例(抓出来)的样本中,有多少是真正的正例?
> 通俗理解:我“开枪”打中的人里,有多少是真正的坏人?(侧重于“不冤枉好人”)

Precision=TPTP+FP Precision = \frac{TP}{TP + FP} Precision=TP+FPTP

  • 分子:抓对的垃圾邮件。
  • 分母:我预测出的所有垃圾邮件(包含抓对的和抓错的)。

3.2 Recall (查全率/召回率)

> 含义:在所有真实存在的正例中,我找出来了多少?
> 通俗理解:坏人总共有 10 个,我抓住了几个?(侧重于“不放过坏人”)

Recall=TPTP+FN Recall = \frac{TP}{TP + FN} Recall=TP+FNTP

  • 分子:抓对的垃圾邮件。
  • 分母:真实世界里所有的垃圾邮件(包含被我抓到的和被我漏掉的)。

4. 鱼与熊掌:F1 Score

通常情况下,Precision 和 Recall 是相互矛盾的:

  • 如果你想提高 Precision(不抓错),你就得谨慎,只抓最有把握的,这样容易导致 Recall 下降(漏掉很多)。
  • 如果你想提高 Recall(全抓住),你就得宁可错杀一千不可放过一个,这样容易导致 Precision 下降(误报很多)。

为了平衡两者,我们使用 F1 Score

F1=2×Precision×RecallPrecision+Recall F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} F1=2×Precision+RecallPrecision×Recall

  • F1 分数越高,说明模型在准召率之间平衡得越好。

5. 用途:什么时候看哪个指标?

根据不同的业务场景,我们对准召率的侧重不同:

✅ 场景 A:看重 Precision (宁缺毋滥)

例子:垃圾邮件拦截、视频推荐系统、贷款审批。

  • 原因
    • 如果把一封重要的工作邮件误判为垃圾邮件(FP),后果很严重(用户会生气)。
    • 如果给用户推荐了不喜欢的视频,体验很差。
  • 策略:我们要保证“只要是我拦截的/推荐的,必须是对的”。

✅ 场景 B:看重 Recall (宁可错杀,不可放过)

例子:癌症筛查、地震预警、寻找走失儿童、金融反欺诈。

  • 原因
    • 如果漏掉了一个癌症病人(FN),会导致病人错过治疗,后果是致命的。
    • 相比之下,误诊(FP)虽然会让人虚惊一场,但可以通过复查排除,代价相对较小。
  • 策略:我们要保证“所有的潜在风险都被找出来”。

6. 总结

  • Precision (查准率):我预测对的比例高吗?(关注准确性,怕误报)
  • Recall (召回率):我覆盖得全吗?(关注覆盖率,怕漏报)
  • F1 Score:两者的调和平均数,用于综合评估。

> 新手建议:在训练 AI 模型时,不要只盯着 Accuracy 看,一定要打印出 Precision 和 Recall,结合你的业务目标来判断模型是否可用。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐