在人工智能的研究中,数理统计同样不可或缺。基础的统计理论有助于对机器学习的算法和数据挖掘的结果做出解释,只有做出合理的解读,数据的价值才能够体现。数理统计(mathematical statistics)根据观察或实验得到的数据来研究随机现象,并对研究对象的客观规律做出合理的估计和判断


一、概率论 vs 数理统计:正向推演 vs 逆向推理

先记一句非常形象的话:

👉 概率论是顺推
👉 数理统计是反推

1️⃣ 概率论在干嘛?

前提:规则已知

例子:

你知道:

  • 骰子是均匀的
  • 每个面概率 1/6

问题:

  • 掷 10 次,出现 6 的概率?
  • 平均点数是多少?

这就是概率论:

👉 已知分布 → 推结果


2️⃣ 数理统计在干嘛?

现实世界更常见的是:

规则不知道
只能看到结果

例子:

你拿到一颗骰子:

🎲 掷了 100 次
发现 6 出现 40 次

问题:

  • 这骰子是不是作弊?
  • 每个面概率是多少?
  • 是否均匀?

这就是数理统计:

👉 看数据 → 猜规则


3️⃣ 彩票例子(最经典)

概率论:

已知摇奖机制
算某号码中奖概率

数理统计:

看历史开奖
反推摇奖规律(虽然通常没用 😂)


二、统计学最重要的两个概念

统计学只干一件事:

👉 用样本推断总体

1️⃣ 总体(population)

所有可能对象

比如:

  • 所有用户
  • 所有订单
  • 所有服务器请求
  • 所有芯片

2️⃣ 样本(sample)

你实际观测到的数据

比如:

  • 抽查 1000 个用户
  • 监控一天请求
  • 测试 50 个芯片

3️⃣ 为什么必须抽样?

因为现实世界:

❌ 数据无限
❌ 成本太高
❌ 无法全部观测

所以:

👉 用少量数据推整体规律

这就是统计学存在的意义。


三、统计学的工具:统计量

统计学不直接用样本,而用:

👉 样本的函数

叫做:

统计量(Statistic)

本质:

👉 从数据提取信息的压缩指标


最重要两个统计量

1️⃣ 样本均值

平均水平

比如:

  • 平均响应时间
  • 平均工资
  • 平均点击率

2️⃣ 样本方差

波动程度

比如:

  • 请求稳定不稳定
  • 收入差距大不大
  • 模型预测稳不稳

四、统计推断的两大任务

统计学核心工作只有两类:

1️⃣ 参数估计
2️⃣ 假设检验


第一部分:参数估计(猜参数)

目标:

👉 推断总体的真实参数

比如:

  • 用户平均消费
  • 产品缺陷率
  • 点击率
  • 模型真实误差

1️⃣ 点估计:猜一个数

例子:

你想知道:

👉 全国男性平均身高

测量 1000 人:

平均 172 cm

于是说:

👉 平均身高 ≈ 172

这就是:

点估计


2️⃣ 两种经典估计方法

方法一:矩估计(直觉派)

思想:

👉 样本特征 ≈ 总体特征

例子:

样本平均值
≈ 总体平均值

基于:

👉 大数定律

样本多了就接近真实。


方法二:最大似然估计(工程派)

思想非常程序员:

👉 哪个参数最可能产生当前数据?

例子:

你看到:

10 次抛硬币
7 次正面

问题:

硬币正面概率是多少?

尝试不同概率:

  • 0.5?
  • 0.6?
  • 0.7?

哪个最容易产生 7 次正面?

答案:

👉 0.7

这就是:

最大似然估计(MLE)

机器学习核心基础。


3️⃣ 怎么判断估计好不好?

统计学给三个标准:

✅ 无偏性

长期平均不偏

多次抽样:

误差平均 = 0

没有系统性错误。


✅ 有效性

波动小

越稳定越好。

程序员理解:

👉 低 jitter


✅ 一致性

样本越多越准

最终逼近真实值。


4️⃣ 区间估计:给范围

现实问题:

点估计太自信。

所以:

👉 给可信范围

比如:

平均身高:

172 ± 2 cm

这叫:

置信区间


置信水平怎么理解?

95% 置信区间意思:

如果重复实验很多次:

95% 的区间
会包含真实值

不是:

真实值有 95% 概率在区间里。

这是统计学最容易误解的地方。


第二部分:假设检验(做决策)

估计是猜数值。

检验是判断真假。


1️⃣ 基本结构

统计学世界观:

永远从一个假设开始。

原假设 H₀

默认成立

例:

  • 药有效率 = 0
  • 模型没提升
  • 两版本无差异

备择假设 H₁

挑战 H₀


2️⃣ 错误不可避免

统计是概率决策。

两种错误:

第一类错误(冤枉好人)

H₀ 真
但被拒绝

例:

药没效果
却说有效


第二类错误(放过坏人)

H₀ 假
却接受

例:

药有效
却说没效果


3️⃣ 小概率事件原则

统计学核心哲学:

如果极小概率事件发生了

👉 原假设可能错了

例:

正常服务器:

崩溃率 0.1%

结果:

连续崩 10 次

那就:

系统可能有 bug。


五、统计学在机器学习中的角色

机器学习本质:

👉 从样本学习规律

本质就是:

数理统计。


1️⃣ 模型选择 = 假设检验

不同模型:

不同假设。

测试集表现:

检验泛化能力。


2️⃣ 泛化误差三大来源

机器学习核心公式:

误差 = 偏差 + 方差 + 噪声


偏差(Bias)

模型太简单

欠拟合

例:

线性拟合非线性数据


方差(Variance)

模型太复杂

过拟合

训练好
测试差


噪声(Noise)

数据天生随机

无法消除


终极矛盾

降低偏差 → 增加方差
降低方差 → 增加偏差

无法同时最优。


六、程序员最该记住的本质

统计学干的事只有一句:

👉 用有限数据做最合理推断

现实世界:

  • 不确定
  • 不完整
  • 有噪声

统计学就是:

不确定性管理工具。


七、为什么程序员必须懂统计?

因为现代技术全部建立在它上面:

  • 机器学习
  • A/B 测试
  • 推荐系统
  • 搜索排序
  • 实验设计
  • 数据分析
  • 性能评估
  • 风控模型

不会统计:

就不会真正理解 AI。


八、一句话总结

概率论:

👉 世界已知,推结果

数理统计:

👉 世界未知,靠数据猜

机器学习:

👉 用统计自动猜

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐