All in AI之二：一文构建机器学习数学体系

超级种码

859人浏览 · 2025-09-09 18:18:04

超级种码 · 2025-09-09 18:18:04 发布

文章目录

前言
如何基于JavaStack学习机器学习
数和量
集合论
几何
函数
- 标量函数：标量到标量的映射
- 向量函数：标量/向量到向量的映射
线性代数
微积分
- 极限
- 导数
- 微分
- 偏导数
- 梯度
- 积分
计数原理
概率论与数理统计

前言

机器学习是现代数学建模的极致形式，集成了函数、向量、微积分、概率论、统计学及其他扩展数学工具。如果你是计算机爱好者，那么机器学习是一个值得终身研究的学科，但学习机器学习的前提，必须要有一个良好的数学基础。作者已毕业三年且从未接触过机器学习，本文是作者花费了大量的事件和精力，浏览无数文本和视频总结出来的数学知识，如果你：

毕业很久了
想要学习机器学习
技术栈是Java

那么本文将十分适合你，它会构建你的实用数学体系。

如何基于JavaStack学习机器学习

身为一个Java程序员我很想知道机器到底是怎么学习的，但在这一领域确是Python的天下，如果你熟悉了Java这种强类型以及极强工程能力的语言，那么再学习弱类型语言将是一个灾难，打心底里就不会接受它。所以我花了大量时间找到了一条基于JavaStack学习的路，那就是DJL，一个亚马逊主导的Java训练模型的代理框架，除此之外，它们还基于DJL重新编写了《动手学习深度学习》这本书，并且开源线上可阅读。当然了，DJL也包含了JavaStack中数据处理和可视化的方法，他们的API设计和Python中对应的库十分的相似。当然了，在此之前我们应该先学习一下机器学习（也就是该书的前三章内容），幸运的是我找到了，那就是尚硅谷在B站开源的机器学习视频，质量非常非常高，当然了，如果你实在是一点数学也不想看，那么可以看一下Google的机器学习开源教程，里面几乎没有主动提及数学。单独看一个肯定很难懂，但是在这几个优秀的教程反复横跳一定会懂的。最后再说一句，当你入门了之后，你会发现Python是真的要学，Java在数据处理这方面太复杂了，幸运的是，带着实用心态去学习一门新的编程语言对我们来说并不是一件很难的事。

数和量

在数学里，数只是“多少”的抽象，是孤立的符号；而量则是“世界的属性”，它需要用数去度量。根据量的特性，可分为两类核心形式：

标量：只有大小，没有方向，例如温度 36.5℃、质量 70kg。
向量：既有大小又有方向，例如位移、速度、力，可以表示为：
$\vec{v} = (v_1, v_2, \dots, v_n)$

集合论

什么是集合
- 集合就是一些确定的、不同的元素组成的整体。
- 元素可以是数字、字母、对象等。
- 记法：
  - 列举法： $A = \{1,2,3\}$
  - 描述法： $\{x \mid x \text{是偶数且 } x<10\}$
集合的基本概念
- 子集：若集合 $A$ 的所有元素都属于集合 $B$ ，则 $A$ 是 $B$ 的子集，记作 $\subseteq B$
- 空集：没有元素的集合，记作 $\emptyset$
- 全集：讨论问题时所有可能元素组成的集合
- 交集（∩）： $\cap B$ ，同时属于 $A$ 和 $B$ 的元素
- 并集（∪）： $\cup B$ ，属于 $A$ 或 $B$ 的元素
- 补集（ $^c$ ）：全集中不在 $A$ 中的元素

几何

几何的核心作用是为“数与量”提供空间直观表达——通过建立“空间位置”与“数字”的对应关系，将抽象的标量、向量转化为可感知的图形，其中“坐标系”是连接二者的关键桥梁。坐标系通过设定“原点”（基准点）与“坐标轴”（基准方向），为空间中任意点或向量分配唯一的“数字标签”，实现“几何对象→数值”的转化：

二维平面（如纸面）：常用直角坐标系，由x轴（水平方向）、y轴（垂直方向）及原点O(0,0)构成，任意点的位置可表示为坐标 $(x, y)$ （x为沿x轴到原点的距离，y为沿y轴到原点的距离）；
三维空间（如现实空间）：由x轴、y轴、z轴（垂直于平面的方向）及原点O(0,0,0)构成，任意点的位置可表示为坐标 $(x, y, z)$ 。

为简化向量的表示与运算，引入单位向量——模长为1、方向沿坐标轴正方向的向量，作为构建任意向量的“基本单元”：

二维空间：x轴单位向量 $\hat{i}=(1,0)$ ，y轴单位向量 $\hat{j}=(0,1)$ ；
三维空间：x轴单位向量 $\hat{i}=(1,0,0)$ ，y轴单位向量 $\hat{j}=(0,1,0)$ ，z轴单位向量 $\hat{k}=(0,0,1)$ 。

任意向量均可表示为单位向量的线性组合，几何意义是“沿各坐标轴方向的分量叠加”：

二维向量 $\vec{v}=(v_1, v_2)$ ： $\vec{v} = v_1\hat{i} + v_2\hat{j}$ （沿x轴 $\hat{i}$ 方向叠加 $v_1$ 倍，y轴 $\hat{j}$ 方向叠加 $v_2$ 倍）；
三维向量 $\vec{v}=(v_1, v_2, v_3)$ ： $\vec{v} = v_1\hat{i} + v_2\hat{j} + v_3\hat{k}$ 。

函数

现实世界中，量与量之间常存在“依赖变化”的关系（如位置随时间变化、温度随高度变化），函数是描述这种依赖关系的数学工具，本质是“输入到输出的确定性映射”，记为：
$y = f (x)$
其中 $x$ 为输入（自变量）， $y$ 为输出（因变量）， $f$ 为映射规则。结合“量的类型”，函数可分为标量函数与向量函数，二者的可视化与几何意义存在显著差异。

标量函数：标量到标量的映射

标量函数的输入与输出均为标量，形式为 $\mathbb{R}^1 \to \mathbb{R}^1$ （单变量）或 $\mathbb{R}^n \to \mathbb{R}^1$ （多变量），描述“一个标量量随其他标量量的变化”。

单变量标量函数（如 $y = f (x)$ ）
- 映射规则：单个输入 $x$ （如时间 $t$ ）对应单个输出 $y$ （如温度 $T$ ），例如 $T = f (t) = 20 + 5 t$ （表示温度随时间每增加1单位，升高5单位）；
- 几何可视化：以输入 $x$ 为横轴、输出 $y$ 为纵轴建立直角坐标系，函数图像为平面中的一条曲线，曲线的“斜率”反映输出随输入的变化率（如 $y=x^2$ 的抛物线，斜率随 $x$ 增大而增大，体现变化率递增）；
- 核心意义：曲线的形态直接反映函数的变化趋势（上升/下降、递增/递减、极值点等），例如 $y=\sin x$ 的正弦曲线，体现周期性变化。
多变量标量函数（如 $z = f (x, y)$ ）
- 映射规则：两个输入 $x, y$ （如平面中的横、纵坐标）对应单个输出 $z$ （如高度 $h$ ），例如 $\sqrt{x^2 + y^2}$ （表示平面中某点到原点的高度，图像为圆锥面）；
- 几何可视化：需建立三维坐标系（ $x$ 轴、 $y$ 轴为输入轴， $z$ 轴为输出轴），函数图像为三维空间中的一个曲面，曲面的“凹凸性”反映输出随输入的变化趋势；
- 核心意义：曲面的高度分布对应输出的大小，例如地形高度函数，曲面的峰值对应地形的最高点，谷值对应最低点。

向量函数：标量/向量到向量的映射

向量函数的输出为向量，形式为 $\vec{y} = f(x)$ （标量输入）或 $\vec{y} = f(\vec{x})$ （向量输入），描述“向量量随其他量的变化”，几何上体现为“向量在空间中的运动或变换”。

标量输入的向量函数（如 $\vec{r} = f(t)$ ）
- 映射规则：单个输入 $t$ （如时间）对应一个向量输出 $\vec{r}$ （如位置向量），例如平面圆周运动的位置函数 $\vec{r}(t) = (\cos t, \sin t)$ （ $t$ 为时间， $\vec{r}(t)$ 为平面中到原点距离为1的位置向量）；
- 几何可视化：以输入 $t$ 为参数，向量 $\vec{r}(t)$ 的终点在空间中形成一条曲线（称为“参数曲线”），曲线的“切线方向”对应向量的变化方向（如圆周运动的切线方向为速度方向）；
- 核心意义：参数曲线直接反映向量的动态变化，例如 $\vec{r}(t) = (t, t^2)$ 的抛物线参数曲线，体现位置向量随时间沿抛物线轨迹运动。
向量输入的向量函数（如 $\vec{y} = f(\vec{x})$ ）
- 映射规则：向量输入 $\vec{x}$ （如平面中的位置向量 $(x, y)$ ）对应向量输出 $\vec{y}$ （如速度向量 $\vec{v}$ ），例如平面向量变换 $\vec{v} = f(x,y) = (2x, y)$ （表示将输入向量的x分量放大2倍，y分量不变）；
- 几何可视化：在同一坐标系中，将每个输入向量 $\vec{x}$ 的终点与输出向量 $\vec{y}$ 的终点相连，形成“向量场”（如电场、磁场中的向量分布），向量场的“密度”反映向量的大小分布；
- 核心意义：向量场体现空间中向量的整体分布规律，例如 $\vec{v} = (-y, x)$ 的旋转向量场，所有向量沿逆时针方向旋转，体现圆周运动的速度分布。

线性代数

线性代数是一门专注于研究向量及向量间线性关系的数学学科。这里的“向量”不只是几何里的“有向线段”，而是被抽象成了一种通用数学对象——只要某个东西能满足“向量加法”（比如两个向量首尾相连求和）和“标量乘法”（比如给向量放大2倍）这两条基础规则，就能用线性代数的方法分析。这种抽象性打破了二维、三维空间的限制，向量可以存在于任意维度的空间中（比如机器学习里的“特征向量”，可能包含几十甚至上百个维度）。从数学定义来看，若一个集合 $V$ 满足：对任意向量 $\mathbf{u},\mathbf{v}\in V$ ，以及任意标量 $\alpha,\beta\in\mathbb{F}$ （ $\mathbb{F}$ 代表数域，比如我们常用的实数域 $\mathbb{R}$ 、复数域 $\mathbb{C}$ ），都有
$\alpha\mathbf{u}+\beta\mathbf{v}\in V,$
那么这个集合 $V$ 就被称为向量空间。简单说，向量空间就像一个“舞台”，在这里向量既能通过加法组合出新向量，也能通过标量（比如实数1.5、-2）缩放改变大小或方向，最终形成更多样的向量形式。

推荐学习资源：全球最好的线性代数教程

线性组合

线性组合是描述“如何用一组向量拼出新向量”的核心工具。比如我们有向量 $\mathbf{v}_1=(1,0)$ 和 $\mathbf{v}_2=(0,1)$ ，给它们分别乘上标量2和3，再相加得到 $\mathbf{v}=2\mathbf{v}_1+3\mathbf{v}_2=(2,3)$ ，这就是一次线性组合。更一般地，假设在向量空间 $V$ 中有一组向量 $\mathbf{v}_1,\dots,\mathbf{v}_n$ ，再给定一组来自数域 $\mathbb{F}$ 的标量 $\alpha_1,\dots,\alpha_n$ （可理解为“权重”，决定每个向量在组合中的贡献大小），那么向量
$\mathbf{v} = \alpha_1\mathbf{v}_1 + \alpha_2\mathbf{v}_2 + \cdots + \alpha_n\mathbf{v}_n$
就称为这组向量 $\{\mathbf{v}_1,\dots,\mathbf{v}_n\}$ 的一个线性组合。若存在不全为零的标量 $\alpha_1,\dots,\alpha_n$ ，使得线性组合的结果为零向量，即
$\mathbf{0} = \alpha_1\mathbf{v}_1 + \cdots + \alpha_n\mathbf{v}_n,$
则称这组向量 $\{\mathbf{v}_i\}$ 线性相关。通俗说，就是组里至少有一个向量“多余”，能被其他向量通过线性组合表示。若只有当所有 $\alpha_i=0$ 时，上述等式才成立，则称向量组 $\{\mathbf{v}_i\}$ 线性无关。这意味着组里每个向量都“不可替代”，无法被其他向量组合出来。如果向量空间 $V$ 中的一组向量 $\{\mathbf{e}_1,\dots,\mathbf{e}_n\}$ 满足两个条件：

线性无关（无冗余，每个基准都有用）；
能生成 $V$ 中的任意向量（即 $V$ 里所有向量都能唯一表示成这组向量的线性组合）；

那么这组向量就被称为 $V$ 的基（可理解为向量空间的“基本单位”，类似直角坐标系里的x轴、y轴单位向量）。在某个基下，向量的线性组合系数 $(a_1,\dots,a_n)$ 就是这个向量的坐标——就像在直角坐标系里，点 $(3, 4)$ 的坐标是x轴系数3、y轴系数4。坐标通常写成列向量的形式：
$\mathbf{v}= \begin{bmatrix} a_1\\a_2\\\vdots\\a_n \end{bmatrix}.$

基中向量的个数 $n$ 是固定的，它被称为向量空间 $V$ 的维度，记作：
$\dim V=n$
从几何角度理解维度，会更直观：

维度为1的空间：一条直线（比如数轴，只有“左右”一个方向）；
维度为2的空间：一个平面（比如直角坐标系，有“左右”“上下”两个方向）；
维度为3的空间：我们生活的三维空间（有“前后”“左右”“上下”三个方向）；
维度≥4的空间：虽然没有直观几何图像（比如机器学习中100维的特征空间），但代数性质和低维空间一致，比如100维向量的线性组合、坐标表示，和2维向量的规则完全相同。

范数

范数是用来量化向量“大小”或“长度”的数学概念——类似几何中线段的长度，但能适应任意维度的向量。不同场景需要不同的“衡量标准”，常见的有三种范数：

$L^2$ 范数（欧几里得范数）
这是最贴近日常认知的“长度”，对应两点之间的直线距离。对于向量 $\mathbf{v}=(v_1,v_2,\dots,v_n)$ ，其 $L^2$ 范数定义为：
$\|\mathbf{v}\|_2 = \sqrt{\sum_{i=1}^n v_i^2}.$
比如二维向量 $(3, 4)$ 的 $L^2$ 范数是 $\sqrt{3^2+4^2}=5$ ，正好是直角三角形的斜边长度；三维向量 $(1, 2, 2)$ 的 $L^2$ 范数是 $\sqrt{1^2+2^2+2^2}=3$ ，对应空间中从原点到该点的直线距离。
$L^1$ 范数（曼哈顿范数）
得名于“曼哈顿街道的距离”——只能沿横竖方向走，不能走斜线。它的定义是向量各分量的绝对值之和：
$\|\mathbf{v}\|_1 = \sum_{i=1}^n |v_i|.$
比如二维向量 $(3, 4)$ 的 $L^1$ 范数是 $∣3∣ + ∣4∣ = 7$ ，对应从原点到该点“横走3格、竖走4格”的总路程；在机器学习中， $L^1$ 范数常用来让向量“稀疏化”（比如让特征向量中大部分分量为0，只保留关键特征）。
$L^\infty$ 范数（最大范数）
反映向量各分量中的“最大绝对值”，可以理解为“最极端的分量大小”。定义为：
$\|\mathbf{v}\|_\infty = \max_{1\le i\le n} |v_i|.$
比如向量 $(3, 4, - 5)$ 的 $L^\infty$ 范数是 $max\{|3|,|4|,|-5|\}=5$ ；在异常检测中， $L^\infty$ 范数可用来识别“某一个特征特别极端”的数据（比如用户消费数据中，某一笔消费远高于其他消费）。

从几何上看，不同范数对应不同的“单位球”（即范数等于1的所有向量构成的图形）：

$L^2$ 范数的单位球：二维是圆形，三维是球体（最“圆润”的形状）；
$L^1$ 范数的单位球：二维是菱形，三维是菱面体（边角更尖锐）；
$L^\infty$ 范数的单位球：二维是正方形，三维是立方体（边与坐标轴平行）。

点积

对于实数域 $\mathbb{R}^n$ 中的两个向量 $\mathbf{u}=(u_1,\dots,u_n)$ 和 $\mathbf{v}=(v_1,\dots,v_n)$ ，点积（也叫内积）是描述它们“方向关系”的核心运算。它有两种等价的定义方式，分别对应代数和几何意义：

代数定义：分量相乘再求和
点积的代数计算很直接，将两个向量对应分量相乘，再把所有结果相加：
$\mathbf{u}\cdot\mathbf{v} = \sum_{i=1}^n u_i v_i.$
比如 $\mathbf{u}=(1,2,3)$ ， $\mathbf{v}=(4,5,6)$ ，它们的点积是 $1\times4 + 2\times5 + 3\times6 = 4+10+18=32$ 。
几何定义：与夹角相关的“相似度”
点积的几何意义更直观，它和两个向量的夹角直接相关：
$\mathbf{u}\cdot\mathbf{v} = \|\mathbf{u}\|\,\|\mathbf{v}\| \cos\theta,$
其中 $\theta$ 是向量 $\mathbf{u}$ 和 $\mathbf{v}$ 的夹角， $\|\cdot\|$ 通常用 $L^2$ 范数。这个公式告诉我们：点积的大小不仅和两个向量的“长度”有关，还和它们的“方向相似度”有关。

通过点积的结果，我们能快速判断两个向量的方向的相近程度：

若 $\mathbf{u}\cdot\mathbf{v}>0$ ： $\cos\theta>0$ ，说明夹角 $\theta<90^\circ$ ，两向量方向相近（比如 $\mathbf{u}=(1,0)$ 和 $\mathbf{v}=(1,1)$ ，点积为1>0，方向接近）；
若 $\mathbf{u}\cdot\mathbf{v}=0$ ： $\cos\theta=0$ ，说明夹角 $\theta=90^\circ$ ，两向量正交（即“垂直”，比如 $\mathbf{u}=(1,0)$ 和 $\mathbf{v}=(0,1)$ ，点积为0，相互独立）；
若 $\mathbf{u}\cdot\mathbf{v}<0$ ： $\cos\theta<0$ ，说明夹角 $\theta>90^\circ$ ，两向量方向相反（比如 $\mathbf{u}=(1,0)$ 和 $\mathbf{v}=(-1,1)$ ，点积为-1<0，方向相反）。

线性变换与矩阵

向量不仅能“静止”地存在于空间中，还会发生“运动”——比如旋转（将二维向量绕原点转30°）、缩放（将向量长度放大2倍）、投影（将三维向量“压平”到二维平面）、剪切（将矩形变成平行四边形）等。这些“运动”如果满足“线性规则”（即保持向量的线性组合关系），就称为线性变换，而矩阵就是描述线性变换的“数字工具”。线性变换是一种从一个向量空间映射到另一个向量空间的规则，通常记作 $V\to W$ （表示从向量空间 $V$ 映射到向量空间 $W$ ），它必须满足两个条件（保持线性组合）：对任意 $\mathbf{u},\mathbf{v}\in V$ 和任意标量 $\alpha,\beta\in\mathbb{F}$ ，有
$T(\alpha\mathbf{u}+\beta\mathbf{v})=\alpha T(\mathbf{u})+\beta T(\mathbf{v}).$
简单说，就是“先组合向量再变换”，和“先变换向量再组合”的结果完全一致。比如先将 $\mathbf{u}$ 放大2倍、 $\mathbf{v}$ 放大3倍再相加，再进行变换，与先分别变换 $\mathbf{u}$ 和 $\mathbf{v}$ ，再放大2倍、3倍相加，结果相同——这确保了线性变换不会破坏向量的线性关系。线性变换是抽象的（比如“旋转30°”是一个动作），而矩阵能将这个动作转化为具体的数字运算。要通过矩阵表示线性变换，需要先为原空间 $V$ 和目标空间 $W$ 选择“基”（就像给空间设定坐标系）：

设原空间 $V$ 的基为 $\{\mathbf{e}_1,\dots,\mathbf{e}_n\}$ （ $n$ 是 $V$ 的维度，比如二维空间的基 $\mathbf{e}_1=(1,0)$ ， $\mathbf{e}_2=(0,1)$ ）；
设目标空间 $W$ 的基为 $\{\mathbf{f}_1,\dots,\mathbf{f}_m\}$ （ $m$ 是 $W$ 的维度，比如三维空间的基 $\mathbf{f}_1=(1,0,0)$ ， $\mathbf{f}_2=(0,1,0)$ ， $\mathbf{f}_3=(0,0,1)$ ）。

由于线性变换保持线性关系，原空间的每个基向量 $\mathbf{e}_i$ 经过变换后，得到的 $T(\mathbf{e}_i)$ 一定能表示成目标空间基的线性组合（比如将二维基 $\mathbf{e}_1=(1,0)$ 旋转30°后，得到的向量能表示为三维基的组合 $T(\mathbf{e}_1)=\cos30^\circ\cdot\mathbf{f}_1 + \sin30^\circ\cdot\mathbf{f}_2 + 0\cdot\mathbf{f}_3$ ）：
$T(\mathbf{e}_i) = \sum_{j=1}^m a_{ji}\,\mathbf{f}_j.$

我们将这些组合系数 $a_{ji}$ 按“列”收集起来，就能得到一个 $m$ 行、 $n$ 列的矩阵 $A\in\mathbb{F}^{m\times n}$ （行数对应目标空间维度，列数对应原空间维度）：
$\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix}.$

此时，原空间 $V$ 中的任意向量 $\mathbf{v}$ （在基 $\{\mathbf{e}_1,\dots,\mathbf{e}_n\}$ 下表示为列向量），经过线性变换 $T$ 后的结果，就等于矩阵 $A$ 与向量 $\mathbf{v}$ 的乘积——这就是“矩阵乘法对应线性变换”的核心逻辑：
$T(\mathbf{v}) = A\mathbf{v}.$

方阵与非方阵

矩阵的“行数是否等于列数”（即方阵/非方阵），直接决定了线性变换的维度映射关系，进而影响其几何效果和应用场景，这是线性代数中最关键的区分之一。

方阵（ $m = n$ ）：当矩阵的行数 $m$ 等于列数 $n$ 时，称为方阵（如 $2\times2$ 、 $3\times3$ 矩阵），对应的线性变换是 $V\to V$ ——即从 $n$ 维空间映射到同一维度的空间，本质是对空间进行“内部调整”，不改变空间的维度。方阵的核心作用是“在不压缩/扩展维度的前提下，调整空间内向量的位置、方向或大小”，常见几何效果包括：
- 旋转：如二维旋转矩阵 $R(\theta)=\begin{bmatrix}\cos\theta & -\sin\theta \\ \sin\theta & \cos\theta\end{bmatrix}$ ，将二维平面内所有向量绕原点旋转 $\theta$ 角，空间仍为二维；
- 缩放：如三维缩放矩阵 $S=\begin{bmatrix}k_1 & 0 & 0 \\ 0 & k_2 & 0 \\ 0 & 0 & k_3\end{bmatrix}$ ，将向量在x轴放大 $k_1$ 倍、y轴放大 $k_2$ 倍、z轴放大 $k_3$ 倍，空间仍为三维；
- 剪切：如二维剪切矩阵 $C=\begin{bmatrix}1 & k \\ 0 & 1\end{bmatrix}$ ，将矩形沿x轴方向“推斜”成平行四边形，空间维度不变；
- 镜像：如二维镜像矩阵 $M=\begin{bmatrix}-1 & 0 \\ 0 & 1\end{bmatrix}$ ，将向量沿y轴翻转，空间仍为二维。
由于方阵作用于同维度空间，存在两个非方阵没有的核心属性：
- 行列式：描述线性变换对“空间体积”的缩放效果（二维是面积，三维是体积）。例如 $2\times2$ 矩阵 $\begin{bmatrix}2 & 0 \\ 0 & 3\end{bmatrix}$ 的行列式为 $6$ ，会将单位正方形（面积1）放大为 $2\times3$ 的矩形（面积6）；若行列式为负（如 $\begin{bmatrix}-2 & 0 \\ 0 & 3\end{bmatrix}$ ，行列式=-6），则会同时翻转空间方向（如二维图形左右镜像）。
- 可逆性：若方阵的行列式 $\det(A)\neq0$ ，则存在“逆矩阵 $A^{-1}$ ”，能还原该线性变换（即 $A^{-1}(A\mathbf{v})=\mathbf{v}$ ）。例如旋转矩阵的逆矩阵是“反向旋转矩阵”（旋转 $-\theta$ 角），可将旋转后的向量还原为原向量。
非方阵（ $m\neq n$ ）：当矩阵的行数 $m$ 不等于列数 $n$ 时，称为非方阵，对应的线性变换是 $V\to W$ （ $\dim V=n\neq m=\dim W$ ），本质是“在不同维度空间之间转换”，必然改变空间的维度。非方阵分为两种情况： $m > n$ （高维映射）和 $m < n$ （低维映射）。
- $m > n$ （如 $3\times2$ 矩阵）：低维嵌入高维，线性变换是 $\mathbb{F}^n\to\mathbb{F}^m$ （ $m > n$ ），几何意义是将 $n$ 维空间“嵌入”到 $m$ 维空间的一个子空间中，新增“冗余维度”但不改变原空间的形态。
- $m < n$ （如 $2\times3$ 矩阵）：高维投影到低维
  线性变换是 $\mathbb{F}^n\to\mathbb{F}^m$ （ $m < n$ ），几何意义是将 $n$ 维空间“压缩”或“投影”到 $m$ 维空间，会丢失高维空间的部分信息（丢失的维度无法还原）。
非方阵的关键特点：无行列式、不可逆
- 无行列式：由于维度改变，“体积缩放”的概念不再成立（如将三维体积压缩到二维面积，无法用一个数值描述缩放效果），因此非方阵没有行列式；
- 不可逆：丢失的维度信息无法通过任何矩阵还原。例如将三维向量 $(x, y, z)$ 投影为 $(x, y)$ 后，无法从 $(x, y)$ 反推出原向量的 $z$ 值，因此非方阵不存在逆矩阵。

矩阵行与列的含义

矩阵的行和列承载着不同的几何意义，结合线性变换能更直观地理解：

矩阵的每一列对应原空间基向量经过变换后的结果。以二维旋转矩阵为例：
$R(\theta)= \begin{bmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{bmatrix}$
第一列 $\begin{bmatrix}\cos\theta \\ \sin\theta\end{bmatrix}$ 是原x轴单位向量 $(1, 0)$ 旋转 $\theta$ 后的新方向，第二列 $\begin{bmatrix}-\sin\theta \\ \cos\theta\end{bmatrix}$ 是原y轴单位向量 $(0, 1)$ 旋转后的新方向。这意味着：矩阵的列向量定义了变换后空间的新“坐标轴”，所有向量都会跟随这些坐标轴的变化而运动。
矩阵的每一行则对应目标空间中坐标的测量规则。当计算 $A\mathbf{v}=\mathbf{y}$ 时，结果向量 $\mathbf{y}$ 的第 $i$ 个分量 $y_i$ 等于矩阵 $A$ 的第 $i$ 行与原向量 $\mathbf{v}$ 的点积：
$y_i = \sum_{k=1}^n a_{ik}v_k = \text{row}_i(A) \cdot \mathbf{v}$
这相当于用行向量作为“标尺”，测量原向量在新坐标轴上的投影长度。例如，三维到二维的投影矩阵：
$\begin{bmatrix} 1 & 0 & 0\\ 0 & 1 & 0 \end{bmatrix}$
第一行 $(1, 0, 0)$ 测量向量在x轴的投影，第二行 $(0, 1, 0)$ 测量y轴投影，最终将三维向量“压平”到xy平面。

矩阵乘法与线性变换的组合

当多个线性变换依次作用时，其效果可以用矩阵乘法表示，这就是变换的复合。若先进行变换 $T_1$ （对应矩阵 $A$ ），再进行变换 $T_2$ （对应矩阵 $B$ ），则最终结果等价于单个变换 $T_2(T_1(\mathbf{v}))$ ，对应的矩阵为 $B\cdot A$ 。矩阵乘法的顺序至关重要，因为线性变换的作用顺序会影响结果。例如：

先旋转90°（矩阵 $R$ ）再缩放2倍（矩阵 $S$ ）：结果矩阵为 $S\cdot R$ ；
先缩放2倍再旋转90°：结果矩阵为 $R\cdot S$ ；
这两种操作会得到不同的变换效果。数学上表现为矩阵乘法不满足交换律： $A\cdot B \neq B\cdot A$ 。

矩阵的秩

矩阵的秩（rank）定义为其列向量中线性无关向量的最大数量，记作 $\text{rank}(A)$ 。它反映了线性变换后空间的“有效维度”——即变换后向量张成的空间（像空间）的维度。

若 $\text{rank}(A) = n$ （ $n$ 为原空间维度），称矩阵满秩，此时线性变换不会压缩空间（如旋转、缩放）；
若 $\text{rank}(A) < n$ ，称矩阵降秩，此时变换会将空间压缩到更低维度（如投影变换将三维压缩到二维）。

例如，矩阵 $\begin{bmatrix}1 & 2 \\ 2 & 4\end{bmatrix}$ 的列向量线性相关（第二列是第一列的2倍），其秩为1，对应的变换会将所有二维向量压缩到一条直线上。

微积分

微积分是用来研究函数的工具。

全球最好的微积分视频

极限

微积分的所有概念都建立在极限的基础上，它描述了变量在无限逼近某个状态时的终极趋势。就像数列1/2, 1/4, 1/8…不断靠近0却永远不到达0一样，极限让我们能够精确描述"无限接近"这种抽象的动态过程。对于函数 $f (x)$ ，当自变量 $x$ 无限接近 $a$ （但不等于 $a$ ）时，如果函数值 $f (x)$ 无限接近某个常数 $L$ ，我们就称 $L$ 是 $f (x)$ 在 $x$ 趋近于 $a$ 时的极限，记作：
$\lim_{x \to a} f(x) = L$
这个定义包含两层含义：

自变量 $x$ 可以从 $a$ 的左侧（ $\to a^-$ ）或右侧（ $\to a^+$ ）趋近；
无论 $x$ 以何种方式趋近于 $a$ ，函数值都必须稳定地逼近 $L$ 。

几何上，这相当于观察函数图像在 $x = a$ 附近的走势。例如，函数 $f(x)=\frac{x^2-1}{x-1}$ 在 $x = 1$ 处无定义，但当 $x$ 无限接近1时，函数值无限接近2，因此 $\lim_{x \to 1} f(x)=2$ 。

导数

导数是微积分的核心概念，它量化了函数在某一点的瞬时变化率，就像用放大镜观察函数图像在该点的"倾斜程度"。函数 $f (x)$ 在点 $x_0$ 处的导数定义为极限：
$f'(x_0) = \lim_{\Delta x \to 0} \frac{f(x_0+\Delta x) - f(x_0)}{\Delta x}$
几何意义是函数图像在 $x_0, f(x_0))$ 处切线的斜率。当 $\Delta x$ 趋近于0时，割线逐渐变成切线，平均变化率升级为瞬时变化率。基本求导法则：

四则运算： $\pm v)' = u' \pm v'$ ； $(uv)^{'} = u^{'} v + u v^{'}$ ； $\left(\frac{u}{v}\right)' = \frac{u'v - uv'}{v^2}$
链式法则：若 $y = f (g (x))$ ，则 $\cdot g'(x)$ （复合函数求导的核心）
基本公式： $x^n)' = nx^{n-1}$ ； $e^x)' = e^x$ ； $(\sin x)' = \cos x$ ； $(\ln x)' = \frac{1}{x}$

当我们对导数再次求导，就得到高阶导数，它描述了变化率本身的变化情况。

二阶导数 $f^{''} (x)$ 是导数 $f^{'} (x)$ 的导数，表示斜率的变化率，几何上对应函数图像的曲率；
三阶导数 $f^{'''} (x)$ 描述曲率的变化率，以此类推。

例如，物体的位置函数 $s (t)$ 的一阶导数是速度 $v (t) = s^{'} (t)$ ，二阶导数是加速度 $a (t) = v^{'} (t) = s^{''} (t)$ ，三阶导数是加加速度（ jerk ），用于衡量运动的平滑度。

微分

微分是导数的“孪生概念”，它用“线性增量”近似函数的“实际增量”，就像用直尺测量曲线的微小片段——虽然不是完全精确，但误差足够小，能大幅简化计算。对于函数 $y = f (x)$ ，当自变量 $x$ 获得微小增量 $\Delta x$ （记为 $dx=\Delta x$ ，称为自变量的微分）时，函数增量 $\Delta y=f(x+\Delta x)-f(x)$ 的线性主部称为函数的微分，记作 $d y$ ：
$\cdot dx$
这里的核心是“近似”： $\Delta y = dy + o(\Delta x)$ ，其中 $o(\Delta x)$ 是比 $\Delta x$ 更小的“高阶无穷小”（当 $\Delta x$ 趋近于0时，误差可以忽略）。例如，函数 $y=x^2$ 的微分 $\cdot dx$ ，当 $x = 1$ 、 $d x = 0.01$ 时， $\Delta y=(1.01)^2-1^2=0.0201$ ，而 $\times 1 \times 0.01=0.02$ ，误差仅0.0001，几乎可以忽略。从图像上看， $d y$ 是函数在 $x$ 处切线的“纵向增量”——当 $x$ 增加 $d x$ 时，切线上升（或下降）的高度就是 $d y$ ，而 $\Delta y$ 是曲线本身的纵向增量。微分的本质是“用切线代替曲线”，在微小范围内，这种替代的误差极小。

偏导数

在多元函数中，偏导数描述了函数在某一维度上的变化率，其他维度保持不变。这就像在三维山地地图上，只沿x轴或y轴方向测量坡度。对于二元函数 $f (x, y)$ ，它关于 $x$ 的偏导数定义为：
$\frac{\partial f}{\partial x} = \lim_{\Delta x \to 0} \frac{f(x+\Delta x, y) - f(x,y)}{\Delta x}$
计算时只需将其他变量视为常数，按一元函数求导法则计算。偏导数 $\frac{\partial f}{\partial x}$ 表示用平面 $y = y_0$ 切割曲面 $z = f (x, y)$ 得到的曲线在该点的切线斜率，同理 $\frac{\partial f}{\partial y}$ 对应 $x = x_0$ 切片的斜率。方向导数扩展了偏导数的概念，它描述函数在任意指定方向上的变化率，而非局限于坐标轴方向。函数 $f (x, y)$ 在点 $x_0,y_0)$ 处沿单位向量 $\mathbf{u} = (\cos\theta, \sin\theta)$ 方向的方向导数为：
$D_{\mathbf{u}}f(x_0,y_0) = \lim_{h \to 0} \frac{f(x_0 + h\cos\theta, y_0 + h\sin\theta) - f(x_0,y_0)}{h}$
通过偏导数可简化计算： $D_{\mathbf{u}}f = \frac{\partial f}{\partial x}\cos\theta + \frac{\partial f}{\partial y}\sin\theta$ ，这本质是偏导数与方向向量的点积。

梯度

梯度是由所有偏导数组成的向量，它指向函数值增长最快的方向，其模长表示该方向上的变化率大小。对于多元函数 $f(x_1,x_2,...,x_n)$ ，梯度定义为：
$\nabla f = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, ..., \frac{\partial f}{\partial x_n} \right)$
梯度具有两个关键性质：

梯度方向是函数局部增长最快的方向；
梯度与函数的等高线（或等高面）垂直。

积分

积分是导数的逆运算，它计算函数在某一区间（或区域）上的“累积效应”——可以是面积、体积、总变化量，也可以是概率、期望等抽象的累积概念，是连接“局部变化”与“全局累积”的桥梁。

不定积分是“找原函数”的过程——已知函数 $f (x)$ ，寻找所有满足 $F^{'} (x) = f (x)$ 的函数 $F (x)$ ，记作：
$\int f(x)dx = F(x) + C$
其中 $C$ 是任意常数（称为积分常数），因为常数的导数为0，所以原函数不唯一，而是一个“函数族”。例如， $\int x^2dx = \frac{1}{3}x^3 + C$ ，因为 $(\frac{1}{3}x^3 + C)' = x^2$ 。
定积分计算函数 $f (x)$ 在区间 $[a, b]$ 上的“净累积量”，定义为 Riemann 和的极限：
$\int_a^b f(x)dx = \lim_{n \to \infty} \sum_{i=1}^n f(x_i^*) \Delta x$
其中 $\Delta x = \frac{b-a}{n}$ 是区间分割的小宽度， $x_i^*$ 是每个小区间内的任意点。定积分的几何意义是：函数图像与 $x$ 轴在 $[a, b]$ 区间内围成的“净面积”—— $x$ 轴上方的面积为正，下方为负，总积分是正负面积的代数和。例如， $\int_{-1}^1 x dx = 0$ （因为 $x$ 在 $[- 1, 0]$ 的负面积与 $[0, 1]$ 的正面积相等，相互抵消）； $\int_0^1 x^2 dx = \frac{1}{3}$ （抛物线 $y=x^2$ 在 $[0, 1]$ 下的面积）。

下面这个定理是微积分的“灵魂”，它建立了不定积分与定积分的联系：若 $F (x)$ 是 $f (x)$ 的一个原函数（即 $F^{'} (x) = f (x)$ ），则：
$\int_a^b f(x)dx = F(b) - F(a)$
例如，计算 $\int_0^2 x^2 dx$ ，先找原函数 $F(x)=\frac{1}{3}x^3$ ，再代入得 $F(2)-F(0)=\frac{8}{3} - 0 = \frac{8}{3}$ ，无需再计算复杂的 Riemann 和，大幅简化了定积分计算。

计数原理

加法原理（分类计数原理）

思想：做一件事有若干互斥的方式可选，只能选择其中一种，则总方式数 = 各种方式数之和。

条件：各类方式 不能同时发生（互斥）。
公式：若有 $n_1$ 、 $n_2$ 、…、 $n_k$ 种互斥方式，则

$\text{总数} = n_1 + n_2 + \dots + n_k$

例子：今天午餐要么吃米饭（3种选项），要么吃面条（2种选项），不能都吃 → 总选择 = $3 + 2 = 5$ 种。

乘法原理（分步计数原理）

思想：做一件事需要分成若干步骤依次完成，每一步有若干选择，则总方式数 = 各步方式数的乘积。

条件：各步骤 必须都做（独立进行）。
公式：若第 1 步有 $m$ 种方法，第 2 步有 $n$ 种方法，则

$\text{总数} = m \times n$

例子：要吃一顿套餐，先选主食（3种），再选饮料（2种） → 总选择 = $3\times 2 = 6$ 种。

排列与组合（乘法原理的具体应用）

排列和组合可以看作是乘法原理在**特定场景（从集合中挑元素）**的具体推演。

排列（有顺序）

定义：从 $n$ 个元素中选 $r$ 个 按顺序排成一列。
公式：

$P(n,r)=n\times(n-1)\times\cdots\times(n-r+1)=\frac{n!}{(n-r)!}$

组合（无顺序）

定义：从 $n$ 个元素中选 $r$ 个，不考虑顺序。
公式：

$C(n,r)=\frac{n!}{r!(n-r)!}$

概率论与数理统计

事物的概率是事物客观固有的属性，
数理统计以概率论为理论基础，概率论通过数理统计落地应用；两者共同构成“处理不确定性问题”的框架，也是机器学习中“建模不确定性、从数据学习规律”的核心工具。

学科	研究对象	核心逻辑	通俗理解
概率论	已知概率模型的随机现象	从“模型”推导“概率”（演绎推理）	知道骰子公平（模型），算掷出6点的概率
数理统计	未知概率模型的观测数据	从“数据”推断“模型”（归纳推理）	掷骰子100次得30次6点（数据），推断骰子是否公平

基本概念

随机现象是指在相同条件下可以重复出现，但结果不确定的客观现象。随机试验是指在相同条件下可以重复进行，并且结果不唯一、不能事先确定，但所有可能结果是已知的一类试验。即随机试验是对随机现象的有计划观测。一次随机试验的最基本、不可再分的结果称为样本点，所有样本点的集合称为样本空间。样本空间中的子集就是一个随机事件，随机事件可以由一个或多个样本点组成。概率函数是：

一个把事件集合映射为 $[0, 1]$ 实数的函数，
用来描述随机试验中各事件发生的可能性大小。

形式上：

$\mathcal{F} \to [0,1]$

其中 $\mathcal{F}$ 是样本空间 $\Omega$ 上的事件集合
对任意事件 $\subseteq \Omega$ ，都有 $\in [0,1]$

概率模型是用于描述随机试验结果不确定性的数学模型，它规定了所有可能结果以及它们发生的概率。形式化地，一个概率模型由三部分组成：
$(\; \Omega,\; \mathcal{F},\; P \;)$
其中：

$\Omega$ 为样本空间
$\mathcal{F}$ 为事件集合
$P$ 为概率函数

常见的概率模型如下：

古典概型（样本点有限且等可能）
$\frac{A}{\Omega}$
比如掷骰子掷出偶数： $P (A) = 3/6 = 1/2$ 。
几何概型（样本点连续且等可能）
$\frac{\text{事件区域长度/面积/体积}}{\text{样本空间总长度/面积/体积}}$

概率的分类与计算

类型	说明
先验概率	在得到任何新证据之前，某个事件发生的概率，记为 $P (A)$
条件概率	在 $B_i$ 事件发生的前提下， $A$ 事件发生的概率，记为 $\mid B_i)$
后验概率	在得到新证据 $A$ 后，事件 $B_i$ 发生的概率，记为 $P(B_i \mid A)$

先验概率往往可以通过概率模型直接计算，但有时直接计算比较困难，此时可以通过全概率公式进行计算：
$\sum_{i=1}^{n} P(A \mid B_i) \cdot P(B_i)$

$B_1, B_2, ..., B_n$ 是 互斥且完备事件（两两不重叠，且把所有可能情况覆盖）
$\mid B_i)$ 是 条件概率：在 $B_i$ 发生的前提下 $A$ 发生的概率

给定事件 $B$ 已发生，事件 $A$ 在此条件下发生的概率：
$\frac{P(A \cap B)}{P(B)}, \quad P(B)>0$

后验概率可以通过贝叶斯公式计算：

$P(B_i \mid A) = \frac{P(A \mid B_i) \cdot P(B_i)}{P(A)}$

随机变量和概率分布

随机变量是用于将样本空间中的样本点映射到实数的函数，记作 $X$ ，对于样本空间 $\Omega$ ，样本 $\omega_i$ ：
$X:\Omega \to \reals \\ X(\omega_i)=x_i$
那么根据概率模型的不同，进而将随机变量划分为离散型随机变量和连续性随机变量。对于离散型随机变量，可以用 概率质量函数 (PMF) 来描述随机变量的概率分布，记作
$p(x),p(x_i)\ge0且\sum_ip(x_i)=1$
那么：
$P(X=x_i)=p(x_i)$
对于连续型随机变量，可以用 概率密度函数 (PDF) 来描述随机变量的概率分布，记作：
$f(x),f(x)\ge0且\int_{-\infty}^{\infty} f(x) dx = 1$
那么：
$\leq X \leq b) = \int_a^b f(x) dx$

概率分布就是随机变量的取值和对应概率（或概率密度）的整体描述。常用的概率分布如下：

离散型概率分布（PMF）：
1. 伯努利分布
  $\begin{cases} p, & x=1\\ 1-p, & x=0 \end{cases}, \quad 0 \le p \le 1$
2. 二项分布： $X\sim B(n,p)$
  $C_n^k p^k (1-p)^{n-k}, \quad k=0,1,\dots,n$
3. 泊松分布： $X\sim P(λ)$
  $\frac{e^{-\lambda} \lambda^k}{k!}, \quad k=0,1,2,\dots$
连续型概率分布（PDF）：
1. 均匀分布： $X\sim U(a,b)$
  $\begin{cases} \frac{1}{b-a}, & a \le x \le b\\ 0, & \text{其它} \end{cases}$
2. 正态分布： $X\sim N(μ, σ²)$
  $\frac{1}{\sqrt{2\pi\sigma^2}} \exp\Big[-\frac{(x-\mu)^2}{2\sigma^2}\Big], \quad x \in \mathbb{R}$
3. 指数分布： $X\sim E(\lambda)$
  $\begin{cases} \lambda e^{-\lambda x}, & x \ge 0\\ 0, & x < 0 \end{cases}$

数字特征

数字特征就是用一个或多个数值，刻画随机变量或概率分布的整体特性。

数学期望：随机变量取值的加权平均，体现分布的中心位置
- 离散型：
  $\sum_i x_i p(x_i)$
- 连续型：
  $\int_{-\infty}^{\infty} x f(x) dx$
方差与标准差：衡量数据或分布的离散程度
- 方差：
  $Var(X) = E[(X - E[X])^2]$
  - 离散型：
    $\sum_i (x_i - E[X])^2 p(x_i)$
  - 连续型：
    $\int_{-\infty}^{\infty} (x - E[X])^2 f(x) dx$
- 标准差： $\sigma = \sqrt{Var(X)}$
协方差
$\mathrm{Cov}(X, Y) = E\big[(X - E[X])(Y - E[Y])\big]$
- 方向性：
  - $\mathrm{Cov}(X,Y) > 0$ ： $X$ 增大时， $Y$ 往往也增大（正相关趋势）。
  - $\mathrm{Cov}(X,Y) < 0$ ： $X$ 增大时， $Y$ 往往减小（负相关趋势）。
  - $\mathrm{Cov}(X,Y) = 0$ ：二者线性上无关（但可能存在非线性关系）。
- 大小问题：协方差的值依赖于变量的量纲（单位），比如身高（米）和体重（公斤），换单位结果就会变。所以协方差不方便直接比较。
相关系数：相关系数是无量纲的，更直观，常用于衡量两个变量之间的强弱关系。
$\rho_{X,Y} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}$
其中 $\sigma_X, \sigma_Y$ 是标准差。
- 意义
  - 取值范围： $[- 1, 1]$ 。
  - $\rho = 1$ ：完全正线性相关（点都落在一条上升直线上）。
  - $\rho = -1$ ：完全负线性相关。
  - $\rho = 0$ ：无线性关系。

大数定律

设 $X_1, X_2, \dots, X_n$ 是独立同分布随机变量，期望为 $\mu$ 。那么当样本数 $\to \infty$ 时：

$\overline{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \;\;\longrightarrow\;\; \mu$

即：

样本均值趋近于总体均值。
说明通过大量采样，平均值就能逼近真实期望。

中心极限定理

设 $X_1, X_2, \dots, X_n$ 是独立同分布随机变量，期望为 $\mu$ ，方差为 $\sigma^2$ 。当 $n$ 很大时，标准化的样本均值：

$\frac{\overline{X}_n - \mu}{\sigma/\sqrt{n}}$

近似服从标准正态分布 $N (0, 1)$ 。即：

不管原始分布是什么，只要样本数够大，样本均值的分布趋近正态分布。
这是正态分布“普适性”的来源。

样本与统计量

样本与总体
- 总体（Population）：研究对象的全体集合，通常用未知参数描述。
- 样本（Sample）：从总体中抽取的若干观测值，用于推断总体特征。
- 样本量：样本中观测值的个数，记为 $n$ 。
统计量
- 统计量（Statistic）：从样本计算得出的量，用于估计总体参数。
- 常见统计量：
  - 样本均值：
    $\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$
  - 样本方差：
    $S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2$
  - 样本标准差：
    $\sqrt{S^2}$
  - 样本协方差：
    $\mathrm{Cov}(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n} (X_i - \overline{X})(Y_i - \overline{Y})$
  - 样本相关系数：
    $r_{XY} = \frac{\mathrm{Cov}(X,Y)}{S_X S_Y}$
抽样分布
- 定义：统计量在重复抽样中形成的概率分布。
- 常用结论：
  - 若总体服从正态 $N(\mu, \sigma^2)$ ，则
    $\overline{X} \sim N\Big(\mu, \frac{\sigma^2}{n}\Big)$
  - 小样本方差比 $\chi^2$ 分布：
    $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}$
  - $t$ 分布：
    $\frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t_{n-1}$
  - 两个方差比 $F$ 分布：
    $\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F_{n_1-1,n_2-1}$

参数估计

点估计

点估计：用样本统计量作为总体参数的估计值。
方法：

矩估计法

原理：总体矩 = 样本矩
例子：总体均值 $\mu$ 的估计

$\hat{\mu} = \overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$

最大似然估计法（MLE）

定义：选择使样本观测结果出现概率最大的参数。
似然函数：

$L(\theta) = \prod_{i=1}^{n} f(X_i; \theta)$
对数似然：

$\ell(\theta) = \sum_{i=1}^{n} \log f(X_i;\theta)$
求解：

$\frac{\partial \ell(\theta)}{\partial \theta} = 0$
示例：正态分布 $N(\mu,\sigma^2)$ 的MLE

$\hat{\mu} = \overline{X}, \quad \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i-\overline{X})^2$

点估计性质

无偏性： $E[\hat{\theta}] = \theta$
一致性： $\to \infty, \hat{\theta} \to \theta$
有效性：在所有无偏估计量中方差最小
最小方差无偏估计（MVUE）：既无偏又方差最小

区间估计

置信区间：基于样本给出总体参数的区间估计
例子：
- 正态总体均值已知方差：
  
  $\mu \in \Big[\overline{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \overline{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\Big]$
- 正态总体均值未知方差：
  
  $\mu \in \Big[\overline{X}-t_{\alpha/2,n-1}\frac{S}{\sqrt{n}}, \overline{X}+t_{\alpha/2,n-1}\frac{S}{\sqrt{n}}\Big]$

假设检验

基本概念

原假设 $H_0$ ：假设成立
备择假设 $H_1$ ：与原假设对立
显著性水平 $\alpha$ ：拒绝 $H_0$ 的概率
检验统计量：根据样本构造
$p$ 值：实际观测值对应统计量概率

常用检验

Z 检验：大样本均值检验
t 检验：小样本均值检验
$\chi^2$ 检验：方差检验、列联表独立性检验
F 检验：两总体方差比检验
单尾/双尾检验

检验步骤

提出 $H_0$ 与 $H_1$
选择显著性水平 $\alpha$
构造检验统计量
求 $p$ 值或临界值
作出结论
分析类型 I/II 错误与检验力

回归与相关分析

简单线性回归

模型：

$\beta_0 + \beta_1 X + \epsilon, \quad \epsilon \sim N(0, \sigma^2)$
最小二乘估计：

$\hat{\beta}_1 = \frac{\sum_i (X_i-\overline{X})(Y_i-\overline{Y})}{\sum_i (X_i-\overline{X})^2}, \quad \hat{\beta}_0 = \overline{Y} - \hat{\beta}_1 \overline{X}$
回归方程解释：
- $\beta_1$ ：每单位 $X$ 变化引起 $Y$ 的平均变化
- $\beta_0$ ： $X = 0$ 时 $Y$ 的估计值

多元回归

模型：

$\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p + \epsilon$
矩阵形式：

$\hat{\beta} = (X^TX)^{-1}X^T Y$

抽样分布与渐近理论

样本均值 $\overline{X}$ 的分布：
- 正态总体：精确分布
- 大样本（CLT）：渐近正态
样本方差 $(n-1)S^2/\sigma^2 \sim \chi^2_{n-1}$
$t$ 分布来源：

$\frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t_{n-1}$
$F$ 分布来源：

$\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F_{n_1-1,n_2-1}$
渐近正态性与大样本理论（MLE的一致性与渐近正态性）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

美团悄悄上线了生活Agent，懒人的春天真的要来了。

2048 AI社区

揭秘全解：提示工程架构师提示工程文档规范指南揭秘全解

提示工程文档是记录提示全生命周期（设计→测试→迭代→协作）的结构化文档沉淀知识：把“个人经验”变成“团队资产”；统一认知：让技术、业务、运营对“AI能力”达成共识；可追溯性：迭代时能快速定位“为什么变”“变了什么”；降低风险：避免因“口口相传”导致的错误。这是文档的“核心”，要写清楚“提示的目标、输入输出、规则、示例”，让所有人都能看懂“这个提示是做什么的”。输入：明确AI需要的“信息项”（必填/

2048 AI社区

CoT：概述与改进方法

2048 AI社区

所有评论(0)

查看更多评论

超级种码

@qq_45295475

已为社区贡献2条内容

All in AI之二：一文构建机器学习数学体系

超级种码

文章目录

前言

如何基于JavaStack学习机器学习

数和量

集合论

几何

函数

标量函数：标量到标量的映射

向量函数：标量/向量到向量的映射

线性代数

线性组合

范数

点积

线性变换与矩阵

方阵与非方阵

矩阵行与列的含义

矩阵乘法与线性变换的组合

矩阵的秩

微积分

极限

导数

微分

偏导数

梯度

积分

计数原理

加法原理（分类计数原理）

乘法原理（分步计数原理）

排列与组合（乘法原理的具体应用）

概率论与数理统计

基本概念

概率的分类与计算

随机变量和概率分布

数字特征

大数定律

中心极限定理

样本与统计量

参数估计

点估计

矩估计法

最大似然估计法（MLE）

点估计性质

区间估计

假设检验

基本概念

常用检验

检验步骤

回归与相关分析

简单线性回归

多元回归

相关系数与假设检验

抽样分布与渐近理论

所有评论(0)

超级种码