人工智能的线性代数基础

n维向量可表示为，比如：一张28×28的手写数字灰度图，展开后是784个像素值，对应784维向量；一个人的特征（身高、体重、年龄），对应3维向量。AI中优先用列向量（元素垂直排列），方便后续矩阵运算匹配。记为A∈Rm×nA∈Rm×n（m行n列，元素为实数），比如：100个手写数字样本（每个784维），构成100×784矩阵（每行一个样本）；神经网络隐藏层权重，用矩阵存储（行数=输出维度，列数=输入

Superfei_

817人浏览 · 2026-01-22 09:25:44

Superfei_ · 2026-01-22 09:25:44 发布

线性代数基础

线性代数是AI的“数学骨架”，从图像识别到神经网络，本质都是线代工具的应用。无需纠结复杂证明，抓住“数据表示”和“线性变换”两大核心，就能打通AI与线代的连接。

一、向量：AI世界的数据原子

向量不是抽象符号，而是多维度数据的容器——把一个样本的所有特征按顺序排列，就构成了向量。

1. 核心定义

n维向量可表示为 (a₁,a₂,...,aₙ)，比如：

一张28×28的手写数字灰度图，展开后是784个像素值，对应784维向量；
一个人的特征（身高、体重、年龄），对应3维向量 (175,60,20)。

AI中优先用列向量（元素垂直排列），方便后续矩阵运算匹配。

2. 关键运算

内积（点积）：两个向量对应元素相乘再求和，结果是标量。
- 公式：a·b = a₁b₁+a₂b₂+...+aₙbₙ。
  用途：计算相似度（如两个词向量内积越大，语义越接近）、神经网络全连接层输出（输入向量与权重向量内积加偏置）。
数乘：用常数k乘向量所有元素，改变向量“长度”不改变方向（k负则反向）。
用途：特征缩放（如把身高单位从cm转m，乘以0.01统一量纲）。
范数：衡量向量“长度”，AI中常用两种：
L1范数（元素绝对值之和）：用于Lasso回归特征选择（强制部分参数为0）；
L2范数（元素平方和开根号）：用于岭回归正则化（惩罚大参数，防止过拟合）。

二、矩阵：AI的批量运算与变换工具

矩阵是向量的集合（m行n列矩阵可看作m个n维行向量，或n个m维列向量），核心作用是批量处理数据和描述线性变换。

1. 核心定义

记为 $A∈R^{(m×n)}$ （m行n列，元素为实数），比如：

100个手写数字样本（每个784维），构成100×784矩阵（每行一个样本）；
神经网络隐藏层权重，用矩阵存储（行数=输出维度，列数=输入维度）。

2. 关键运算

矩阵乘法：仅当A的列数=B的行数时可乘，结果矩阵维度为A行数×B列数，元素为A对应行与B对应列的内积。
用途：批量数据变换（如100个样本向量同时与权重矩阵相乘，得到100个输出向量），是神经网络前向传播的核心运算。
逆矩阵：对应“反向变换”，可求解线性方程组。AI中用于模型参数求解（如线性回归中直接求权重矩阵）。
秩：矩阵中“有效特征”的数量（非冗余向量的最大个数）。用途：判断数据冗余（秩越小，冗余度越高），避免模型过拟合。

补充：以上的运算操作知道意义即可，不需要掌握方法，因为这些操作都有现成的库已经实现了。

三、线性变换：特征提取的本质

AI处理数据的核心是“特征变换”，而线性变换（如旋转、缩放、投影）是基础，且所有线性变换都可通过矩阵表示。

1. 核心概念通俗化

线性组合：用一组系数乘以向量再求和，比如RGB颜色系统中，任何颜色都是红、绿、蓝向量的线性组合（黄色=1×红色+1×绿色+0×蓝色）。AI中对应“特征融合”，从基础特征生成高级特征。
线性相关/无关：若一组向量中，某个向量可由其他向量线性表示，则线性相关（存在冗余）；反之则无关（所有向量都是独立特征）。用途：特征选择（剔除相关向量，保留无关核心特征）。
向量空间：所有向量的“活动范围”，比如二维向量的空间是平面，三维向量的空间是立体。AI中常关注“子空间”（如特征向量张成的空间），聚焦有效特征范围。

2. AI中的核心应用

卷积神经网络（CNN）的卷积核，本质是对图像向量进行线性变换（通过点积提取局部特征）；循环神经网络（RNN）的状态更新，也是基于矩阵的线性变换叠加非线性激活。

四、特征值与特征向量：线性变换的“不变核心”

这是线性代数的灵魂知识点，也是AI降维、特征提取的核心工具，不用死记证明，抓住“方向不变”这个关键。

核心定义

对n阶方阵 $A$ ，如果存在一个数 $λ\lambda$ 和非零向量 $x$ ，满足

$Ax=λxAx=\lambda x$

那么 $λ\lambda$ 就是矩阵 $A$ 的特征值， $x$ 就是对应 $λ\lambda$ 的特征向量。

通俗来说，用矩阵 $A$ 对向量 $x$ 做线性变换时， $x$ 的方向没有变，只是被拉长/缩短了 $λ\lambda$ 倍（ $λ>1\lambda>1$ 是拉长， $0<λ<10<\lambda<1$ 是缩短， $λ<0\lambda<0$ 是反向缩放）。

比如：一个“沿x轴拉伸2倍”的变换矩阵，x轴上的所有向量都是特征向量，特征值为2；y轴上的向量也是特征向量，特征值为1（长度不变）。

AI中的核心应用（PCA降维）

PCA（主成分分析）是AI中最常用的降维算法，核心就是找特征值最大的几个特征向量：

步骤1：对样本数据矩阵做“去中心化”（每个特征减去均值）；
步骤2：计算数据的协方差矩阵（描述特征之间的相关性）；
步骤3：求协方差矩阵的特征值和特征向量；
步骤4：保留特征值最大的k个特征向量，构成“投影矩阵”，把高维数据投影到这k个向量张成的空间，实现降维。

白话用途：把784维的手写数字图片，压缩到20维，还能保留核心特征，减少计算量。

五、奇异值分解(SVD)：万能的矩阵分解工具

特征值分解只能处理方阵，而现实中AI的数据集矩阵（比如100个样本×784个特征）大多不是方阵，这时候就需要SVD（奇异值分解）——它能分解任意形状的矩阵，是AI领域的“瑞士军刀”。

核心定义（通俗拆解）

对任意一个 $m×nm\times n$ 的矩阵 $A$ ，SVD能把它拆成三个矩阵的乘积：

$A=UΣVTA=U\Sigma V^T$

各部分作用：

$U$ （ $m×mm\times m$ 正交矩阵）：左奇异向量，对应数据的“行特征”（样本特征）；
$Σ\Sigma$ （ $m×nm\times n$ 对角矩阵）：对角线上的元素叫奇异值，按从大到小排列，其余位置都是0；
$V^T$ （ $n×nn\times n$ 正交矩阵）：右奇异向量的转置，对应数据的“列特征”（特征维度）。

换句话说，就是把任意矩阵变换，拆解成旋转→缩放→再旋转三步操作，奇异值就是“缩放因子”。

为什么SVD是AI的“神器”？
- 范围广：能分解任意矩阵，不像特征值分解只限于方阵；
- 降维更灵活：PCA其实是SVD的“特例”——对协方差矩阵做SVD，和直接做PCA的结果完全一致；
- 数据压缩：保留前k个最大的奇异值，对应的 $U$ 和 $V^T$ 子矩阵，就能近似还原原矩阵。比如把1000×1000的图像矩阵，用前50个奇异值压缩，体积缩小20倍，还能看清图像内容；
- 推荐系统：协同过滤算法的核心就是SVD——把“用户-商品”评分矩阵分解，用分解后的矩阵预测用户对未评分商品的喜好。

六、总结：AI视角下的线代学习优先级

无需精通所有定理，优先掌握：

向量：内积、范数（AI数据表示与相似度计算）；
矩阵：乘法、逆、秩（批量运算与参数求解）；
特征值与特征向量：PCA降维的核心原理；
SVD：万能矩阵分解工具，覆盖降维、压缩、推荐系统等场景。

线代的核心不是计算，而是用向量表示数据，用矩阵描述变换，用特征值/SVD提取核心信息的思维——这正是AI从数据中学习规律的底层逻辑。后续学习神经网络、聚类算法时，回头再看这些知识点，会发现AI不过是线代的具体应用而已。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026降AI率指南：10款论文降ai工具红黑榜！亲测哪个免费降ai率工具不“智障”？

2048 AI社区

AI学习笔记整理（67）——大模型的Benchmark（基准测试）

以上我们介绍的推理测试，主要还是建立在一类已有的知识学可上的（如数学、物理、生物），要攻克这些题目，模型既要非常博学（掌握大量的学术知识）还得非常聪明（推理能力很强）。那有没有专注于考模型聪不聪明，而不考模型的知识积累的基准呢？就像对于一个人的评价，我们看他聪不聪明，可能从小学能看出来了，不一定要等到他上完大学之后再做评价。对模型的测试也是一样，下面我们讲的对于模型 “抽象推理” 能力的测评，就属