线性代数基础

线性代数是AI的“数学骨架”,从图像识别到神经网络,本质都是线代工具的应用。无需纠结复杂证明,抓住“数据表示”和“线性变换”两大核心,就能打通AI与线代的连接。

一、向量:AI世界的数据原子

向量不是抽象符号,而是多维度数据的容器——把一个样本的所有特征按顺序排列,就构成了向量。

1. 核心定义

n维向量可表示为 (a₁,a₂,...,aₙ),比如:

  • 一张28×28的手写数字灰度图,展开后是784个像素值,对应784维向量;

  • 一个人的特征(身高、体重、年龄),对应3维向量 (175,60,20)

AI中优先用列向量(元素垂直排列),方便后续矩阵运算匹配。

2. 关键运算

  • 内积(点积):两个向量对应元素相乘再求和,结果是标量。

    • 公式:a·b = a₁b₁+a₂b₂+...+aₙbₙ
      用途:计算相似度(如两个词向量内积越大,语义越接近)、神经网络全连接层输出(输入向量与权重向量内积加偏置)。
  • 数乘:用常数k乘向量所有元素,改变向量“长度”不改变方向(k负则反向)。
    用途:特征缩放(如把身高单位从cm转m,乘以0.01统一量纲)。

  • 范数:衡量向量“长度”,AI中常用两种:
    L1范数(元素绝对值之和):用于Lasso回归特征选择(强制部分参数为0);
    L2范数(元素平方和开根号):用于岭回归正则化(惩罚大参数,防止过拟合)。

二、矩阵:AI的批量运算与变换工具

矩阵是向量的集合(m行n列矩阵可看作m个n维行向量,或n个m维列向量),核心作用是批量处理数据和描述线性变换。

1. 核心定义

记为 A∈R(m×n)A∈R^{(m×n)}AR(m×n)(m行n列,元素为实数),比如:

  • 100个手写数字样本(每个784维),构成100×784矩阵(每行一个样本);

  • 神经网络隐藏层权重,用矩阵存储(行数=输出维度,列数=输入维度)。

2. 关键运算

  • 矩阵乘法:仅当A的列数=B的行数时可乘,结果矩阵维度为A行数×B列数,元素为A对应行与B对应列的内积。
    用途:批量数据变换(如100个样本向量同时与权重矩阵相乘,得到100个输出向量),是神经网络前向传播的核心运算。

  • 逆矩阵:对应“反向变换”,可求解线性方程组。AI中用于模型参数求解(如线性回归中直接求权重矩阵)。

  • :矩阵中“有效特征”的数量(非冗余向量的最大个数)。用途:判断数据冗余(秩越小,冗余度越高),避免模型过拟合。

补充:以上的运算操作知道意义即可,不需要掌握方法,因为这些操作都有现成的库已经实现了。

三、线性变换:特征提取的本质

AI处理数据的核心是“特征变换”,而线性变换(如旋转、缩放、投影)是基础,且所有线性变换都可通过矩阵表示。

1. 核心概念通俗化

  • 线性组合:用一组系数乘以向量再求和,比如RGB颜色系统中,任何颜色都是红、绿、蓝向量的线性组合(黄色=1×红色+1×绿色+0×蓝色)。AI中对应“特征融合”,从基础特征生成高级特征。

  • 线性相关/无关:若一组向量中,某个向量可由其他向量线性表示,则线性相关(存在冗余);反之则无关(所有向量都是独立特征)。用途:特征选择(剔除相关向量,保留无关核心特征)。

  • 向量空间:所有向量的“活动范围”,比如二维向量的空间是平面,三维向量的空间是立体。AI中常关注“子空间”(如特征向量张成的空间),聚焦有效特征范围。

2. AI中的核心应用

卷积神经网络(CNN)的卷积核,本质是对图像向量进行线性变换(通过点积提取局部特征);循环神经网络(RNN)的状态更新,也是基于矩阵的线性变换叠加非线性激活。

四、特征值与特征向量:线性变换的“不变核心”

这是线性代数的灵魂知识点,也是AI降维、特征提取的核心工具,不用死记证明,抓住“方向不变”这个关键。

  1. 核心定义

对n阶方阵 AAA ,如果存在一个数 λ\lambdaλ 和非零向量 xxx ,满足

Ax=λxAx=\lambda xAx=λx

那么 λ\lambdaλ 就是矩阵 AAA特征值xxx 就是对应 λ\lambdaλ特征向量

通俗来说,用矩阵 AAA 对向量 xxx 做线性变换时, xxx 的方向没有变,只是被拉长/缩短了 λ\lambdaλ 倍( λ>1\lambda>1λ>1 是拉长, 0<λ<10<\lambda<10<λ<1 是缩短, λ<0\lambda<0λ<0 是反向缩放)。

比如:一个“沿x轴拉伸2倍”的变换矩阵,x轴上的所有向量都是特征向量,特征值为2;y轴上的向量也是特征向量,特征值为1(长度不变)。

  1. AI中的核心应用(PCA降维)

PCA(主成分分析)是AI中最常用的降维算法,核心就是找特征值最大的几个特征向量

  • 步骤1:对样本数据矩阵做“去中心化”(每个特征减去均值);

  • 步骤2:计算数据的协方差矩阵(描述特征之间的相关性);

  • 步骤3:求协方差矩阵的特征值和特征向量;

  • 步骤4:保留特征值最大的k个特征向量,构成“投影矩阵”,把高维数据投影到这k个向量张成的空间,实现降维。

白话用途:把784维的手写数字图片,压缩到20维,还能保留核心特征,减少计算量。

五、奇异值分解(SVD):万能的矩阵分解工具

特征值分解只能处理方阵,而现实中AI的数据集矩阵(比如100个样本×784个特征)大多不是方阵,这时候就需要SVD(奇异值分解)——它能分解任意形状的矩阵,是AI领域的“瑞士军刀”。

  1. 核心定义(通俗拆解)

对任意一个 m×nm\times nm×n 的矩阵 AAA ,SVD能把它拆成三个矩阵的乘积:

A=UΣVTA=U\Sigma V^TA=UΣVT

各部分作用:

  • UUUm×mm\times mm×m 正交矩阵):左奇异向量,对应数据的“行特征”(样本特征);

  • Σ\SigmaΣm×nm\times nm×n 对角矩阵):对角线上的元素叫奇异值,按从大到小排列,其余位置都是0;

  • VTV^TVTn×nn\times nn×n 正交矩阵):右奇异向量的转置,对应数据的“列特征”(特征维度)。

换句话说,就是把任意矩阵变换,拆解成旋转→缩放→再旋转三步操作,奇异值就是“缩放因子”。

  1. 为什么SVD是AI的“神器”?

    • 范围广:能分解任意矩阵,不像特征值分解只限于方阵;

    • 降维更灵活:PCA其实是SVD的“特例”——对协方差矩阵做SVD,和直接做PCA的结果完全一致;

    • 数据压缩:保留前k个最大的奇异值,对应的 UUUVTV^TVT 子矩阵,就能近似还原原矩阵。比如把1000×1000的图像矩阵,用前50个奇异值压缩,体积缩小20倍,还能看清图像内容;

    • 推荐系统:协同过滤算法的核心就是SVD——把“用户-商品”评分矩阵分解,用分解后的矩阵预测用户对未评分商品的喜好。

六、总结:AI视角下的线代学习优先级

无需精通所有定理,优先掌握:

  1. 向量:内积、范数(AI数据表示与相似度计算);

  2. 矩阵:乘法、逆、秩(批量运算与参数求解);

  3. 特征值与特征向量:PCA降维的核心原理;

  4. SVD:万能矩阵分解工具,覆盖降维、压缩、推荐系统等场景。

线代的核心不是计算,而是用向量表示数据,用矩阵描述变换,用特征值/SVD提取核心信息的思维——这正是AI从数据中学习规律的底层逻辑。后续学习神经网络、聚类算法时,回头再看这些知识点,会发现AI不过是线代的具体应用而已。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐