KL变换（PCA主成分分析）

在机器学习学习中若存在维度过高的向量，则不利于分析向量的样本的方差与均值。

Gowi_fly

2846人浏览 · 2023-10-25 21:29:36

Gowi_fly · 2023-10-25 21:29:36 发布

K-L 变换

在机器学习学习中若存在维度过高的向量，则不利于分析向量的样本的方差与均值

原理分析

K-L变换的本质是寻找一个算子 $U$ ，通过 $Y = U X$ ，其中 $Y$ 为 $X$ 降维后的结果。

存在一个样本集 $X={x1,x2,x3,…,xn}X=\{x_1,x_2,x_3,\dots,x_n\}$ ，其中 $x_i$ 为 $n$ 维向量，为了使 ${X\}$ 降低维度

设存在一个线性变换 $U$ ，使得$ y_i=U x_i $，其中$ y_i $为$ k$维向量，

为了使 $Y$ 各个特征最大的限度分开，我们应该从中 $n$ 个特征中选择 $k$ 个最大限度可分不重叠的特征。其中各个线性可分的特征应该是不相关的，即他们的相关系数为0。可推出它的协方差为0。

相关系数：
$\rho_{xy}=\frac{Cov(X,Y)}{\sigma_x\sigma_y}$
协方差矩阵：
$E_{ij}=\frac{1}{m}(x_i-\bar x)(y_j-\bar y)$

$\begin{bmatrix} E_{11}&E_{12}&\dots&E_{1n}\\ E_{21}&E_{22}&\dots&E_{2n}\\ \vdots&\vdots&\ddots&\vdots\\ E_{n1}&E_{n2}&\dots&E_{nn} \end{bmatrix}$

**目标：**将一组 $n$ 维向量降为 $k$ 维，其目标是选择 $k$ 个单位正交基，使得原始数据变换到这组基上后，各变量两两间协方差为 0，而变量方差则尽可能大。

因为 $Y$ 的特征要尽可能的无关，则 $Eij=0,i≠jE_{ij}=0, \quad i\not=j$

由此 $Y$ 的相关系数矩阵为一个对角矩阵
$E=E(yy^T)=E(UXX^TU)$
其中 $XX^T$ 为实对称矩阵，它一定存在 $n$ 个特征向量，且相互可以正交。

令 $W=E(XX^T)$ ，则一定满足 $Wη=ληW\eta=\lambda\eta$ ， $η\eta$ 与 $λ\lambda$ 分别为特征向量与特征值，取前 $k$ 大的特征值对于的特征向量，并进行归一化，记为 $U$
$UWU^T= \begin{bmatrix} \lambda_1&&&&\\ &\lambda_2\\ &&\ddots\\ &&&\lambda_n \end{bmatrix}$

即通过K-L变换，实际上是找到了一个新的坐标系，在这个坐标系中，数据的协方差矩阵是对角的，而且对角线上的元素是原始数据协方差矩阵的特征值，这些特征值对应的特征向量则构成了新坐标系的基向量。

步骤

计算 $XX^T$ 的协方差矩阵 $E(XX^T)$ ，并记为 $W$
计算 $W$ 的特征值与特征向量
取前 $k$ 大的特征值对于的特征向量，并进行归一化，记为 $U$
利用 $x_i'=Ux_i$ 进行降维度处理

示例

有样本集 $w1={(000),(100),(101),(110)}w_1=\left\{\begin{pmatrix}0\\0\\0\end{pmatrix},\begin{pmatrix}1\\0\\0\end{pmatrix},\begin{pmatrix}1\\0\\1\end{pmatrix},\begin{pmatrix}1\\1\\0\end{pmatrix}\right\}$ , $w2={(001),(010),(011),(111)}w_2=\left\{\begin{pmatrix}0\\0\\1\end{pmatrix},\begin{pmatrix}0\\1\\0\end{pmatrix},\begin{pmatrix}0\\1\\1\end{pmatrix},\begin{pmatrix}1\\1\\1\end{pmatrix}\right\}$ ,请用K-L变换将特征降至2维和1维，并画出在该空间中的位置

1、计算样本均值

$w_1$ 的均值 $u1=(34,14,14)Tu_1=(\frac{3}{4},\frac{1}{4},\frac{1}{4})^T$

$w_2$ 的均值 $u2=(14,34,34)Tu_2=(\frac{1}{4},\frac{3}{4},\frac{3}{4})^T$

总体样本的均值 $u=12(u1+u2)=(12,12,12)Tu=\frac{1}{2}(u_1+u_2)=(\frac{1}{2},\frac{1}{2},\frac{1}{2})^T$

2、去中心化
$w_1-u= \left\{\begin{pmatrix} -\frac{1}{2}\\-\frac{1}{2}\\-\frac{1}{2} \end{pmatrix}, \begin{pmatrix} \frac{1}{2}\\-\frac{1}{2}\\-\frac{1}{2}\end{pmatrix}, \begin{pmatrix} \frac{1}{2}\\-\frac{1}{2}\\\frac{1}{2}\end {pmatrix}, \begin{pmatrix} \frac{1}{2}\\\frac{1}{2}\\-\frac{1}{2} \end{pmatrix}\right\}$

$w_2-u= \left\{\begin{pmatrix} -\frac{1}{2}\\-\frac{1}{2}\\\frac{1}{2} \end{pmatrix}, \begin{pmatrix} -\frac{1}{2}\\\frac{1}{2}\\-\frac{1}{2} \end{pmatrix}, \begin{pmatrix} -\frac{1}{2}\\\frac{1}{2}\\\frac{1}{2} \end{pmatrix}, \begin{pmatrix} \frac{1}{2}\\\frac{1}{2}\\\frac{1}{2} \end{pmatrix}\right\}$

令 $X=\{w_1-u,w_2-u\}$
$E(XX^T)=\frac{1}{8}\sum x_ix_i^T= \begin{bmatrix} \frac{1}{4}&0&0\\ 0&\frac{1}{4}&0\\ 0&0&\frac{1}{4} \end{bmatrix}$
计算特征值与特征向量
$\lambda_1=\lambda_2=\lambda_3=\frac{1}{4},\quad [\eta_1,\eta_2,\eta_3]= \begin{bmatrix} 1&0&0\\ 0&1&0\\ 0&0&1 \end{bmatrix}$
选取 $U1=[η1,η2]=[100100],U2=[η1]=[100]U_1=[\eta_1,\eta_2]=\begin{bmatrix} 1&0\\ 0&1\\ 0&0 \end{bmatrix},U2=[\eta_1]=\begin{bmatrix} 1\\0\\0 \end{bmatrix}$
$x_1'=U_1^Tx_1= \begin{bmatrix} 1&0&0\\0&1&0 \end{bmatrix} \cdot \begin{bmatrix} -\frac{1}{2}\\-\frac{1}{2}\\-\frac{1}{2} \end{bmatrix}= \begin{bmatrix} -\frac{1}{2}\\-\frac{1}{2} \end{bmatrix}\\ x_1^{''}=U_2^Tx_1= \begin{bmatrix} 1&0&0 \end{bmatrix} \cdot \begin{bmatrix} -\frac{1}{2}\\-\frac{1}{2}\\-\frac{1}{2} \end{bmatrix}= -\frac{1}{2}$
其余同理可得。

import numpy as np

# 样本数据
w1 = np.array([[0, 0, 0], [1, 0, 0], [1, 0, 1], [1, 1, 0]])
w2 = np.array([[0, 0, 1], [0, 1, 0], [0, 1, 1], [1, 1, 1]])

u = (w1.mean(axis=0) + w2.mean(axis=0)) / 2

x1 = w1 - u
x2 = w2 - u
x = np.zeros((3, 3))

for i in x1:
    i = i.reshape(3, -1)
    x = x + i @ i.T

for i in x2:
    i = i.reshape(3, -1)
    x = x + i @ i.T

x = x / 8

lambda_value, vector = np.linalg.eigh(x)

U2d = vector[:2]
U1d = vector[0]

x2d_1 = (U2d @ x1.T).T
x2d_2 = (U2d @ x2.T).T

x1d_1 = (U1d @ x1.T).T
x1d_2 = (U1d @ x2.T).T

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

从数据到洞见：AI驱动科学研究的范式变革与跨学科落地实战

本文系统探讨人工智能在科学研究中的深度融合路径，解析AlphaFold、科学大模型等突破性案例背后的技术原理，通过材料发现、生物制药等真实场景的代码实现，揭示如何构建兼具科学严谨性与AI创新性的研究系统，并对方法论融合、人才协作等深层次挑战提出专业见解。

2048 AI社区

人工智能防火墙：深度解析对抗攻击防御策略与实战防护体系

即使经过对抗训练，模型仍可能被未知攻击突破。运行时防御在推理阶段介入，包括输入预处理（如随机化、去噪）、特征净化（如MagNet的重构网络）和异常检测（如激活异常监控）。这些技术不修改原始模型，部署灵活，可作为其他防御策略的补充层。AI安全不是阻碍创新的绊脚石，而是确保技术可持续发展的基石。构建真正可靠的AI系统需要技术、工程和伦理的三维协同。当我们将安全思维融入AI设计DNA，而非作为事后补救，