稀疏子空间聚类(Sparse Subspace Clustering, SSC)是一种处理高维数据的聚类方法,特别适用于当数据分布在多个低维子空间上的情况。
SSC 利用了稀疏表示的概念来估计数据点之间的关系,并以此构建相似度矩阵,最终通过谱聚类技术将数据点分配到各自的子空间中。
稀疏子空间聚类 (SSC)
基本概念
假设有一组数据点集合
,其中
是高维空间中的点。
这些点分布在
个低维子空间上,每个子空间的维数远小于数据点的原始维度,即
。
稀疏表示
稀疏表示是指在给定的字典中,使用尽可能少的非零元素来表示某个信号的过程。
在 SSC 中,这个“信号”就是数据点,而字典则是由数据集本身构成的。
换句话说,每个数据点都可以表示为其余数据点的加权和,权重向量称为稀疏表示系数。
SSC 的数学模型
对于数据点
,我们寻找一个稀疏系数向量
,使得
可以由其他数据点的线性组合来逼近,同时使 
数学上,这个问题可以表示为以下优化问题:

其中:
是数据点组成的矩阵,
是第
个数据点的稀疏表示系数向量,
和 

表示不使用自身表示自身,避免了自循环。
相似度矩阵构建
一旦我们得到了所有数据点的稀疏表示系数
,我们可以构建一个相似度矩阵 
通常,
可以定义为 

这里 
谱聚类
有了相似度矩阵
,接下来的步骤是使用谱聚类来将数据点聚类到各自的子空间中。
谱聚类首先会构建图拉普拉斯矩阵
,然后计算其特征向量,并通过 K-means 或其他聚类算法将特征向量聚类。

其中
是度矩阵,其对角线元素是 
总结
SSC 的目标公式可以概括为上述的稀疏表示问题,它通过寻找稀疏系数矩阵来揭示数据点之间的内在子空间结构。
通过谱聚类,SSC 最终将数据点划分到它们所属的子空间中,即使在高维和噪声环境下也能保持良好的性能。
请注意,实际应用中,求解稀疏表示问题可能需要使用特定的优化算法,例如基追踪(Basis Pursuit)、正交匹配追踪(Orthogonal Matching Pursuit)或交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)。



所有评论(0)