CUR矩阵分解

SUFEHeisenberg

2149人浏览 · 2022-11-12 18:59:36

SUFEHeisenberg · 2022-11-12 18:59:36 发布

CUR矩阵分解

1. Intuition

SVD缺点：

可解释性差。
太过Dense。

SVD: $X=U\Sigma V^T$ ，其中 $U, V$ 都是Big and Dense， $\Sigma$ 是Small But Sparse。

Aims to Get:

CUR: $X = C U R$ ，其中 $C, R$ 都是Big but Sparse， $U$ 是Small and Dense。

Rough Intuition:

CUR选的点可能是更偏离远点的，同时坐标轴可能是多余的。

2. Proof

TL;DR.

详见CUR理论公式推导。

3. Algo

Given Input Matrix A:

Randam choose, C columns, R rows.
$C\cap U$ intersection point matrix $W$ .
SVD Decomposition $X\Sigma Y^T$
Derive Generalized inverse matrix of $\Sigma^{+} $ via $\Sigma$ , i.e. non-zero elements turn to its countdown
Derive $U=Y\Sigma^{+}X^T$
$A=C\cdot U\cdot R=C\cdot Y\cdot \Sigma^{+}\cdot X^T\cdot R$

4. Remarks

第一步关于如何选择C,R

Mahoney等人提出可以里用normalized statistical leverage scores $\pi_j=\frac{1}{k}\sum_{\eta=1}^k=(v_\eta^i)^2$ ，i.e.该列/行的二范数占所有列数二范数的比例，作为衡量其统计影响力的指标。也即square of its Frobenius norm。
苏剑林解读论文

可能有读者想问“有代表的q,kq,k要怎么选？”，事实上，大多数情况下都是随机选的，这就留下了一些提升空间，比如可以聚类后选最接近聚类中心的那个，这些就看大家自由发挥了。另外要指出的是，CUR分解本身只是一种近似，它肯定有误差，所以该加速方案主要是为检索场景设计的，检索场景的特点是比较在乎topk的召回率，而不是特别要求top1的精确率，我们可以用CUR分解加速来召回若干个结果后，再用精确的s(q,k)做一次重排序来提高准确度。

第四步关于广义逆矩阵

也有文献表示QR分解更稳定。

Experiments

不放回抽样的CUR效果最好。同时保证了效率和精度。对于large sparse matrix有很不错的效果。

Reference

CUR matrix decompositions for improved data analysis

利用CUR分解加速交互式相似度模型的检索

Dimensionality_Reduction

CUR矩阵分解 (对比SVD)

Sublinear Time Approximation of Text Similarity Matrices

Semantic Representation of Documents Based on Matrix Decomposition

CUR分解算法及Python实现

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

什么是TCP三次握手与四次挥手？一篇文章搞懂其如何保证TCP协议的传输可靠性

2048 AI社区

LangChain向量存储常见方法介绍（add_documents、add_texts、similarity_search_with_score、as_retriever、Vector Store）

LangChain 提供了统一的向量存储（Vector Store）接口，支持多种向量数据库，如 Chroma、FAISS、Milvus 等。无论是使用内存向量存储（InMemoryVectorStore）还是持久化向量存储（如 Chroma），它们都遵循相同的 API 接口，这使得在不同向量存储之间切换变得非常简单。本文将详细介绍 LangChain 向量库中最常用的方法，帮助开发者快速掌握向量

2048 AI社区

openclaw v2026.2.21版本正式发布：新增Gemini 3.1支持、火山引擎对接、全新Discord语音系统与超200项安全和性能升级

代码地址：github.com/openclaw/openclawopenclaw v2026.2.21是一次跨层级的全面进化。从模型、通道、终端、容器到安全与内核机制，其更新体现出面向2026年AI通信基础设施的高集成、高安全与高自治趋势。更开放：支持Gemini 3.1与中国云生态接入。更稳定：Memory/QMD与Agent系统重构。更智能：多渠道状态反应与可视化增强。更安全：全面封闭执行风