简单易懂的余弦相似度与欧式距离
如何理解余弦相似度与欧式距离以及他们的关系
·
1、余弦相似度
给定两个属性向量,A和B,其余弦相似性θ由点积和向量长度给出,如下所示:
符号表示:

其中:
分别代表向量A和B的各分量
数值表示:
(二维)


(高维)


给出的相似性范围从-1到1:
-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。
余弦距离:

2、欧式距离
N维欧氏空间中两点
,
间的距离公式:

3、二者关系
标准化之后的欧式距离近似于余弦距离
证明如下:
证法一:
假设二维空间两个点,![]()
然后归一化为单位向量

那么余弦相似度为:

欧式距离为:

化简后结果:
![]()
作图如下:

可以从图像上看到二者的值比较接近
对于高维空间与二维类似
证法二:
余弦相似度的定义公式为

,
归一化后

余弦距离:

欧式距离:

由公式可以看出归一化后,欧式距离与余弦距离存在单调性关系,此时两种距离的值域都为[0,2]。
欧式距离与余弦距离的对比:
1.欧式距离的数值受到维度的影响,余弦相似度在高维的情况下也依然保持低维完全相同时相似度为1等性质。
2.欧式距离体现的是距离上的绝对差异,余弦距离体现的是方向上的相对差异。
参考:
https://www.zhihu.com/question/19640394
更多推荐



所有评论(0)