18种和“距离(distance)”、“相似度(similarity)”相关的量的小结

在计算机人工智能领域，距离(distance)、相似度(similarity)是经常出现的基本概念，它们在自然语言处理、计算机视觉等子领域有重要的应用，而这些概念又大多源于数学领域的度量(metric)、测度(measure)等概念。这里拮取其中18种做下小结备忘，也借此机会熟悉markdown的数学公式语法。

Solomon-Lang

30854人浏览 · 2015-08-12 23:16:44

Solomon-Lang · 2015-08-12 23:16:44 发布

在计算机人工智能领域，距离(distance)、相似度(similarity)是经常出现的基本概念，它们在自然语言处理、计算机视觉等子领域有重要的应用，而这些概念又大多源于数学领域的度量(metric)、测度(measure)等概念。
这里拮取其中18种做下小结备忘，也借机熟悉markdown的数学公式语法。

英文名	中文名	算式	说明
Euclidean Distance	欧式距离	$d = \sum i = 1 n (x i - y i) 2 - - - - - - - - - - \sqrt$ <script type="math/tex; mode=display" id="MathJax-Element-43">d=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}</script>	以古希腊数学家欧几里得命名的距离；也就是我们直观的两点之间直线最短的直线距离
Manhattan Distance	曼哈顿距离	$d = \sum i = 1 n \| x i - y i \|$ <script type="math/tex; mode=display" id="MathJax-Element-44">d=\sum_{i=1}^n\|x_i-y_i\|</script>	是由十九世纪的赫尔曼·闵可夫斯基所创词汇；是种使用在几何度量空间的几何学用语，用以标明两个点在标准坐标系上的绝对轴距总和；也就是和象棋中的“車”一样横平竖直的走过的距离；曼哈顿距离是超凸度量
Minkowski Distance	闵氏距离	$d = \sum i = 1 n (x i - y i) p - - - - - - - - - - \sqrt p$ <script type="math/tex; mode=display" id="MathJax-Element-45">d=\sqrt[p]{\sum_{i=1}^n(x_i-y_i)^p}</script>	以俄罗斯数学家闵可夫斯基命名的距离；是欧式距离的推广，p=2时等价于欧氏距离，和p-范数等值
Hamming Distance	海明距离	逐个字符(或逐位)对比，统计不一样的位数的个数总和	所得值越小，参与对比的两个元素约相似；下面是从wikipedia借的4bit的海明距离示意图
Jaccard Coefficient	杰卡德距离	$J (A, B) = \| A ⋂ B \| \| A ⋃ B \|$ <script type="math/tex; mode=display" id="MathJax-Element-46">J(A,B)={\|A \bigcap B\|\over \|A \bigcup B\|}</script>	越大越相似；分子是A和B的交集大小，分母是A和B的并集大小
Ochiai Coefficient	?	$K = n ( A ⋂ B ) n ( A ) \times n ( B ) - - - - - - - - - - \sqrt$ <script type="math/tex; mode=display" id="MathJax-Element-47">K={n(A \bigcap B)\over \sqrt{n(A) \times n(B)}}</script>
Pearson Correlation	皮尔森相关系数	$r = \sum n i = 1 ( X i - x ¯ ) ( y i - y ¯ ) \sum n i = 1 ( X i - x ¯ ) 2 - - - - - - - - - - - - \sqrt \sum n i = 1 ( y i - y ¯ ) 2 - - - - - - - - - - - \sqrt$ <script type="math/tex; mode=display" id="MathJax-Element-48">r={\sum_{i=1}^n(X_i-\overline x)(y_i-\overline y) \over \sqrt{\sum_{i=1}^n (X_i-\overline x)^2} \sqrt{\sum_{i=1}^n (y_i-\overline y)^2}}</script>	分子是两个集合的交集大小，分母是两个集合大小的几何平均值。是余弦相似性的一种形式
Cosine Similarity	余弦相似度	$S = x \cdot y \| x \| \| y \|$ <script type="math/tex; mode=display" id="MathJax-Element-49">S={x \cdot y \over \|x\| \|y\|}</script>
Mahalanobis Distance	马氏距离	$d = (x ⃗ - y ⃗) T S - 1 (x ⃗ - y ⃗) - - - - - - - - - - - - - - - - \sqrt$ <script type="math/tex; mode=display" id="MathJax-Element-50">d=\sqrt{(\vec x-\vec y)^TS^{-1}(\vec x-\vec y)}</script> 其中S是x和y的协方差矩阵	印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法；若协方差矩阵是对角阵(diagonal)，则该距离退化为欧式距离
Kullback-Leibler Divergence	K-L散度	$D (P \| \| Q) = \sum i = 1 n P (i) l o g P ( i ) Q ( i )$ <script type="math/tex; mode=display" id="MathJax-Element-51">D(P\|\|Q)=\sum_{i=1}^nP(i)log{P(i) \over Q(i)}</script>	即相对熵；是衡量两个分布(P、Q)之间的距离；越小越相似
PMI(Pointwise Mutual Information)	点对互信息	$p m i = l o g p ( x , y ) p ( x ) p ( y ) = l o g p ( y \| x ) p ( y )$ <script type="math/tex; mode=display" id="MathJax-Element-52">pmi=log{p(x,y) \over p(x)p(y)}=log{p(y\|x) \over p(y)}</script>	利用co-occurance来衡量x和y的相似度；越大越相关；可以看做局部点的互信息(mutual information)
NGD(Normalized Google Distance)	?	$N G D (x, y) = m a x { l o g f ( x ) , l o g f ( y ) } - l o g f ( x , y ) l o g M - m i n { l o g f ( x ) , l o g f ( y ) }$ <script type="math/tex; mode=display" id="MathJax-Element-53">NGD(x,y)={max\{log f(x), log f(y)\}-log f(x,y) \over logM-min\{log f(x), log f(y)\}}</script>	这是google用来衡量两个不同的关键字(keyword)的检索结果之间的相关程度；其中f(x)代表包含了关键字x的页面数量，f(x,y)代表同时包含了关键字x和关键字y的页面的数量，M代表google所搜索的总页数；若两个关键字总是成对出现在页面上，那么NGD值为0，相反的，如果两个关键字在所有页面上都没有同时出现过，那么NGD值为无穷；该量是从normalized compression distance (Cilibrasi & Vitanyi 2003)衍生而来的
Levenshtein Distance(Edit Distance)	Levenshtein距离(编辑距离)	f(n)= $⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ m a x (i, j) m i n ⎧ ⎩ ⎨ ⎪ ⎪ l e v a, b (i - 1, j) + 1 l e v a, b (i, j - 1) + 1 l e v a, b (i - 1, j - 1) + 1 (a i \neq b j) if min(i,j)=0, otherwise.$ <script type="math/tex; mode=display" id="MathJax-Element-54">\begin{cases}max(i,j) & \text{if min(i,j)=0}, \\ min{\begin{cases} lev_{a,b}(i-1,j)+1 \\ lev_{a,b}(i,j-1)+1 \\ lev_{a,b}(i-1,j-1)+1_{(a_i \neq b_j)} \end{cases}} & \text{otherwise.}\end{cases}</script>	是指两个字串之间，由一个转成另一个所需的最少编辑操作次数；俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念；编辑距离越小的两个字符串越相似，当编辑距离为0时，两字符串相等
Jaro-Winkler Distance	?	$⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ 0 1 3 (m \| s 1 \| + m \| s 2 \| + m - t m) if m = 0 otherwise$ <script type="math/tex; mode=display" id="MathJax-Element-55">\left\{ \begin{array}{l l} 0 & \text{if }m = 0\\ \frac{1}{3}\left(\frac{m}{\|s_1\|} + \frac{m}{\|s_2\|} + \frac{m-t}{m}\right) & \text{otherwise} \end{array} \right.</script>
Lee Distance	李氏距离	$d = \sum i = 1 n \| x i - y i \|$ <script type="math/tex; mode=display" id="MathJax-Element-56">d=\sum_{i=1}^n\|x_i-y_i\|</script>	在编码理论(coding theory)中两个字符串间距离的一种度量方法
Hellinger Distance	?	$H 2 (P, Q) = 1 2 \sqrt \int (d P d λ - - - \sqrt - d Q d λ - - - \sqrt) 2 d λ - - - - - - - - - - - - - - - - - - \sqrt$ <script type="math/tex; mode=display" id="MathJax-Element-57">H^2(P,Q)={1 \over \sqrt{2}}\sqrt{\int(\sqrt{{dP \over d\lambda}}-\sqrt{dQ \over d\lambda})^2d\lambda}</script> 当dP/dλ、dQ/dλ<script type="math/tex" id="MathJax-Element-58">dP/d\lambda、dQ/d\lambda</script>为概率密度函数时，进一步有 H2(P,Q)=1−∫f(x)g(x)−−−−−−−√dx−−−−−−−−−−−−−−−√<script type="math/tex" id="MathJax-Element-59">H^2(P,Q)=\sqrt{1-\int{\sqrt{f(x)g(x)}dx}}</script>	注意在作为概率意义的计算时需在测度空间进行；通常被用来度量两个概率分布的相似度，它是f散度的一种；由Ernst Helligner在1909年引进
Canberra Distance	坎贝拉距离	$d (p ⃗, q ⃗) = \sum i = 1 n \| p i - q i \| \| p i \| + \| q i \|$ <script type="math/tex; mode=display" id="MathJax-Element-60">d(\vec p,\vec q)=\sum_{i=1}^n{\frac{\|p_i-q_i\|}{\|p_i\|+\|q_i\|}}</script> where $p ⃗ = (p 1, p 2, \dots, p n)$ <script type="math/tex; mode=display" id="MathJax-Element-61">\vec p=(p_1,p_2,\cdots,p_n)</script> and $q ⃗ = (q 1, q 2, \dots, q n)$ <script type="math/tex; mode=display" id="MathJax-Element-62">\vec q=(q_1,q_2,\cdots,q_n)</script>
Chebyshev Distance	切比雪夫距离	$D C h e b y s h e v (p, q) = max i (\| p i - q i \|) = lim k \to \infty (\sum i = 1 n \| p i - q i \| k) 1 / k$ <script type="math/tex; mode=display" id="MathJax-Element-63">D_{Chebyshev}(p,q)=\max_{i}(\|p_i-q_i\|)=\lim_{k \to \infty}(\sum_{i=1}^n\|p_i-q_i\|^k)^{1/k}</script>	切比雪夫距离是由一致范数(uniform norm)(或称为上确界范数)所衍生的度量，也是超凸度量

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【IDEA小说阅读】W-Reader：支持在线搜索的IDEA小说阅读插件

2048 AI社区

有没有能保留原文意思，又能降重降AI的软件？

2048 AI社区

上下文协议（MCP）Java SDK 指南

我们先通过这个类，定义一个非常简单的 MCP 工具，用来打印收到的提示词（prompt），该方法返回一个.build();});这里我们首先定义了输入的 JSON Schema，用来为用户输入建立一个清晰的契约。接着，使用该输入 Schema 来实例化一个Tool，在处理逻辑中提取出prompt参数，并最终返回包含该prompt的结果。在本文中，我们首先回顾了 MCP 及其 Java SDK 的整