简介

本文详细介绍了向量相似度计算这一AI核心技术,解释了淘宝推荐、抖音算法和微信支付背后的原理。文章深入剖析了四种经典相似度算法(余弦相似度、欧几里得距离、曼哈顿距离、点积相似度)的数学原理、代码实现和应用场景,强调了在不同应用场景中选择合适算法的重要性,帮助读者掌握现代AI系统的"感知能力"。


为什么淘宝总能推荐你想买的商品?为什么抖音刷到的视频总是你感兴趣的?为什么微信能通过人脸识别解锁支付?答案都指向同一个核心技术:向量相似度计算。

在AI的世界里,一切都是向量——你的购物偏好是向量,视频内容是向量,人脸特征也是向量。而向量相似度计算就是AI的"配对大师",它通过数学方法判断这些向量之间的相似程度,从而实现推荐、搜索、识别等智能功能。

但要真正掌握向量相似度,必须理解两个核心问题:四种经典相似度算法的数学原理是什么?以及如何根据不同的数据特征和应用场景选择最合适的计算方法?

一、向量相似度

什么是向量相似度(Vector Similarity)?

简单说就是给两个向量的"相似程度"打分

  • 用户A喜欢:[科幻片:0.9, 爱情片:0.2, 动作片:0.7]
  • 用户B喜欢:[科幻片:0.8, 爱情片:0.1, 动作片:0.8]

相似度计算告诉我们:这两人口味很像,可以互相推荐电影

在深度学习中,一切都可以表示成向量

  • 词语 → 词向量:[0.2, 0.8, -0.3, 0.5, …]
  • 图片 → 特征向量:[像素值, 纹理特征, 语义特征, …]
  • 用户 → 偏好向量:[兴趣1, 兴趣2, 兴趣3, …]

向量相似度就是在高维空间中找到"志同道合"的向量。

为什么需要向量相似度计算?

想象你在网易云音乐上听到一首超喜欢的歌,然后想找更多类似的歌曲。这时系统需要:

  1. 分析这首歌的特征:节奏快慢、音乐风格、情感色彩、乐器使用

  2. 在千万首歌曲中找到具有相似特征的作品

  3. 按相似程度排序推荐给你

这就是向量相似度计算要解决的问题:在海量高维数据中快速找到最相关的对象。AI把每首歌的特征都转换成数字向量,然后通过数学计算找出最"合你口味"的音乐。

二、相似度算法

1. 余弦相似度:最受欢迎的"角度派"

核心思想:只看方向,不看大小

想象两个人都喜欢科幻电影,但A是轻度爱好者,B是重度发烧友。虽然喜欢程度不同,但方向一致,所以很相似。

数学公式:

cos(θ) = (A · B) / (||A|| × ||B||)

代码实现:

import numpy as np

算法特点:

  • 取值范围:[-1, 1]
  • 1 = 完全相似,-1 = 完全相反,0 = 毫无关系
  • 不受向量长度影响,只关心"方向"

最适合场景:语义搜索、内容推荐、向量数据库

2. 欧几里得距离:最直观的"距离派"

核心思想:直线距离越近越相似

就像地图上两个城市的直线距离,越近越相似。

数学公式:

distance = √Σ(ai - bi)²

代码实现:

def euclidean_similarity(a, b):

算法特点:

  • 直观易懂,几何意义清晰
  • 对向量长度敏感
  • 在高维空间中容易受"维度诅咒"影响

最适合场景:人脸识别、K-means聚类、图像检索

3. 曼哈顿距离:城市街区的"出租车派"

核心思想:像出租车在城市街区行驶,只能走直角路径

想象你要从一个街区走到另一个街区,不能斜着穿过建筑物,只能沿着街道直角前进。

数学公式:

distance = Σ|ai - bi|

代码实现:

def manhattan_similarity(a, b):

算法特点:

  • 对异常值不敏感
  • 计算简单
  • 适合离散和稀疏数据

最适合场景:文本分类、标签匹配、异常检测

4. 点积相似度:最简单的"乘法派"

核心思想:直接相乘求和,简单粗暴

就像计算两个人共同兴趣的"重叠程度"。

数学公式:

similarity = A · B = Σ(ai × bi)

代码实现:

def dot_product_similarity(a, b):

算法特点:

  • 计算最快,实现最简单
  • 受向量长度影响很大
  • 常用于神经网络内部计算

最适合场景:注意力机制、Transformer模型

淘宝的千人千面到抖音的个性化推荐,从微信的人脸支付到搜索引擎的精准匹配,向量相似度计算正在悄然改变我们与数字世界的互动方式。

掌握向量相似度计算,就是掌握了现代AI系统的"感知能力"。四种经典算法各有所长:余弦相似度的方向感知、欧几里得距离的空间直觉、曼哈顿距离的稳健特性、点积相似度的计算效率。关键不是哪个算法最好,而是在正确的场景选择正确的工具。

从技术发展看,向量相似度计算已经从单纯的数学工具进化为AI系统的核心组件。随着大语言模型和向量数据库的兴起,这项技术的重要性还在持续提升。理解并熟练运用这些算法,就拥有了构建下一代智能应用的基础能力。

距离的空间直觉、曼哈顿距离的稳健特性、点积相似度的计算效率。关键不是哪个算法最好,而是在正确的场景选择正确的工具。****

从技术发展看,向量相似度计算已经从单纯的数学工具进化为AI系统的核心组件。随着大语言模型和向量数据库的兴起,这项技术的重要性还在持续提升。理解并熟练运用这些算法,就拥有了构建下一代智能应用的基础能力。

日拱一卒,让大脑不断构建深度学习和大模型的神经网络连接。

三、AI大模型学习路线

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

请添加图片描述
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐