Elasticsearch向量搜索介绍

摘要：本文介绍了AI时代的语义搜索技术——向量搜索（Vector Search），通过Elasticsearch实现。传统搜索仅匹配字面内容，而向量搜索将文字转化为多维向量，通过计算语义相似度返回结果。文章以二维坐标为例说明原理，并演示了Elasticsearch中创建向量索引、插入数据和执行KNN搜索的实战步骤。最后指出Elasticsearch的三大优势：支持混合搜索、元数据过滤和完整生态，能

Dxy1239310216

517人浏览 · 2025-12-24 15:07:29

Dxy1239310216 · 2025-12-24 15:07:29 发布

你有没有过这种经历？

你想买一双“跑步穿的轻便鞋子”，你在电商搜索框输入“透气跑鞋”。
结果出来的全是“耐克”、“阿迪达斯”这些品牌名，或者标题里只带了“透气”两个字但其实是皮鞋的商品。

这是因为传统的数据库搜索就像个死板的图书管理员：它只认识字面意思。你搜“苹果”，它绝不会给你“iPhone”，除非你明确告诉它“苹果=iPhone”。

但现在，AI 时代来了，我们希望搜索能像人类一样思考：你搜“苹果”，它不仅给你水果，还能给你手机，甚至给你《白雪公主》的毒苹果。

这就是向量搜索（Vector Search）。今天，我们就用最简单的例子，看看 Elasticsearch 是怎么做到的。

第一部分：把文字变成“坐标”

计算机看不懂文字，只看得懂数字。要让计算机理解“语义”，第一步是把文字变成一串数字，这串数字叫向量（Vector）。

想象一下二维坐标系（X轴，Y轴）：

“国王” 的坐标可能是 [0.9, 0.1]
“王后” 的坐标可能是 [0.8, 0.3]
“苹果” 的坐标可能是 [0.1, 0.9]

在这个地图上，“国王”和“王后”离得很近（都是皇室成员），而“苹果”离它们很远。

现实情况：现在的 AI 模型（如 BERT、OpenAI Embeddings）会把文字变成768维甚至更高维的向量。虽然人类无法想象768维空间，但原理一样：意思越像的词，在这个多维空间里距离越近。

第二部分：向量搜索是怎么工作的？

当你把数据存入 Elasticsearch 时，不仅要存文字，还要存它对应的向量（那一长串数字）。

场景：你要找“一种红色的水果”。

向量化： ES 先把你的搜索词“一种红色的水果”也转换成向量，假设是 [0.2, 0.8]。
找邻居： ES 拿着这个坐标，去数据库里找离它物理距离最近的向量。
返回结果：
- 向量 [0.1, 0.9]（苹果） -> 距离 0.14（很近！）
- 向量 [0.3, 0.7]（草莓） -> 距离 0.14（很近！）
- 向量 [0.9, 0.1]（西红柿[1]） -> 距离 0.9（有点远）
- 向量 [0.8, 0.2]（胡萝卜） -> 距离 1.0（太远了，不要）

结果：哪怕你没提“苹果”这两个字，只要你描述了它的特征，ES 也能把它找出来！这就是语义搜索。

第三部分：实战！3 分钟用 ES 跑通向量搜索

别被“高维数学”吓到了，在 Elasticsearch 8.x/9.x 里，操作简单得像写 SQL。

1. 准备工作：创建一个带向量的索引

我们要建一个存放“文档”的仓库，并告诉 ES：“这里的 text_embedding 字段是向量，有 3 个维度（为了演示简单，实际通常是 768+）”。

PUT /my_blog_index
{
  "mappings": {
    "properties": {
      "title": { "type": "text" },
      "text_embedding": {
        "type": "dense_vector",
        "dims": 3,
        "index": true,
        "similarity": "cosine" 
      }
    }
  }
}

解释：dense_vector 就是告诉 ES 这是个向量字段；similarity 定义了怎么算距离（余弦相似度是最常用的）。

2. 插入数据（模拟 AI 已经帮我们转好了向量）

假设 AI 模型已经把我们的文章标题变成了向量：

POST /my_blog_index/_bulk
{ "index": { "_id": 1 } }
{ "title": "如何做番茄炒蛋", "text_embedding": [0.1, 0.5, 0.8] }
{ "index": { "_id": 2 } }
{ "title": "苹果手机最新评测", "text_embedding": [0.2, 0.6, 0.7] }
{ "index": { "_id": 3 } }
{ "title": "红烧肉的做法", "text_embedding": [0.9, 0.1, 0.2] }

3. 搜索：我想找“水果相关的食谱”

我脑海里想的是“水果”，AI 把“水果”转换成了向量 [0.15, 0.55, 0.75]。

执行搜索（KNN - K Nearest Neighbors）：

GET /my_blog_index/_search
{
  "knn": {
    "field": "text_embedding",
    "query_vector": [0.15, 0.55, 0.75],
    "k": 2,
    "num_candidates": 100
  },
  "_source": ["title"]
}

预测结果：
ES 会计算距离，发现 [0.1, 0.5, 0.8]（番茄炒蛋）和 [0.2, 0.6, 0.7]（苹果评测）离我的查询向量最近。
虽然“番茄炒蛋”里没有“水果”二字，但在向量空间里，它和“水果”的语义更接近（比如都含有维生素、植物等潜在语义），所以它会排在“红烧肉”前面。

第四部分：ES 向量搜索的“杀手锏”

你可能会问：“我为什么要用 ES？专门的向量数据库不是更强吗？”

Elasticsearch 的最大优势在于：它是“混合”的王者。

Hybrid Search（混合搜索）：
有时候你需要既精确又模糊。比如搜“红色的 iPhone 15 手机壳”。
- 传统搜索（BM25）：确保结果里必须有“iPhone 15”这个词（精确）。
- 向量搜索（KNN）：确保结果里包含“好看的”、“防摔的”等语义（模糊）。
- ES 可以用 RRF (Reciprocal Rank Fusion) 算法把两者分数一综合，给你最完美的结果。
元数据过滤（Pre/Post Filtering）：
“给我找2023年以后发布的、价格低于50元的、语义上像‘运动鞋’的商品。”
在向量搜索的同时，直接加上 price < 50 和 date > 2023 的过滤条件，效率极高。
生态完善：
你不需要维护两套系统（一套存业务数据，一套存向量）。ES 全搞定，而且还能顺便做日志分析、全网搜索。

总结

Elasticsearch 的向量搜索并不是什么黑魔法，它就是：

Embedding：用 AI 模型把字变成数字坐标。
Indexing：把坐标存进专门的数据结构（HNSW 图）里加速查找。
Searching：算出“你的问题”和“库存数据”在数学上的距离。

如果你还在用 LIKE %...% 做搜索，或者被精确匹配折磨得头秃，赶紧试试 ES 的向量搜索吧。让你的搜索框，真正读懂用户的心。

注：[1] 在植物学上，西红柿确实是水果，但在菜市场它是蔬菜。这正好体现了传统搜索的尴尬和向量搜索的灵活性——取决于你的训练数据！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

右连接互换表顺序与内连接结果一致的现象解析

本质规律：右连接（A RIGHT JOIN B）结果等价于内连接的前提是——右表B的所有记录都能通过连接条件匹配左表A的记录（B表无“孤立数据”）。扩展：若互换表顺序后（B RIGHT JOIN A）结果与内连接一致，则说明A表所有记录都能匹配B表，即A表数据完全被B表覆盖。实用价值：通过EXPLAIN的rows、type字段可快速判断表数据的匹配程度，若右连接的扫描行数与内连接一致，大概率存在“