大模型背后的“眼睛“：嵌入模型实战指南，收藏级教程

嵌入模型是将文本转化为向量的关键技术，决定了RAG系统的上限。文章对比了稠密与稀疏向量，推荐混合检索+Reranker的最佳实践，详细介绍了文档分块策略、主流模型选型及MTEB评测基准。五条核心建议强调：嵌入模型决定RAG上限，默认使用混合检索，不跳过Reranker，分块策略比模型选择更重要，以及先跑起来再优化的实用方法。

ai绘画-安安妮

520人浏览 · 2026-03-05 11:33:00

ai绘画-安安妮 · 2026-03-05 11:33:00 发布

所有人都在聊大模型，但很少有人关注大模型背后的"眼睛"——嵌入模型。

你用 RAG 搭了一个知识库问答系统，效果不好。你以为是大模型不行，换了 GPT-4，还是不行。问题出在哪？

大概率是嵌入模型选错了，或者用法不对。

今天这篇，把嵌入模型从原理到选型、从分块策略到实战代码，一次性讲透。

一、嵌入模型是什么

假设你在北京地图上标注各种餐馆——“烤鸭”“烤肉”"串串"会聚在一起，“咖啡厅”"甜品店"会聚在另一片。

嵌入模型做的事情类似：把文字、图片甚至视频，变成一组数字坐标（向量），放进一个高维空间。意思相近的内容，坐标就靠得近。

• “猫” 和 “喵星人” → 坐标非常近
• “苹果（水果）” 和 “苹果（手机）” → 两个不同位置
• “今天天气真好” 和 “明天会下雨吗” → 话题相关，距离适中

这些"坐标"通常是 256 到 4096 维的浮点数。维度越高表达能力越强，但存储和检索成本也越高。

核心用途：

• 语义搜索：找意思相近的内容，不只是关键词匹配
• RAG：检索增强生成，让大模型有自己的知识库
• 推荐系统：相似内容推给相似用户
• 文本分类、异常检测、聚类分析

二、嵌入模型和大语言模型是什么关系

它们都基于 Transformer 架构，但分工不同：

对比项	嵌入模型	大语言模型
核心功能	把文本压缩成向量	生成文本
架构	Encoder（双向）	Decoder（自回归）
输出	一个固定长度向量	一串 token
参数量	100M - 8B	7B - 数千亿
速度	极快（毫秒级）	较慢（秒级）

简单说：嵌入模型负责"找到相关内容"，大语言模型负责"用找到的内容回答问题"。在 RAG 系统里，嵌入模型是入口——它找不到的东西，大模型根本看不见。

三、稠密向量 vs 稀疏向量

嵌入向量有两大流派：

特性	稠密向量	稀疏向量
原理	神经网络压缩语义	词频统计/关键词权重
代表	OpenAI、BGE、Cohere	BM25、SPLADE
优势	理解语义、同义词	精确匹配、专有名词
劣势	可能漏掉关键词	不懂同义词和语境

举个例子：搜索 “GPU 显存不足”：

• 稠密向量能找到 “CUDA out of memory” 的英文文档（语义相近）
• 稀疏向量能精确匹配包含 “GPU” 这个词的文档

常见误区

BM25 不是"落后技术"。在涉及专有名词（产品编号、人名、代码函数名）的场景，它经常比神经网络嵌入表现更好。Google 搜索至今仍然用稀疏检索作为第一层召回。

四、混合检索 + Reranker：生产环境最佳实践

既然两种向量各有所长，最佳做法是合在一起用——混合检索（Hybrid Search）。

第一步：双路召回

• 稠密向量做语义搜索，得到 Top-K 候选
• BM25 做关键词搜索，得到另一批候选
• 用 RRF（倒数排名融合）合并两组结果

# RRF 核心公式

def
 
rrf_score
(rank, k=
60
):
    
return
 
1.0
 / (k + rank)

# 合并两路结果

final = 
rrf
(dense_rank) + 
rrf
(sparse_rank)

第二步：Reranker 精排

召回 Top-50 之后，用 Reranker 对每个结果和查询做精细打分，重新排序，取 Top-5 送给大模型。

Reranker	特点
Cohere Rerank 3.5	业界最强，API 调用简单
BGE-Reranker-v2	开源，中文表现优秀
Jina Reranker v2	免费额度，代码场景好用

完整链路

用户查询 → 嵌入模型（召回 Top-50）→ Reranker（精排 Top-5）→ 大语言模型（生成回答）

这三步是 2026 年 RAG 系统的标准架构。跳过任何一步，效果都会打折。

五、分块策略（Chunking）

嵌入模型有上下文窗口限制（通常 512 或 8192 token），长文档必须先切分成"块"再嵌入。怎么切，直接决定检索效果。

策略	做法	适用场景
固定长度	每 500 token 切一刀	快速实现，通用
按语义切分	检测话题转换点	长文章、报告
按结构切分	按标题/段落/代码块	技术文档、Markdown
递归切分	先大后小，逐级拆分	LangChain 默认方式

关键技巧：重叠窗口（Overlap）

切块时让相邻块有 10-20% 的重叠内容，避免关键信息被切断。比如 500 token 一块，重叠 50 token。

六、主流模型选型（2026 年初）

模型	MTEB	维度	价格	亮点
Cohere embed-v4	65.2	1024	$0.1/M	综合第一
OpenAI text-3-large	64.6	3072	$0.13/M	生态最好
OpenAI text-3-small	62.3	1536	$0.02/M	性价比王
BGE-M3（开源）	63.0	1024	免费	中文最强
Jina v3	63.0	1024	有免费额度	代码检索强
Qwen3-Embedding	新晋强	4096	免费	中文可本地跑

价格说明：M = 百万 token，约等于 3-4 本书的长度。

选型决策树

• 数据不能出境 → BGE-M3 或 Qwen3-Embedding（本地部署）
• 中文为主 → BGE-M3（成熟稳定）或 Qwen3-Embedding（新锐）
• 英文为主、已在用 OpenAI → text-3-small（性价比）或 text-3-large（效果优先）
• 多语言混合 → Cohere embed-v4
• 快速验证、不想花钱 → Jina v3 免费额度

七、MTEB：嵌入模型的"高考"

MTEB（Massive Text Embedding Benchmark）是最权威的嵌入模型评测基准，由 HuggingFace 维护，涵盖 8 大任务类型、56 个数据集：

• 检索（Retrieval）— RAG 最相关，建议重点看
• 语义相似度（STS）
• 分类（Classification）
• 聚类（Clustering）
• 重排序（Reranking）

别只看总分

MTEB 总分是所有子任务的均分。如果你做 RAG，就只看 Retrieval 子项。总榜第一，不一定适合你的场景。

榜单地址：huggingface.co/spaces/mteb/leaderboard

八、向量量化：省 90% 存储成本

1024 维的 float32 向量，每条占 4KB。一千万条文档就是 40GB。怎么省？

向量量化：用更少的字节表示同一个向量，牺牲少量精度换存储和速度。

方法	压缩比	精度损失
int8 量化	4x	极小（< 1%）
二值量化（Binary）	32x	较大，需 Reranker 补偿
Matryoshka（套娃）	可调	按需取前 N 维

Matryoshka 嵌入（OpenAI text-3 支持）特别巧妙：向量的前 256 维就包含了大部分语义，前 512 维覆盖 95%+。可以根据精度需求动态截断，不用重新生成。

实用建议

先用 int8 量化（几乎零损失），如果还不够，用二值量化做粗筛 + Reranker 精排。Qdrant、Weaviate 都原生支持量化。

九、多语言与跨模态嵌入

多语言嵌入：一个模型同时理解多种语言，搜中文能召回英文文档。

• BGE-M3：100+ 语言，中文检索最强
• Cohere embed-v4：MTEB 多语言子项第一
• mE5-large（微软）：多语言 STS 优秀，开源

跨模态嵌入：把图片和文字放进同一个向量空间。

• CLIP（OpenAI）：图文互搜的开创者
• ImageBind（Meta）：连音频、视频、深度图都统一
• nomic-embed-vision：轻量级，图文混合检索

应用场景

电商搜索：输入"红色连衣裙"→ 跨模态嵌入同时检索文字描述和商品图片。
内部知识库：中英混合文档，用一个多语言模型统一处理，不用维护两套索引。

十、实战代码

OpenAI Embedding

from
 openai 
import
 OpenAI
client = OpenAI()

resp = client.embeddings.create(
    model=
"text-embedding-3-small"
,
    input=
"嵌入模型把文字变成向量"

)
vector = resp.data[0].embedding

# len(vector) = 1536

Jina Embedding（免费额度）

import
 requests
resp = requests.post(
    
"https://api.jina.ai/v1/embeddings"
,
    headers={
"Authorization"
: 
"Bearer jina_xxx"
},
    json={
        
"model"
: 
"jina-embeddings-v3"
,
        
"input"
: [
"嵌入模型把文字变成向量"
]
    }
)
vector = resp.json()[
"data"
][0][
"embedding"
]

BGE-M3 本地推理

from
 FlagEmbedding 
import
 BGEM3FlagModel
model = BGEM3FlagModel(
"BAAI/bge-m3"
)

docs = [
"嵌入模型把文字变成向量"
,
        
"Embedding models convert text"
]
embeddings = model.encode(docs)

# 返回稠密+稀疏向量，一个模型搞定混合检索