所有人都在聊大模型,但很少有人关注大模型背后的"眼睛"——嵌入模型

你用 RAG 搭了一个知识库问答系统,效果不好。你以为是大模型不行,换了 GPT-4,还是不行。问题出在哪?

大概率是嵌入模型选错了,或者用法不对。

今天这篇,把嵌入模型从原理到选型、从分块策略到实战代码,一次性讲透。

一、嵌入模型是什么


假设你在北京地图上标注各种餐馆——“烤鸭”“烤肉”"串串"会聚在一起,“咖啡厅”"甜品店"会聚在另一片。

嵌入模型做的事情类似:把文字、图片甚至视频,变成一组数字坐标(向量),放进一个高维空间。意思相近的内容,坐标就靠得近。

• “猫” 和 “喵星人” → 坐标非常近
• “苹果(水果)” 和 “苹果(手机)” → 两个不同位置
• “今天天气真好” 和 “明天会下雨吗” → 话题相关,距离适中

这些"坐标"通常是 256 到 4096 维的浮点数。维度越高表达能力越强,但存储和检索成本也越高。

核心用途:

语义搜索:找意思相近的内容,不只是关键词匹配
RAG:检索增强生成,让大模型有自己的知识库
推荐系统:相似内容推给相似用户
• 文本分类、异常检测、聚类分析

二、嵌入模型和大语言模型是什么关系


它们都基于 Transformer 架构,但分工不同:

对比项 嵌入模型 大语言模型
核心功能 把文本压缩成向量 生成文本
架构 Encoder(双向) Decoder(自回归)
输出 一个固定长度向量 一串 token
参数量 100M - 8B 7B - 数千亿
速度 极快(毫秒级) 较慢(秒级)

简单说:嵌入模型负责"找到相关内容",大语言模型负责"用找到的内容回答问题"。在 RAG 系统里,嵌入模型是入口——它找不到的东西,大模型根本看不见。

三、稠密向量 vs 稀疏向量


嵌入向量有两大流派:

特性 稠密向量 稀疏向量
原理 神经网络压缩语义 词频统计/关键词权重
代表 OpenAI、BGE、Cohere BM25、SPLADE
优势 理解语义、同义词 精确匹配、专有名词
劣势 可能漏掉关键词 不懂同义词和语境

举个例子:搜索 “GPU 显存不足”

• 稠密向量能找到 “CUDA out of memory” 的英文文档(语义相近)
• 稀疏向量能精确匹配包含 “GPU” 这个词的文档

常见误区

BM25 不是"落后技术"。在涉及专有名词(产品编号、人名、代码函数名)的场景,它经常比神经网络嵌入表现更好。Google 搜索至今仍然用稀疏检索作为第一层召回。

四、混合检索 + Reranker:生产环境最佳实践


既然两种向量各有所长,最佳做法是合在一起用——混合检索(Hybrid Search)。

第一步:双路召回

• 稠密向量做语义搜索,得到 Top-K 候选
• BM25 做关键词搜索,得到另一批候选
• 用 RRF(倒数排名融合)合并两组结果

# RRF 核心公式

def
 
rrf_score
(rank, k=
60
):
    
return
 
1.0
 / (k + rank)

# 合并两路结果

final = 
rrf
(dense_rank) + 
rrf
(sparse_rank)

第二步:Reranker 精排

召回 Top-50 之后,用 Reranker 对每个结果和查询做精细打分,重新排序,取 Top-5 送给大模型。

Reranker 特点
Cohere Rerank 3.5 业界最强,API 调用简单
BGE-Reranker-v2 开源,中文表现优秀
Jina Reranker v2 免费额度,代码场景好用

完整链路

用户查询 → 嵌入模型(召回 Top-50)→ Reranker(精排 Top-5)→ 大语言模型(生成回答)

这三步是 2026 年 RAG 系统的标准架构。跳过任何一步,效果都会打折。

五、分块策略(Chunking)


嵌入模型有上下文窗口限制(通常 512 或 8192 token),长文档必须先切分成"块"再嵌入。怎么切,直接决定检索效果。

策略 做法 适用场景
固定长度 每 500 token 切一刀 快速实现,通用
按语义切分 检测话题转换点 长文章、报告
按结构切分 按标题/段落/代码块 技术文档、Markdown
递归切分 先大后小,逐级拆分 LangChain 默认方式

关键技巧:重叠窗口(Overlap)

切块时让相邻块有 10-20% 的重叠内容,避免关键信息被切断。比如 500 token 一块,重叠 50 token。

六、主流模型选型(2026 年初)


模型 MTEB 维度 价格 亮点
Cohere embed-v4 65.2 1024 $0.1/M 综合第一
OpenAI text-3-large 64.6 3072 $0.13/M 生态最好
OpenAI text-3-small 62.3 1536 $0.02/M 性价比王
BGE-M3(开源) 63.0 1024 免费 中文最强
Jina v3 63.0 1024 有免费额度 代码检索强
Qwen3-Embedding 新晋强 4096 免费 中文可本地跑

价格说明:M = 百万 token,约等于 3-4 本书的长度。

选型决策树

• 数据不能出境 → BGE-M3 或 Qwen3-Embedding(本地部署)
• 中文为主 → BGE-M3(成熟稳定)或 Qwen3-Embedding(新锐)
• 英文为主、已在用 OpenAI → text-3-small(性价比)或 text-3-large(效果优先)
• 多语言混合 → Cohere embed-v4
• 快速验证、不想花钱 → Jina v3 免费额度

七、MTEB:嵌入模型的"高考"


MTEB(Massive Text Embedding Benchmark)是最权威的嵌入模型评测基准,由 HuggingFace 维护,涵盖 8 大任务类型、56 个数据集:

检索(Retrieval)— RAG 最相关,建议重点看
• 语义相似度(STS)
• 分类(Classification)
• 聚类(Clustering)
• 重排序(Reranking)

别只看总分

MTEB 总分是所有子任务的均分。如果你做 RAG,就只看 Retrieval 子项。总榜第一,不一定适合你的场景。

榜单地址:huggingface.co/spaces/mteb/leaderboard

八、向量量化:省 90% 存储成本


1024 维的 float32 向量,每条占 4KB。一千万条文档就是 40GB。怎么省?

向量量化:用更少的字节表示同一个向量,牺牲少量精度换存储和速度。

方法 压缩比 精度损失
int8 量化 4x 极小(< 1%)
二值量化(Binary) 32x 较大,需 Reranker 补偿
Matryoshka(套娃) 可调 按需取前 N 维

Matryoshka 嵌入(OpenAI text-3 支持)特别巧妙:向量的前 256 维就包含了大部分语义,前 512 维覆盖 95%+。可以根据精度需求动态截断,不用重新生成。

实用建议

先用 int8 量化(几乎零损失),如果还不够,用二值量化做粗筛 + Reranker 精排。Qdrant、Weaviate 都原生支持量化。

九、多语言与跨模态嵌入


多语言嵌入:一个模型同时理解多种语言,搜中文能召回英文文档。

• BGE-M3:100+ 语言,中文检索最强
• Cohere embed-v4:MTEB 多语言子项第一
• mE5-large(微软):多语言 STS 优秀,开源

跨模态嵌入:把图片和文字放进同一个向量空间。

• CLIP(OpenAI):图文互搜的开创者
• ImageBind(Meta):连音频、视频、深度图都统一
• nomic-embed-vision:轻量级,图文混合检索

应用场景

电商搜索:输入"红色连衣裙"→ 跨模态嵌入同时检索文字描述和商品图片。
内部知识库:中英混合文档,用一个多语言模型统一处理,不用维护两套索引。

十、实战代码


OpenAI Embedding

from
 openai 
import
 OpenAI
client = OpenAI()

resp = client.embeddings.create(
    model=
"text-embedding-3-small"
,
    input=
"嵌入模型把文字变成向量"

)
vector = resp.data[0].embedding

# len(vector) = 1536

Jina Embedding(免费额度)

import
 requests
resp = requests.post(
    
"https://api.jina.ai/v1/embeddings"
,
    headers={
"Authorization"
: 
"Bearer jina_xxx"
},
    json={
        
"model"
: 
"jina-embeddings-v3"
,
        
"input"
: [
"嵌入模型把文字变成向量"
]
    }
)
vector = resp.json()[
"data"
][0][
"embedding"
]

BGE-M3 本地推理

from
 FlagEmbedding 
import
 BGEM3FlagModel
model = BGEM3FlagModel(
"BAAI/bge-m3"
)

docs = [
"嵌入模型把文字变成向量"
,
        
"Embedding models convert text"
]
embeddings = model.encode(docs)

# 返回稠密+稀疏向量,一个模型搞定混合检索

总结:五条核心建议


1. 嵌入模型决定 RAG 上限
大模型只能用找到的内容回答。嵌入模型找不到的,大模型永远看不见。

2. 默认开混合检索
稠密 + 稀疏,没有理由不用。主流向量数据库都原生支持。

3. 不要跳过 Reranker
召回 50 条让 Reranker 精排,比直接用嵌入分数取 Top-5 准确得多。

4. 分块策略比模型选择更重要
同一个模型,分块方式不同,检索效果可以差 2-3 倍。先调分块,再考虑换模型。

5. 先跑起来,再优化
OpenAI text-3-small 或 Jina v3 免费额度先跑通流程,再根据实际效果决定是否换模型。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
在这里插入图片描述

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

图片

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐