【收藏必备】从零开始学RAG：嵌入模型如何提升大模型应用效果

文章详细解析了RAG框架中嵌入模型的核心作用，介绍嵌入如何将文本转换为向量表示以实现语义理解和高效检索。探讨了不同类型嵌入模型的选择考量因素，包括上下文窗口、维度、成本等，并通过MTEB基准指导模型选择。为构建精准的RAG应用，需平衡领域需求、资源限制和文档特点，选择最适合的嵌入模型。

不秃头de程序猿

398人浏览 · 2025-09-22 15:34:30

不秃头de程序猿 · 2025-09-22 15:34:30 发布

Augmented Generation（RAG）眼下是构建生成式 AI 应用最火热的框架。企业和组织之所以钟爱它，是因为它能利用自身的专有数据来回答用户问题，使得大模型给出的答案更准确、最新且与问题高度相关。

根据我构建 RAG 应用的经验，答案质量在很大程度上取决于检索到的上下文。
想要提升检索上下文，一条关键途径就是：按合适大小切分数据、选择合适的嵌入（embedding）模型，以及使用有效的检索机制。

什么是嵌入（Embeddings）？

嵌入是对语言中的含义与模式的数字化表示。这些数字帮助系统找到与问题或主题最相关的信息。

嵌入由嵌入模型生成。它可以把词语、图片、文档甚至声音，转换成一串数字（向量）。

你也许在大语言模型（LLM）的语境里听说过嵌入，但实际上它们历史更久。

嵌入如何计算？

目前大多通过语言模型来生成嵌入。
与用静态向量表示每个 token 不同，语言模型会生成上下文化的嵌入：同一个词／句／段在不同上下文会得到不同的向量。这些向量可供其他系统执行多种任务。

常见做法之一是取所有 token 嵌入的平均值来得到文本向量。但高质量的文本嵌入模型通常会针对嵌入任务专门训练。

1from sentence_transformers import SentenceTransformer
2
3# 载入模型
4model = SentenceTransformer("sentence-transformers/all-mpnet-base-v2")
5
6# 文本转嵌入
7vector = model.encode("Best movie ever!")
8# 向量维度可用 vector.shape 查看

嵌入在 RAG 中为何重要？

语义理解

嵌入把词、句子或文档转换成向量，相似语义会在向量空间中彼此靠近，帮助系统理解上下文而非简单词面匹配。
高效检索

RAG 需要迅速定位最相关段落或文档。嵌入让搜索变得快速易行，常配合 k-nearest neighbors（k-NN）等算法。
提高准确率

即便检索文本未出现与查询相同的词，嵌入也能捕捉语义相关性，从而返回更精准的答案。

嵌入的类型

在这里插入图片描述

1. 按处理信息类型划分

1.1 词嵌入（Word Embeddings）

把每个词表示为多维空间中的一点，语义相近（如 dog 与 cat）的位置接近。
常见模型：

Word2Vec

：基于大规模文本学习词间关系
GloVe

：关注词共现频次
FastText

：将词拆成子词，擅长处理稀有或拼写错误词

1.2 句子嵌入（Sentence Embeddings）

有时需理解整句含义。
知名模型：

Universal Sentence Encoder (USE)

：适用于陈述句、问句等各种句型
SkipThought

：通过预测上下句学习上下文与意图

1.3 文档嵌入（Document Embeddings）

可覆盖段落到整本书。
代表模型：

Doc2Vec
Paragraph Vectors

1.4 图像嵌入（Image Embeddings）

图像同样可进 RAG。典型模型：卷积神经网络（CNN）。

2. 按嵌入特性划分

2.1 稠密嵌入（Dense）

向量大多数维度都有非零值，信息紧凑，便于快速相似度计算。

2.2 稀疏嵌入（Sparse）

大部分维度为 0，只保留关键信息，突出差异。

2.3 长上下文嵌入

为处理长文档而设计，最新模型可一次接收数千词，例如 BGE-M3（8192 token）。

2.4 多向量嵌入（Multi-Vector）

一个对象对应多个向量，每个向量捕获不同特征，表达更丰富。

选择文本嵌入模型的参数

上下文窗口

处理长度上限；越大越能一次性分析长文档。
分词方式

BPE、WordPiece、词级等。影响模型处理生僻词能力。
维度（Dimensionality）

维度高→信息丰富但计算重；维度低→轻量但可能丢细节。
词表大小

3–5 万常见；越大覆盖越广。
训练数据

通用 vs 行业专用。
成本

API 计费 or 开源自托管。

选型关键因素

了解数据领域

通用 FAQ → 通用模型；医疗/法律 → 行业模型（例：BioBERT）。
多模态需求 → CLIP 等。
嵌入维度与模型复杂度

1536/4096 维效果好但成本高；384/768 维性价比高。
可借助 Pinecone、Weaviate、FAISS 量化压缩。
计算效率

对延迟敏感 → 轻量模型如 DistilBERT、MiniLM。
上下文理解

长文档检索需大 context window。
集成兼容性

TensorFlow、PyTorch、Hugging Face 模型社区活跃。
成本

API 简单但易超支；开源省钱但需运维。

场景示例：医疗科研论文的嵌入模型选择

目标：构建医学论文语义搜索
数据：单篇 2 000–8 000 词
预算：300–500 美元/月

步骤

领域相关性

需科学／学术语料训练的模型。
上下文窗口

8 192 token 可覆盖约 6 156 词。512 token 模型直接排除。
排除：Stella 400M/1.5B、BAAI/bge-base-en-v1.5 等。
成本

估算 10 000 篇 × 8 000 token：