什么是Embedding(嵌入)？大模型入门到精通，收藏这篇就足够了！

嵌入（Embedding）技术不仅适用于文本数据，还可以用于图像、音频等多模态数据的表示。所以它被广泛应用于各类人工智能的任务中，比如图像检索、人脸识别、智能问答系统、推荐系统、企业知识库系统等。

Python秒杀

377人浏览 · 2026-02-12 06:30:00

Python秒杀 · 2026-02-12 06:30:00 发布

随着大数据时代的到来和人工智能的飞速发展，如何将海量数据、以及多维的数据信息进行高效处理成为了核心问题。而嵌入（Embedding）技术则为这一挑战提供了重要的解决方案。

嵌入（Embedding）技术主要**通过将复杂的、高维度的数据映射到连续且低维度的向量空间，使得数据之间的语义或结构关系得到有效的表达，从而大幅降低计算的复杂度并改善模型的学习效果。**尤其在自然语言处理（NLP， Natural Language Processing）领域，嵌入（Embedding）不仅为语义建模提供了坚实的基础，还广泛应用于文本分类、机器翻译、情感分析、智能问答系统、以及智能推荐系统等实际应用场景中。

嵌入（Embedding）技术基本概念

**嵌入（Embedding）技术是一种将高维离散数据映射到低维连续向量空间的数学方法，从而使得数据（或者词语）之间的语义关系可以通过向量之间的距离来度量（后面通过实例来说明）。**在自然语言（NLP）处理中，以词嵌入为代表的嵌入技术成为研究与应用的基石，其主要特点包括以下几个方面：

降维与特征重组：通过嵌入技术，可以将原始文本数据中上千个甚至更多的特征被压缩为一个固定长度（通常几十到基本维度）的稠密向量，大大降低了计算的复杂度。
语义表示：嵌入向量能够捕捉词与词之间，或句子之间的语义相似性，语义相近的词语或者句子在向量空间中的距离更接近。例如，"king（国王）"和"queen（皇后）"之间的语义更接近，在向量空间中通常会是相邻的。
连续与可学习：嵌入向量是通过海量数据训练学习而得来的，这使得向量空间中的距离和方向具有实际语义解释。

                                                     文本嵌入流程示意图

自然语言处理（NLP）中的嵌入算法

   主要说下传统的静态词嵌入和机遇上下文的动态嵌入。

1、词嵌入技术：Word2Vec、GloVe 与 FastText

早期的词嵌入模型主要关注静态表示，也就是每个词汇独立生成一个固定的向量。常见的静态词嵌入模型有Word2Vec、GloVe 与 FastText。

Word2Vec由Google提出，采用浅层神经网络，通过连续词带模型（CBOW）和跳跃模型（Skip-gram）来学习词汇向量。其中，CBOW模型依据上下文预测目标词汇，学习过程简单高效；Skip-gram模型则是通过预测词的上下文来训练词向量，能更好的捕捉低频词语的语义信息。
GloVe（全局向量）模型利用语句在全局语料中的共现信息，通过构造共现矩阵并进行矩阵分解，从而得到词汇的稠密向量表示。GloVe结合了局部上下文和全局统计信息，使得生成的词向量在语义的稳定性和准确性上表现更为优异。
FastText相比Word2Vec将词分解为更细力度的子词（n-gram），使得模型在处理未登录词或者形态丰富的语言时具有更大的优势，其向量表示可以通过子词向量加和获得，从而有效的解决了词形变异问题

下表对比了三种词嵌入模型在不同应用场景下的优劣势：

模型名称	表示方式	优势	劣势
Word2Vec	静态词向量	训练速度快，效果直观	对低频词效果较差
GloVe	静态词向量	结合全局统计信息，稳定性好	依赖于共现矩阵，计算量较大
FastText	子词级别向量	对未登录词鲁棒性好	模型复杂度略高，训练资源需求增加

2、上下文嵌入技术：BERT及其变种

    传统的词嵌入（或静态词嵌入）模型只能为每个词生成一个固定的向量，而忽略了词在上下文中的多义性。为解决这一问题，基于Transformer的上下文嵌入模型BERT被提出。

BERT（双向编码表示的Transformer），采用双向Transformer结构，能够同时考虑左侧和右侧上下文，为同一词汇生成不同的语境相关词嵌入。它通过掩码语言模型（MLM）任务进行预训练，使得模型在处理上下文信息时表现比较强的语义和理解能力。
其他上下文嵌入模型：近年来还有 ELMo、GPT 等模型为代表的上下文嵌入模型不断涌现。ELMo 利用双向 LSTM 架构生成动态词向量，而 GPT 则偏重于生成任务，通过单向自回归模型实现文本生成，两者均大幅提升了语言模型处理长文本、捕捉上下文语义的能力。
```
基于上下文嵌入技术较传统的词嵌入模型有了明显的优势：
```
多义词处理：针对同一词在不同句子中的不同含义提供上下文敏感的向量表示。
语境建模：通过双向或多层模型更全面捕捉上下文信息，从而使得嵌入更精准地反映词汇语义。
下游任务通用性：上下文嵌入为各种自然语言处理（NLP）应用任务提供了更具泛化能力的特征表示，使得在文本分类、情感分析、机器翻译、智能问答等任务中均有良好的表现。

嵌入（Embedding）技术在实际应用中的案例分析

   在NLP的众多应用场景中，嵌入已被证明是提高模型表现的重要技术。下面结合2个实际案例，分析嵌入技术在不同任务重的应用效果和实现方法。

1、文本分类和情感分析

  文本分类任务主要是要求模型从文本中提取特征，将文本分为不同的类别。借助嵌入技术，将文本转换为向量，能够使得相似文本在向量空间中更接近，从而大大提高分类的准确性。

   在情感分析中，词嵌入能够帮助捕捉文本中细微的语义差异，从而对正面和负面情感作出区分。实验表明，词向量之间的线性组合能够反映出情感的极性变化，例如，通过向量运算可以发现“好”与“差”在嵌入空间中呈现明显的反向关系。

                              文本分类中嵌入向量的t-SNE降维示意图

2、机器语言与智能问答系统

    在机器翻译和智能问答系统重，嵌入技术主要用于构建源语言和不目标语言之间的语义桥梁。例如使用BERT生成上下文敏感的文本表示，可以在翻译任务中更加准确的捕捉上下文信息，进而提高文本翻译的质量。同样，在智能问答系统中，通过对用户提出的问题和候选答案进行文本嵌入，并进行相似度计算，模型可以智能的选择最佳相关的答案。在实际应用中，利用计算嵌入向量余弦相似的方法已成为检索增强生成（RAG）的基础。

    机器语言和智能问答系统都是语义上的文本处理，而非传统的关键字（词汇）搜索：

Embedding（嵌入）示例

1、如何获取嵌入

from openai import OpenAI
client = OpenAI()
response = client.embeddings.create(
input="Your text string goes here",
model="text-embedding-3-small"
)
print(response.data[0].embedding)

2、基于Embedding的相似性搜索

 本示例的数据集来源于亚马逊美食评论，可自行下载（https://www.kaggle.com/datasets/snap/amazon-fine-food-reviews）

import pandas as pd
import numpy as np
from ast import literal_eval
import tiktoken
from openai import OpenAI
embedding_model = "text-embedding-3-small"
embedding_encoding = "cl100k_base"
max_tokens = 8000
input_data = "data/fine_food_reviews_1k.csv"
datafile_path = "data/fine_food_reviews_with_embeddings_1k.csv"
# 初始化openai的客户端
client = OpenAI(
api_key="此处写API_KEY",
base_url="https://api.openai.com/v1"
)
# 1、现将现有的文档进行Embedding处理
df = pd.read_csv(input_data, index_col=0)
df = df[["Time", "ProductId", "UserId", "Score", "Summary", "Text"]]
# 删除cvs中缺失的数据，NaN，NaT的数据
df = df.dropna()
df["combined"] = (
"Title: " + df.Summary.str.strip() + "; Content: " + df.Text.str.strip()
)
# 进行分词处理
top_n = 1000
df = df.sort_values("Time").tail(top_n * 2)  # 首先切换到前 2000 条记录，假设其中不到一半会被过滤掉。
df.drop("Time", axis=1, inplace=True)
# 创建一个分词器
tokenizer = tiktoken.get_encoding(encoding_name=embedding_encoding)
# 省略那些太长而无法嵌入的评论
df["n_tokens"] = df.combined.apply(lambda x: len(tokenizer.encode(x)))
df = df[df.n_tokens <= max_tokens].tail(top_n)
len(df)
def get_embedding(text, model=embedding_model):
"""通过OpenAI的Embedding模型处理文本"""
resp = client.embeddings.create(input=text, model=model)
return resp.data[0].embedding
# Embedding，然后写入文件
df["embedding"] = df.combined.apply(get_embedding)
df.to_csv(datafile_path)
# 2、相似性搜索
# 此处使用的是已经经过embedding的数据作为数据源进行搜索，如果是普通文本需要先进行Embedding处理
df = pd.read_csv(datafile_path)
df["embedding_vec"] = df.embedding.apply(literal_eval).apply(np.array)
# 相似度计算
def cosine_similarity(a, b):
"""
计算两个向量之间的余弦距离（语义相似的词距离最近）
夹角余弦值，如果接近于 1，表示这两个向量非常相似；接近于-1表示它们方向相反
"""
return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))
resp = client.embeddings.create(input='pet food', model='text-embedding-ada-002')
word_embedding = resp.data[0].embedding
df['similarity'] = df.embedding_vec.apply(lambda x: cosine_similarity(x, word_embedding))
res = (
df.sort_values('similarity', ascending=False)
.head(2)  # 获取2个结果
.combined.str.replace('Title:', "")
.str.replace('; Content:', ';')
)
for r in res:
print(r)
print()

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇