随着大数据时代的到来和人工智能的飞速发展,如何将海量数据、以及多维的数据信息进行高效处理成为了核心问题。而嵌入(Embedding)技术则为这一挑战提供了重要的解决方案。

嵌入(Embedding)技术主要**通过将复杂的、高维度的数据映射到连续且低维度的向量空间,使得数据之间的语义或结构关系得到有效的表达,从而大幅降低计算的复杂度并改善模型的学习效果。**尤其在自然语言处理(NLP, Natural Language Processing)领域,嵌入(Embedding)不仅为语义建模提供了坚实的基础,还广泛应用于文本分类、机器翻译、情感分析、智能问答系统、以及智能推荐系统等实际应用场景中。

嵌入(Embedding)技术基本概念

**嵌入(Embedding)技术是一种将高维离散数据映射到低维连续向量空间的数学方法,从而使得数据(或者词语)之间的语义关系可以通过向量之间的距离来度量(后面通过实例来说明)。**在自然语言(NLP)处理中,以词嵌入为代表的嵌入技术成为研究与应用的基石,其主要特点包括以下几个方面:

  • 降维与特征重组:通过嵌入技术,可以将原始文本数据中上千个甚至更多的特征被压缩为一个固定长度(通常几十到基本维度)的稠密向量,大大降低了计算的复杂度。
  • 语义表示:嵌入向量能够捕捉词与词之间,或句子之间的语义相似性,语义相近的词语或者句子在向量空间中的距离更接近。例如,"king(国王)"和"queen(皇后)"之间的语义更接近,在向量空间中通常会是相邻的。
  • 连续与可学习:嵌入向量是通过海量数据训练学习而得来的,这使得向量空间中的距离和方向具有实际语义解释。

                                                     文本嵌入流程示意图

嵌入(Embedding)技术不仅适用于文本数据,还可以用于图像、音频等多模态数据的表示。所以它被广泛应用于各类人工智能的任务中,比如图像检索、人脸识别、智能问答系统、推荐系统、企业知识库系统等。

自然语言处理(NLP)中的嵌入算法

   主要说下传统的静态词嵌入和机遇上下文的动态嵌入。

1、词嵌入技术:Word2Vec、GloVe 与 FastText

早期的词嵌入模型主要关注静态表示,也就是每个词汇独立生成一个固定的向量。常见的静态词嵌入模型有Word2Vec、GloVe 与 FastText。

  • Word2Vec由Google提出,采用浅层神经网络,通过连续词带模型(CBOW)和跳跃模型(Skip-gram)来学习词汇向量。其中,CBOW模型依据上下文预测目标词汇,学习过程简单高效;Skip-gram模型则是通过预测词的上下文来训练词向量,能更好的捕捉低频词语的语义信息。
  • GloVe(全局向量)模型利用语句在全局语料中的共现信息,通过构造共现矩阵并进行矩阵分解,从而得到词汇的稠密向量表示。GloVe结合了局部上下文和全局统计信息,使得生成的词向量在语义的稳定性和准确性上表现更为优异。
  • FastText相比Word2Vec将词分解为更细力度的子词(n-gram),使得模型在处理未登录词或者形态丰富的语言时具有更大的优势,其向量表示可以通过子词向量加和获得,从而有效的解决了词形变异问题

下表对比了三种词嵌入模型在不同应用场景下的优劣势:

模型名称 表示方式 优势 劣势
Word2Vec 静态词向量 训练速度快,效果直观 对低频词效果较差
GloVe 静态词向量 结合全局统计信息,稳定性好 依赖于共现矩阵,计算量较大
FastText 子词级别向量 对未登录词鲁棒性好 模型复杂度略高,训练资源需求增加

2、上下文嵌入技术:BERT及其变种

    传统的词嵌入(或静态词嵌入)模型只能为每个词生成一个固定的向量,而忽略了词在上下文中的多义性。为解决这一问题,基于Transformer的上下文嵌入模型BERT被提出。
  • BERT(双向编码表示的Transformer),采用双向Transformer结构,能够同时考虑左侧和右侧上下文,为同一词汇生成不同的语境相关词嵌入。它通过掩码语言模型(MLM)任务进行预训练,使得模型在处理上下文信息时表现比较强的语义和理解能力。

  • 其他上下文嵌入模型:近年来还有 ELMo、GPT 等模型为代表的上下文嵌入模型不断涌现。ELMo 利用双向 LSTM 架构生成动态词向量,而 GPT 则偏重于生成任务,通过单向自回归模型实现文本生成,两者均大幅提升了语言模型处理长文本、捕捉上下文语义的能力。

    基于上下文嵌入技术较传统的词嵌入模型有了明显的优势:
    
  • 多义词处理:针对同一词在不同句子中的不同含义提供上下文敏感的向量表示。

  • 语境建模:通过双向或多层模型更全面捕捉上下文信息,从而使得嵌入更精准地反映词汇语义。

  • 下游任务通用性:上下文嵌入为各种 自然语言处理(NLP) 应用任务提供了更具泛化能力的特征表示,使得在文本分类、情感分析、机器翻译、智能问答等任务中均有良好的表现。

嵌入(Embedding)技术在实际应用中的案例分析

   在NLP的众多应用场景中,嵌入已被证明是提高模型表现的重要技术。下面结合2个实际案例,分析嵌入技术在不同任务重的应用效果和实现方法。

1、文本分类和情感分析

  文本分类任务主要是要求模型从文本中提取特征,将文本分为不同的类别。借助嵌入技术,将文本转换为向量,能够使得相似文本在向量空间中更接近,从而大大提高分类的准确性。

   在情感分析中,词嵌入能够帮助捕捉文本中细微的语义差异,从而对正面和负面情感作出区分。实验表明,词向量之间的线性组合能够反映出情感的极性变化,例如,通过向量运算可以发现“好”与“差”在嵌入空间中呈现明显的反向关系。

                              文本分类中嵌入向量的t-SNE降维示意图

2、机器语言与智能问答系统

    在机器翻译和智能问答系统重,嵌入技术主要用于构建源语言和不目标语言之间的语义桥梁。例如使用BERT生成上下文敏感的文本表示,可以在翻译任务中更加准确的捕捉上下文信息,进而提高文本翻译的质量。同样,在智能问答系统中,通过对用户提出的问题和候选答案进行文本嵌入,并进行相似度计算,模型可以智能的选择最佳相关的答案。在实际应用中,利用计算嵌入向量余弦相似的方法已成为检索增强生成(RAG)的基础。

    机器语言和智能问答系统都是语义上的文本处理,而非传统的关键字(词汇)搜索:

Embedding(嵌入)示例

1、如何获取嵌入

from openai import OpenAI
client = OpenAI()
response = client.embeddings.create(
input="Your text string goes here",
model="text-embedding-3-small"
)
print(response.data[0].embedding)

2、基于Embedding的相似性搜索

 本示例的数据集来源于亚马逊美食评论,可自行下载(https://www.kaggle.com/datasets/snap/amazon-fine-food-reviews)
import pandas as pd
import numpy as np
from ast import literal_eval
import tiktoken
from openai import OpenAI
embedding_model = "text-embedding-3-small"
embedding_encoding = "cl100k_base"
max_tokens = 8000
input_data = "data/fine_food_reviews_1k.csv"
datafile_path = "data/fine_food_reviews_with_embeddings_1k.csv"
# 初始化openai的客户端
client = OpenAI(
api_key="此处写API_KEY",
base_url="https://api.openai.com/v1"
)
# 1、现将现有的文档进行Embedding处理
df = pd.read_csv(input_data, index_col=0)
df = df[["Time", "ProductId", "UserId", "Score", "Summary", "Text"]]
# 删除cvs中缺失的数据,NaN,NaT的数据
df = df.dropna()
df["combined"] = (
"Title: " + df.Summary.str.strip() + "; Content: " + df.Text.str.strip()
)
# 进行分词处理
top_n = 1000
df = df.sort_values("Time").tail(top_n * 2)  # 首先切换到前 2000 条记录,假设其中不到一半会被过滤掉。
df.drop("Time", axis=1, inplace=True)
# 创建一个分词器
tokenizer = tiktoken.get_encoding(encoding_name=embedding_encoding)
# 省略那些太长而无法嵌入的评论
df["n_tokens"] = df.combined.apply(lambda x: len(tokenizer.encode(x)))
df = df[df.n_tokens <= max_tokens].tail(top_n)
len(df)
def get_embedding(text, model=embedding_model):
"""通过OpenAI的Embedding模型处理文本"""
resp = client.embeddings.create(input=text, model=model)
return resp.data[0].embedding
# Embedding,然后写入文件
df["embedding"] = df.combined.apply(get_embedding)
df.to_csv(datafile_path)
# 2、相似性搜索
# 此处使用的是已经经过embedding的数据作为数据源进行搜索,如果是普通文本需要先进行Embedding处理
df = pd.read_csv(datafile_path)
df["embedding_vec"] = df.embedding.apply(literal_eval).apply(np.array)
# 相似度计算
def cosine_similarity(a, b):
"""
计算两个向量之间的余弦距离(语义相似的词距离最近)
夹角余弦值,如果接近于 1,表示这两个向量非常相似;接近于-1表示它们方向相反
"""
return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))
resp = client.embeddings.create(input='pet food', model='text-embedding-ada-002')
word_embedding = resp.data[0].embedding
df['similarity'] = df.embedding_vec.apply(lambda x: cosine_similarity(x, word_embedding))
res = (
df.sort_values('similarity', ascending=False)
.head(2)  # 获取2个结果
.combined.str.replace('Title:', "")
.str.replace('; Content:', ';')
)
for r in res:
print(r)
print()

想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年 AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享

👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告:覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

  • 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
  • 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
  • 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
  • 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT:听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

在这里插入图片描述

  • 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
  • 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
  • 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
  • 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析

2. 102 道 AI 大模型真题:直击大模型核心考点

针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:


三、路线必明: AI 大模型学习路线图,1 张图理清核心内容

刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

在这里插入图片描述

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

img

L1阶段:启航篇丨极速破界AI新时代

L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

img

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

img

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

img

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

img

L5阶段:专题集丨特训篇 【录播课】

img
四、资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐