Transformer词嵌入揭秘：为什么要做词嵌入？

本文系统阐述了词嵌入技术在自然语言处理中的演进过程。首先分析了One-Hot编码的局限性，指出其高维稀疏、无法表达语义关系的缺陷；随后重点介绍了WordEmbedding的原理与优势，包括语义表示、泛化能力等特点；并探讨了位置嵌入在序列建模中的必要性，详细说明了学习式与函数式两种位置编码方法。文章通过对比不同词表示技术的优劣，展现了从符号化到分布式、从静态到动态的发展趋势，强调词嵌入与位置嵌入共同

python零基础入门小白

333人浏览 · 2025-09-20 08:00:00

python零基础入门小白 · 2025-09-20 08:00:00 发布

在自然语言处理（NLP）的发展历程中，如何有效地表示词语是构建智能语言系统的关键基础。

传统的符号化表示方法难以捕捉语义信息，而现代深度学习模型依赖于连续、低维且富含语义的向量表示。

本文围绕"为什么要做词嵌入"这一核心问题，系统阐述One-Hot编码的局限性，介绍词嵌入（Word Embedding）的基本原理与优势。

并进一步探讨位置嵌入（Position Embeding）在序列建模中的必要性，逻辑清晰地呈现词表示技术的演进路径。

一、为什么要做词嵌入？

语言的本质是意义的传递，而机器理解语言的前提是将文本转化为可计算的数学形式。

早期方法将词语视为离散符号，但这种表示方式无法反映词语之间的语义关系。例如，"医生"和"护士"在语义上相关，但在符号层面彼此孤立。

词嵌入的核心目标就是为了解决这一问题：

实现语义表示：通过将词语映射到连续向量空间，使语义相近的词在向量空间中距离更近（如“国王”与“王后”）。

支持泛化能力：模型可通过向量运算捕捉类比关系（如“巴黎 - 法国 + 意大利 ≈ 罗马”）。

提升计算效率：相比高维稀疏表示，低维稠密向量显著降低存储与计算开销。

适配深度学习框架：为神经网络提供可微、可学习的输入表示，支持端到端训练。

因此，词嵌入不仅是技术手段，更是连接语言学与机器学习的桥梁，构成了现代 NLP 系统的基石。

二、One-Hot Encoding：简单但低效

One-Hot编码是一种最基础的词表示方法。

1. 原理

给定一个大小为 V 的词汇表，每个词用一个 V 维向量表示，其中仅对应位置为1，其余为0。

例如，词汇表为 [“猫”, “狗”, “鸟”]，则“狗”的 One-Hot 向量为 [0, 1, 0]。

2. 优点

实现简单，逻辑清晰。

每个词有唯一、明确的标识。

3. 缺陷

高维稀疏：当词汇表庞大时（如10万词），向量维度极高，99%以上为零值，造成资源浪费。

无语义信息：任意两个不同词的向量正交（余弦相似度为0），无法体现“猫”与“狗”比“猫”与“石头”更相近的事实。

无法泛化：模型难以从已知词推断未知词的语义，缺乏迁移能力。

不支持相似性计算：无法回答“与‘快乐’最接近的词是什么”。

由于上述局限，One-Hot 编码仅适用于教学演示或极简系统，无法满足现代 NLP 需求。

三、Word Embedding：语义向量

词嵌入（Word Embedding）将每个词映射为一个低维实数向量（如128或300维），通过在大规模语料上训练获得，使得向量空间能够反映词语的语义和语法特性。

1. 核心思想

“一个词的含义由其上下文决定”——分布假说（Distributional Hypothesis）。

词嵌入正是这一思想的数学实现：频繁共现的词在向量空间中距离更近。

主要方法

Word2Vec（Mikolov et al., 2013）

包括 CBOW（根据上下文预测中心词）和 Skip-gram（根据中心词预测上下文），通过浅层神经网络学习词向量，高效且效果显著。

GloVe（Pennington et al., 2014）

基于全局词共现统计矩阵进行因子分解，结合了全局统计与局部上下文优势。

FastText（Bojanowski et al., 2017）

将词分解为 n-gram 子词单元，支持未登录词（OOV）的表示，尤其适合形态丰富的语言。

2. 优势

向量稠密、维度低，适合大规模计算。

捕捉语义相似性（如“汽车”≈“轿车”）和语法规律（如动词时态、复数形式）。

可预训练、可迁移，广泛用于文本分类、命名实体识别、机器翻译等任务。

3. 局限

静态表示：每个词只有一个固定向量，无法处理一词多义（如“苹果手机” vs “吃苹果”）。

对低频词表示效果较差。

注：后续发展如 ELMo、BERT 等动态嵌入模型通过上下文感知解决了多义性问题，但其输入层仍依赖基础词嵌入机制。

四、Position Embedding：为序列注入顺序信息

尽管词嵌入成功表达了语义，但它本身不包含词序信息。而语言是序列性的，“我爱你”与“你爱我”语义完全不同。

在 RNN、LSTM 等时序模型中，顺序通过时间步隐式建模；但在 Transformer 等并行架构中，必须显式引入位置信息。

1. 为什么需要位置嵌入？

Transformer 模型通过自注意力机制并行处理所有词，失去了天然的顺序感知能力。

若无位置信息，模型将无法区分句子中词的排列顺序，导致语义混乱。

2. 实现方式

（1）学习式位置嵌入（Learned Position Embedding）

为每个位置（如第1位、第2位……）分配一个可训练的向量。

在 BERT、RoBERTa 等模型中采用。

优点：灵活，可适应任务需求。

缺点：受限于训练时的最大长度，难以外推到更长序列。

（2）函数式位置嵌入（Sinusoidal Position Embedding）

使用正弦和余弦函数生成固定位置编码，定义如下：

其中 pos 为位置索引，i 为维度索引，d 为嵌入维度。

在原始 Transformer 中使用。

优点：可泛化到比训练更长的序列；能隐式表示相对位置。

3. 与词嵌入的融合

最终输入表示为两者的逐元素相加：

Input Embedding=Word Embedding+Position Embedding

这一设计使得模型既能理解“谁在说什么”，也能知道“谁先说、谁后说”。

4. 发展趋势

近年来，相对位置编码（Relative Position Encoding）、旋转位置编码（RoPE）等改进方法被提出，进一步提升了长序列建模能力。

五、总结与对比

词表示技术的演进反映了 NLP 从符号化到分布式、从静态到动态、从局部到全局的发展趋势。

One-Hot 编码是词表示的起点，但因缺乏语义和效率低下而被淘汰。

词嵌入实现了语义的连续化表达，是现代 NLP 的核心组件。

位置嵌入弥补了词嵌入对顺序不敏感的缺陷，使非循环结构也能处理序列数据。

在实际系统中，词嵌入与位置嵌入协同工作，共同构成语言模型的输入表示。

六、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K（数据来源：BOSS直聘报告）

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

02.如何学习大模型 AI ？

🔥AI取代的不是人类，而是不会用AI的人！麦肯锡最新报告显示：掌握AI工具的从业者生产效率提升47%，薪资溢价达34%！🚀

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

1️⃣ 提示词工程：把ChatGPT从玩具变成生产工具
2️⃣ RAG系统：让大模型精准输出行业知识
3️⃣ 智能体开发：用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你：
✔️ 大厂内部LLM落地手册（含58个真实案例）
✔️ 提示词设计模板库（覆盖12大应用场景）
✔️ 私藏学习路径图（0基础到项目实战仅需90天）

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

流浪动物管理系统信息管理系统源码-SpringBoot后端+微信小程序前端+MySQL【可直接运行】

2048 AI社区

提示工程架构师学习避坑指南：别再只学提示词！这4大能力更重要

当你捧着《100个万能提示词模板》反复试验，却发现复杂任务依然卡壳；当你用“咒语式”提示词生成的内容总是偏离需求，甚至触发模型的“胡言乱语”——你可能已经陷入了提示工程学习的最大误区：把“写提示词”等同于“做提示工程”。真正的提示工程架构师，不是“提示词写手”，而是“大模型解决方案设计师”。懂模型：像“翻译官”一样理解大模型的“思维方式”；拆任务：像“家具组装师”一样把复杂问题拆成模型能处理的步骤

2048 AI社区

数据集与特征工程入门

训练集（Training Set）：用于训练模型，让算法学习规律；验证集（Validation Set）：用于调节超参数，避免模型过拟合；测试集（Test Set）：用于评估模型的最终性能，保证结果可靠。特征（Features）：房屋面积、位置、楼层、装修情况等；标签（Label）：房屋价格。特征工程是指对原始数据进行处理，使其更好地适合机器学习模型的过程。特征工程 = 提取有用特征 + 转换数据