引:当机器开始“理解”语义

人类的智慧源于对世界的抽象与理解。我们看到“国王”这个词,脑海中会浮现出皇冠、宫殿,会联想到“王子”、“统治”等概念。我们不仅能理解词语的含义,还能洞察它们之间的关系。然而,对于计算机而言,这些词语在最初只是一串冰冷的、毫无关联的二进制代码(0和1)。如何让机器像人类一样“理解”文字、图像、声音背后丰富的含义与关联,成为了人工智能领域长期以来的核心挑战。

这座连接人类抽象世界与机器数字世界的桥梁,就是嵌入(Embedding)。它绘制出AI的“语义地图”,将纷繁复杂的数据转化为计算机可以处理且富含意义的“数字坐标”。本文我们从零开始探索Embedding,了解它是什么、核心原理、如何演进,怎样重塑AI世界。

一、什么是Embedding?——语义的“数字DNA”

定义:Embedding 是一种将高维、稀疏、离散的符号映射到低维、密集、连续的向量空间的技术。

一个Embedding向量就像一段DNA,编码了原始数据最核心的特征和信息。

  1. 从稀疏到稠密,高维到低维的艺术

早期用One-Hot编码来表示一个词,就像用一根极长的针在宇宙中定位一个点——大部分空间都是空的(稀疏),效率极低。

而Embedding则像一次“降维压缩”。它将一个可能百万维的One-Hot向量,压缩成一个300维的稠密向量,每个维度都承载着某种潜在语义特征(如“性别”、“动物性”等)。

One-Hot vs. Embedding

One-Hot(“猫”):[0, 0, 0, 1, 0, 0, …, 0] (长度 = 词典大小,如100,000)

Embedding (“猫”): [0.23, -0.45, 0.89, …, 0.11] (长度 = 300, 大部分值非零)

这种压缩不仅节省空间,更重要的是,它让语义变得“可计算”。

  1. 语义地图:词语的几何空间

Embedding的精髓在于几何可解释性。在向量空间中,词语不再是孤立的符号,而是有位置的点。可使用余弦相似度或欧氏距离来衡量向量的相似性,语义相似的词,其向量在空间中的位置也更接近。

举个经典例子,向量(女王)≈向量(国王)−向量(男人)+向量(女人),Embedding可以捕捉到“性别”这一抽象关系。

  1. 技术演进:从“静态”到“动态”向量

传统Embedding模型(如Word2Vec)是静态的,为每个词分配一个固定向量。但“苹果”在“吃苹果”和“苹果手机”中含义不同。

现代Embedding模型(如BERT)是动态的,同一个词在不同句子中,生成不同的向量。这就像给词语赋予了“情境感知”能力,让表示更精准。

二、Embedding的演进

2013年以前:黑暗时代

文本用One-Hot或TF-IDF表示,语义依赖人工规则,机器“懂语法但不懂意思”。

转折点出现在2013年:Word2Vec——语义可计算的开端

Mikolov提出Word2Vec,利用神经网络通过预测上下文来学习词向量。核心思想:“一个词的含义由其上下文决定”。

2014:GloVe——统计与预测的融合

GloVe结合全局共现统计(词共现矩阵)和局部上下文预测,生成更稳健的词向量。

2019至今:BERT与GPT——动态语义引擎

Transformer架构的兴起,催生了BERT、GPT等模型。词向量升级为动态、多层次的“语义引擎”。从此,Embedding不再是简单的“词向量”,而是“句向量”、“段向量”乃至“文章向量”。

Embedding的普适性:从文本到万物

Embedding的思想早已超越了文本领域,成为了表示一切事物的通用范式。

(1)图像Embedding:通过CNN提取图像特征向量,用于以图搜图,例如上传白色运动鞋照片来迅速匹配商品。

(2)图Embedding(Node2Vec):为社交网络、推荐系统中的节点(用户、商品)生成向量,用于推荐系统。例如 [用户A] ----喜欢----> [视频1],[用户A] ----点赞----> [视频2],[用户B] ----关注----> [博主X],在向量空间中,行为相似的用户(如都爱搞笑视频)和内容相似的视频(如都是萌宠)会聚集在一起,推荐系统通过计算距离进行匹配,分析和推荐你可能喜欢的商品及内容。

(3)多模态Embedding:将图像、文本、语音映射到同一向量空间(如CLIP模型),实现“以文搜图”。

三、Embedding如何工作?

Embedding的核心原理是分布假说 (Distributional Hypothesis):“你通过一个人的朋友来了解他。”在文本中,就是“一个词的含义由其周围的词(上下文)决定”。

主要生成方法:

1.基于预测的神经网络模型(如Word2Vec)

两种模型结构:

1)CBOW (Continuous Bag-of-Words):用上下文预测中心词

输入:周围的所有词(例如 [The, cat, sat, on, the],忽略顺序,像一个“袋子”)

输出(预测目标):中间的中心词(例如 [mat])

[cat] [sat] [on] [the] → [mat]
2)Skip-gram:用中心词预测上下文

输入:一个中心词(例如 [sat])

输出(预测目标):分别预测它周围一定窗口内的每一个词(例如,依次预测 [The], [cat], [on], [the])

[sat] → [cat] [on] [the]
通过不断调整词向量来完成这个预测任务,最终获得高质量的嵌入。

2.基于上下文的深度模型(如BERT)

解决一词多义的痛点,Word2Vec是“静态”的,“苹果”一词无论是水果还是公司,都只有一个向量。

BERT等模型采用Transformer编码器结构Transformer中的编码器和解码器,通过掩码等进行预训练。它会同时分析一个词左右两边的全部上下文,从而为同一个词在不同句子中生成不同的动态向量。

四、Embedding评估与挑战

如何评估?内在评估:直接测试向量,如词类比任务(如“国王:男人=女王:?”)、词相似度任务(对比向量相似度与人类评分),适用快速验证模型基础能力(如训练过程中调试)。外在评估:将Embedding作为特征输入下游任务(如情感分析、推荐),看性能是否提升。这是更可靠的方式。

面临挑战:

  1. 可解释性:向量是“黑盒”,维度无明确物理意义。

  2. 偏见放大:训练数据中的性别、种族偏见会被Embedding学习并放大。

  3. 领域适应性:通用Embedding在医疗、法律等专业领域效果不佳。

  4. 动态更新:新词、新概念出现,Embedding需持续学习。

结语:Embedding——AI的基石

Embedding不仅是技术,更是一种哲学:将复杂世界投影到可计算的几何空间。它让机器从“匹配符号”走向“理解语义”,成为NLP、推荐系统、计算机视觉的基石。

Embedding篇还未结束,这里留下几个关键问题,我们将在后续文章中深入探讨:

1.“嵌入”vs“向量化”:为什么我们称之为“嵌入”(Embedding),而不是简单的“向量化”(Vectorization)?这个词背后蕴含着怎样的思想?

2.静态与动态的博弈:传统的Word2Vec生成的是“静态Embedding”,而BERT生成的是“动态Embedding”。这两种范式有何本质区别?

3.Embedding的图解奇迹:一个令人惊叹的事实是:如果我们对全球主要城市的名称进行Embedding训练(基于它们在新闻中的共现模式),然后用降维技术将其投影到二维平面,得到的图竟然近似于真实的世界地图!这背后隐藏着怎样的原理?这说明了Embedding的哪些深层能力?

后续的文章,我们慢慢揭开这些问题的神秘面纱,更深入地走进Embedding奇妙世界。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐