走进向量的世界
嵌入(Embedding)是指非结构化数据转换为向量的过程,通过神经网络模型或相关大模型,将真实世界的离散数据投影到高维数据空间上,根据数据在空间中的不同距离,反映数据在物理世界的相似度。
·
引言
在AI大模型中,有着自己的语言,那就是“向量”,不论输入什么格式的语言,都将转化为向量进行处理。本篇文章主要是了解向量表征、向量及嵌入模型。
向量表征
是什么
在人工智能领域,向量表征 (Vector Represenaton)是核心念之一。通过将文本、图像、声音、行为甚至复杂关系转化为高维向量(Embedding),AI系统能够以数学方式理解和处理
现实世界中的复杂信息。这种表征方式为机器学习模型提供了统一的“语言”。
本质
万物皆可数学化
核心思想
- 降维抽象:将复杂对象(如一段文字、一张图片)映射到低维稠密向量空间,保留关键语义或特征。
- 相似性度量、向量空间中的距离(如余弦相似度)反映对象之间的语义关联(如“猫”和“狗”的向量距离小于“猫”和“汽车”)。
数学意义
- 特征工程自动化:传统机器学习依赖人工设计特征(如文本的TF-IDF),而向量表征通过深度学习自动提取高阶抽象特征。
- 跨模态统一:文本、图像、视频等不同模态数据可映射到同一向量空间,实现跨模态检索(如“用文字搜图片”)。
应用场景
自然语言处理(NLP)
- 词向量(Word2Vec、GloVe):单词映射为向量,解决“一词多义“问题(如“苹果“在”水果“和“公司"上下文中的不同向量)。
- 句向量(BERT、Sentence-BERT):整句语义编码,用于文本相似度计算、聚类(如客服问答匹配)。
- 知识图谱嵌入(TransE、RotatE):将实体和关系表示为向量,支持推理(如预测“巴黎-首都-法国”的三元组可信度)
计算机视觉(CV)
- 图像特征向量(CNN特征):ResNet、ViT等模型提取图像语义,用于以图搜图、图像分类。
- 跨模态对齐(CLIP):将图像和文本映射到同一空间,实现“描述文字生成图片“或反向搜索。
推荐系统
- 用户/物品向量:用户行为序列(点击、购买)编码为用户向量,商品属性编码为物品向量,通过向量内积预测兴趣匹配度(如YouTube推荐算法)
复杂系统建模
- 图神经网络(GNN):社交网络中的用户、商品、交互事件均表示为向量,捕捉网络结构信息(如社区发现、欺诈检测)
- 时间序列向量化:将股票价格、传感器数据编码为向量,预测未来趋势(如LSTM、Transformer编码)。
技术实现
经典方法
- 无监督学习:Word2Vec通过上下文预测(Skip-Gram)或矩阵分解(GloVe)生成词向量。
- 有监督学习:微调预训练模型(如BERT)适应具体任务,提取任务相关向量。
前沿方向。
- 对比学习(Contrastive Learning):通过构造正负样本对(如”同一图片的不同裁剪”为正样本),拉近正样本向量距离,推开负样本(SimCLR、MoCo)。
- 多模态融合:将文本、图像、语音等多模态信息融合为统一向量(如Google的MUM模型)。
- 动态向量:根据上下文动态调整向量(如Transformer的注意力机制),解决静态词向量无法适应多义性的问题
文本向量(Text Embeddings)
是什么
- 将文本转成一组N维浮点数,即文本向量又叫Embeddings
- 向量之间可以计算距离,距离远近对应语义相似度大小
相似度
在下篇博客中结合代码单独总结一下
嵌入模型(Embedding Models)
什么是嵌入(Embedding)?
嵌入(Embedding)是指非结构化数据转换为向量的过程,通过神经网络模型或相关大模型,将真实世界的离散数据投影到高维数据空间上,根据数据在空间中的不同距离,反映数据在物理世界的相似度。
本质
嵌入模型(Embedding Model)是一种将离散数据(如文本、图像)映射到连续向量空间的技术。通过高维向量表示(如768维或3072维),模型可捕捉数据的语义信息,使得语义相似的文本在向量空间中距离更近。例如,“忘记密码”和“账号锁定“会被编码为相近的向量,从而支持语义检索而非仅关键词匹配。
核心作用
- 语义编码:将文本、图像等转换为向量,保留上下文信息(如 BERT的 CLS Token 或均值池化。相似度计算:通过余弦相似度、欧氏距离等度量向量关联性,支撑检索增强生成(RAG)、推荐系统等应用。
- 信息降维:压缩复杂数据为低维稠密向量,提升存储与计算效率。
关键技术原理
- 上下文依赖:现代模型(如BGE- M3)动态调整向量,捕捉多义词在不同语境中的含义
- 训练方法:对比学习(如Word2Vec 的Skip-gram/CBOW)、预训练+微调(如BERT)
分类与选型
Embedding 模型将文本转换为数值向量,捕捉语义信息,使计算机能够理解和比较内容的"意义"。选择 Embedding 模型的考虑因素:
- 任务性质:匹配任务需求(问答、搜索、聚类)
- 领域特性:通用vs专业领域(医学、法律)
- 多语言支持:需要处理多语言内容时考虑
- 维度:权衡信息丰富度与计算成本
- 许可条款:开源vs专有服务
- 最大Tokens:适合的上下文窗口大小
最佳实践:为特定应用测试多个Embedding 模型,评估在实际数据上的性能而非仅依赖通用基准。
通用全能型
- BGE-M3:北京智源研究院开发,支持多语言、混合检索(稠密+稀疏向量),处理 8K上下文,适合企业级知识库。
- NV-Embed-v2:基于 Mistral-78,检索精度高(MTEB得分 62.65),但需较高计算资源。
垂直领域特化型
- 中文场景: BGE-large-zh-v1.5(合同/政策文件)、M3E-base(社交媒体分析)。
- 多模态场景: BGE-VL(图文跨模态检索),联合编码 OCR 文本与图像特征。
轻量化部署型
- nomic-embed-text:768维向量,推理速度比OpenAl快3倍,适合边缘设备
- gte-qwen2-1.5b-instruct:1.58 参数,16GB 显存即可运行,适合初创团队原型验
选型决策树:
- 中文为主:BGE系列 > M3E
- 多语言需求:BGE-M3 > multilingual-e5
- 预算有限:开源模型(如Nomic Embed)
更多推荐

所有评论(0)