引言

在AI大模型中,有着自己的语言,那就是“向量”,不论输入什么格式的语言,都将转化为向量进行处理。本篇文章主要是了解向量表征、向量及嵌入模型。

向量表征

是什么

在人工智能领域,向量表征 (Vector Represenaton)是核心念之一。通过将文本、图像、声音、行为甚至复杂关系转化为高维向量(Embedding),AI系统能够以数学方式理解和处理
现实世界中的复杂信息。这种表征方式为机器学习模型提供了统一的“语言”。

本质

万物皆可数学化

核心思想

  • 降维抽象:将复杂对象(如一段文字、一张图片)映射到低维稠密向量空间,保留关键语义或特征。
  • 相似性度量、向量空间中的距离(如余弦相似度)反映对象之间的语义关联(如“猫”和“狗”的向量距离小于“猫”和“汽车”)。

数学意义

  • 特征工程自动化:传统机器学习依赖人工设计特征(如文本的TF-IDF),而向量表征通过深度学习自动提取高阶抽象特征。
  • 跨模态统一:文本、图像、视频等不同模态数据可映射到同一向量空间,实现跨模态检索(如“用文字搜图片”)。

应用场景

自然语言处理(NLP)

  • 词向量(Word2Vec、GloVe):单词映射为向量,解决“一词多义“问题(如“苹果“在”水果“和“公司"上下文中的不同向量)。
  • 句向量(BERT、Sentence-BERT):整句语义编码,用于文本相似度计算、聚类(如客服问答匹配)。
  • 知识图谱嵌入(TransE、RotatE):将实体和关系表示为向量,支持推理(如预测“巴黎-首都-法国”的三元组可信度)

计算机视觉(CV)

  • 图像特征向量(CNN特征):ResNet、ViT等模型提取图像语义,用于以图搜图、图像分类。
  • 跨模态对齐(CLIP):将图像和文本映射到同一空间,实现“描述文字生成图片“或反向搜索。

推荐系统

  • 用户/物品向量:用户行为序列(点击、购买)编码为用户向量,商品属性编码为物品向量,通过向量内积预测兴趣匹配度(如YouTube推荐算法)

复杂系统建模

  • 图神经网络(GNN):社交网络中的用户、商品、交互事件均表示为向量,捕捉网络结构信息(如社区发现、欺诈检测)
  • 时间序列向量化:将股票价格、传感器数据编码为向量,预测未来趋势(如LSTM、Transformer编码)。

技术实现

经典方法

  • 无监督学习:Word2Vec通过上下文预测(Skip-Gram)或矩阵分解(GloVe)生成词向量。
  • 有监督学习:微调预训练模型(如BERT)适应具体任务,提取任务相关向量。

前沿方向。

  • 对比学习(Contrastive Learning):通过构造正负样本对(如”同一图片的不同裁剪”为正样本),拉近正样本向量距离,推开负样本(SimCLR、MoCo)。
  • 多模态融合:将文本、图像、语音等多模态信息融合为统一向量(如Google的MUM模型)。
  • 动态向量:根据上下文动态调整向量(如Transformer的注意力机制),解决静态词向量无法适应多义性的问题

文本向量(Text Embeddings)

是什么

  • 将文本转成一组N维浮点数,即文本向量又叫Embeddings
  • 向量之间可以计算距离,距离远近对应语义相似度大小

相似度

在下篇博客中结合代码单独总结一下

嵌入模型(Embedding Models)

什么是嵌入(Embedding)?

嵌入(Embedding)是指非结构化数据转换为向量的过程,通过神经网络模型或相关大模型,将真实世界的离散数据投影到高维数据空间上,根据数据在空间中的不同距离,反映数据在物理世界的相似度。

本质

嵌入模型(Embedding Model)是一种将离散数据(如文本、图像)映射到连续向量空间的技术。通过高维向量表示(如768维或3072维),模型可捕捉数据的语义信息,使得语义相似的文本在向量空间中距离更近。例如,“忘记密码”和“账号锁定“会被编码为相近的向量,从而支持语义检索而非仅关键词匹配。

核心作用

  • 语义编码:将文本、图像等转换为向量,保留上下文信息(如 BERT的 CLS Token 或均值池化。相似度计算:通过余弦相似度、欧氏距离等度量向量关联性,支撑检索增强生成(RAG)、推荐系统等应用。
  • 信息降维:压缩复杂数据为低维稠密向量,提升存储与计算效率。

关键技术原理

  • 上下文依赖:现代模型(如BGE- M3)动态调整向量,捕捉多义词在不同语境中的含义
  • 训练方法:对比学习(如Word2Vec 的Skip-gram/CBOW)、预训练+微调(如BERT)

分类与选型

Embedding 模型将文本转换为数值向量,捕捉语义信息,使计算机能够理解和比较内容的"意义"。选择 Embedding 模型的考虑因素:

  • 任务性质:匹配任务需求(问答、搜索、聚类)
  • 领域特性:通用vs专业领域(医学、法律)
  • 多语言支持:需要处理多语言内容时考虑
  • 维度:权衡信息丰富度与计算成本
  • 许可条款:开源vs专有服务
  • 最大Tokens:适合的上下文窗口大小

最佳实践:为特定应用测试多个Embedding 模型,评估在实际数据上的性能而非仅依赖通用基准。

通用全能型

  • BGE-M3:北京智源研究院开发,支持多语言、混合检索(稠密+稀疏向量),处理 8K上下文,适合企业级知识库。
  • NV-Embed-v2:基于 Mistral-78,检索精度高(MTEB得分 62.65),但需较高计算资源。

垂直领域特化型

  • 中文场景: BGE-large-zh-v1.5(合同/政策文件)、M3E-base(社交媒体分析)。
  • 多模态场景: BGE-VL(图文跨模态检索),联合编码 OCR 文本与图像特征。

轻量化部署型

  • nomic-embed-text:768维向量,推理速度比OpenAl快3倍,适合边缘设备
  • gte-qwen2-1.5b-instruct:1.58 参数,16GB 显存即可运行,适合初创团队原型验

选型决策树:

  1. 中文为主:BGE系列 > M3E
  2. 多语言需求:BGE-M3 > multilingual-e5
  3. 预算有限:开源模型(如Nomic Embed)
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐