走进向量的世界

嵌入(Embedding)是指非结构化数据转换为向量的过程，通过神经网络模型或相关大模型，将真实世界的离散数据投影到高维数据空间上，根据数据在空间中的不同距离，反映数据在物理世界的相似度。

好好生活_

773人浏览 · 2025-09-20 19:23:06

好好生活_ · 2025-09-20 19:23:06 发布

引言

在AI大模型中，有着自己的语言，那就是“向量”，不论输入什么格式的语言，都将转化为向量进行处理。本篇文章主要是了解向量表征、向量及嵌入模型。

向量表征

是什么

在人工智能领域，向量表征 (Vector Represenaton)是核心念之一。通过将文本、图像、声音、行为甚至复杂关系转化为高维向量(Embedding)，AI系统能够以数学方式理解和处理
现实世界中的复杂信息。这种表征方式为机器学习模型提供了统一的“语言”。

本质

万物皆可数学化

核心思想

降维抽象:将复杂对象(如一段文字、一张图片)映射到低维稠密向量空间，保留关键语义或特征。
相似性度量、向量空间中的距离(如余弦相似度)反映对象之间的语义关联(如“猫”和“狗”的向量距离小于“猫”和“汽车”)。

数学意义

特征工程自动化:传统机器学习依赖人工设计特征(如文本的TF-IDF)，而向量表征通过深度学习自动提取高阶抽象特征。
跨模态统一:文本、图像、视频等不同模态数据可映射到同一向量空间，实现跨模态检索(如“用文字搜图片”)。

应用场景

自然语言处理(NLP)

词向量(Word2Vec、GloVe):单词映射为向量，解决“一词多义“问题(如“苹果“在”水果“和“公司"上下文中的不同向量)。
句向量(BERT、Sentence-BERT):整句语义编码，用于文本相似度计算、聚类(如客服问答匹配)。
知识图谱嵌入(TransE、RotatE):将实体和关系表示为向量，支持推理(如预测“巴黎-首都-法国”的三元组可信度)

计算机视觉(CV)

图像特征向量(CNN特征):ResNet、ViT等模型提取图像语义，用于以图搜图、图像分类。
跨模态对齐(CLIP):将图像和文本映射到同一空间，实现“描述文字生成图片“或反向搜索。

复杂系统建模

图神经网络(GNN):社交网络中的用户、商品、交互事件均表示为向量，捕捉网络结构信息(如社区发现、欺诈检测)
时间序列向量化:将股票价格、传感器数据编码为向量，预测未来趋势(如LSTM、Transformer编码)。

技术实现

经典方法

无监督学习:Word2Vec通过上下文预测(Skip-Gram)或矩阵分解(GloVe)生成词向量。
有监督学习:微调预训练模型(如BERT)适应具体任务，提取任务相关向量。

前沿方向。

对比学习(Contrastive Learning):通过构造正负样本对(如”同一图片的不同裁剪”为正样本)，拉近正样本向量距离，推开负样本(SimCLR、MoCo)。
多模态融合:将文本、图像、语音等多模态信息融合为统一向量(如Google的MUM模型)。
动态向量:根据上下文动态调整向量(如Transformer的注意力机制)，解决静态词向量无法适应多义性的问题

文本向量（Text Embeddings）

是什么

将文本转成一组N维浮点数，即文本向量又叫Embeddings
向量之间可以计算距离，距离远近对应语义相似度大小

相似度

在下篇博客中结合代码单独总结一下

嵌入模型（Embedding Models）

什么是嵌入(Embedding)?

本质

嵌入模型(Embedding Model)是一种将离散数据(如文本、图像)映射到连续向量空间的技术。通过高维向量表示(如768维或3072维），模型可捕捉数据的语义信息，使得语义相似的文本在向量空间中距离更近。例如，“忘记密码”和“账号锁定“会被编码为相近的向量，从而支持语义检索而非仅关键词匹配。

核心作用

语义编码:将文本、图像等转换为向量，保留上下文信息(如 BERT的 CLS Token 或均值池化。相似度计算:通过余弦相似度、欧氏距离等度量向量关联性，支撑检索增强生成（RAG）、推荐系统等应用。
信息降维：压缩复杂数据为低维稠密向量，提升存储与计算效率。

关键技术原理

上下文依赖：现代模型（如BGE- M3）动态调整向量，捕捉多义词在不同语境中的含义
训练方法：对比学习（如Word2Vec 的Skip-gram/CBOW）、预训练+微调（如BERT）

分类与选型

Embedding 模型将文本转换为数值向量，捕捉语义信息，使计算机能够理解和比较内容的"意义"。选择 Embedding 模型的考虑因素:

任务性质：匹配任务需求（问答、搜索、聚类）
领域特性：通用vs专业领域（医学、法律）
多语言支持：需要处理多语言内容时考虑
维度：权衡信息丰富度与计算成本
许可条款：开源vs专有服务
最大Tokens：适合的上下文窗口大小

最佳实践:为特定应用测试多个Embedding 模型，评估在实际数据上的性能而非仅依赖通用基准。

通用全能型

BGE-M3:北京智源研究院开发，支持多语言、混合检索(稠密+稀疏向量)，处理 8K上下文，适合企业级知识库。
NV-Embed-v2:基于 Mistral-78，检索精度高(MTEB得分 62.65)，但需较高计算资源。

垂直领域特化型

中文场景: BGE-large-zh-v1.5(合同/政策文件)、M3E-base(社交媒体分析)。
多模态场景: BGE-VL(图文跨模态检索)，联合编码 OCR 文本与图像特征。

轻量化部署型

nomic-embed-text:768维向量，推理速度比OpenAl快3倍，适合边缘设备
gte-qwen2-1.5b-instruct:1.58 参数，16GB 显存即可运行，适合初创团队原型验

选型决策树：

中文为主：BGE系列 > M3E
多语言需求：BGE-M3 > multilingual-e5
预算有限：开源模型（如Nomic Embed）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI创新大赛：开发实战全攻略

《创意AI应用开发大赛指南》摘要：大赛聚焦AI技术创新与场景结合，面向开发者、学生等群体，涵盖生成式AI、多模态模型等技术方向。指南详细介绍了从创意构思到技术实现的完整流程，包括框架选型、数据准备等关键环节，并提供了智能写作助手等实战案例参考。评分标准强调创新性、实用性和技术深度，同时推荐了开源模型库等参赛资源。针对数据不足等常见问题给出解决方案，展望了AI应用个性化、低代码化的发展趋势。

2048 AI社区

JavaScript性能优化20个实战技巧

本文系统介绍了JavaScript性能优化的关键技术，主要包括：1）代码结构优化，通过模块化设计、减少DOM操作和优化循环提升执行效率；2）内存管理，采用弱引用和及时释放对象避免内存泄漏；3）异步编程优化，使用Promise/async/await简化代码结构；4）渲染性能提升，利用requestAnimationFrame和GPU加速；5）网络请求优化，通过合并请求和缓存策略降低延迟。同时介绍了