大模型知识之向量

本文介绍了大模型知识的“向量化”

空城雀

1141人浏览 · 2025-12-30 14:48:53

空城雀 · 2025-12-30 14:48:53 发布

文章目录

一、原理基础-何为向量
- 一句话解释
- 类比理解
二、向量的作用
三、如何实现向量化
四、道理懂了，看个真的
五、向量化后的数据存到哪
- 一句话总结

上一轮工业革命已成历史，这一轮智能革命正在眼前。
我们正见证历史，关注我，一起学习大模型。

一、原理基础-何为向量

一句话解释

向量是大模型将抽象的文字、图片、声音等信息，转化为它能“理解”和“计算”的数学形式（一组数字）。这个过程就像是把人类的“知识”翻译成了AI的“母语”。

类比理解

想象一下：

你无法直接把“北京”两个文本字符交给一个导航软件，让它计算到“上海”的距离。

你需要把“北京”和“上海”转化为地图上的两个坐标点（比如经纬度）。

导航软件通过计算这两个坐标点之间的向量差，就能知道方向、距离、路径。

同理，在大模型中：

知识 = “北京”、“上海”、“城市”、“中国的首都”这些文本概念。

向量化 = 将这些概念转化为高维空间（一个超复杂的地图）中的坐标点。

大模型的“思考” = 计算这些坐标点之间的向量关系（方向、远近）。

如果看到这里不明白，你需要先去了解大模型工作的本质原理，我在大模型知识之幻觉中也提到过：“大语言模型是“下一个词预测器”，其目标是生成概率上最可能/流畅的文本，而不是追求真实性。”这个要自己花点时间去了解和理解。

二、向量的作用

解决了“理解”问题
计算机天生只懂数字，不懂文字。向量是文本的数字id，让AI能用数学工具处理语言
捕捉语义与关系
好的向量化能确保语义相近的词，向量也相近：“狗”和“宠物”的向量距离，比“狗”和“电脑”近得多
rag的实现就是依据向量化技术，rag不懂得看这篇： RAG

步骤：先将你的知识库（文档、手册、报告）全部向量化，存入向量数据库。
使用：当你提问时，将问题也向量化，去数据库中快速检索向量最相似的段落。
结果：AI将这些检索到的真实信息作为“参考材料”，生成更准确、更少胡编的回答。

三、如何实现向量化

将知识转化为向量的过程，在技术上称为 “Embedding” ，常翻译为 “嵌入” 或 “向量化”。

它是什么：一个固定的、经过训练的神经网络模型（如OpenAI的text-embedding-ada-002）。
它做什么：吃进去一段文本（词、句、段），吐出来一个固定长度的数字列表（例如1536个数字），这个列表就是该文本的向量表示。
关键特性：高维性：通常有几百到几千个维度，远超我们的三维空间，以便编码复杂语义。稠密性：每个维度都承载信息（不同于简单的、稀疏的One-hot编码）。

四、道理懂了，看个真的

使用all-MiniLM-L6-v2 模型为例，它生成的向量是 384维
文本内容：猫
<<算法进行向量化处理>>
向量化后：
[-0.02349198, -0.01297242, 0.05110446, -0.0548462 , 0.00338728,
0.02801405, 0.02331907, -0.01911976, 0.01048604, -0.0115812 ,
-0.02693737, 0.01660274, 0.01707069, 0.03185814, -0.00956655,
0.00814693, 0.04576619, 0.01461576, 0.01199465, -0.03415005,
-0.00695911, -0.01827947, 0.00780113, 0.01267563, -0.02070649,
-0.03011411, 0.01654449, -0.01410659, -0.00818645, 0.01078786,
… 后续还有354个数值 …]
这也就是前面我们说的“一组数字”。

五、向量化后的数据存到哪

向量化后的数据存储在专门的向量数据库中，而不是传统的关系型数据库。
下面是D老师给的，可参考看看

类型	代表产品	适合场景	优势	缺点	计费
专用向量DB	Pinecone, Weaviate, Qdrant, Milvus	生产环境、大规模向量检索	高性能、自动扩展、功能完整	学习成本高、自建运维复杂	Pinecone $70+/月；开源自建服务器费
PG扩展	PostgreSQL + pgvector	已有PG、需事务支持、中小规模	SQL操作、ACID事务、生态成熟	性能不如专用DB、大规模需优化	服务器成本
轻量本地	FAISS, Chroma	研究原型、临时测试、边缘计算	安装简单、内存速度快、免费	无持久化、无高可用、功能简陋	免费
全文搜索扩展	Elasticsearch + 向量插件	已有ES、需混合搜索（文本+向量）	混合搜索强、生态成熟	配置复杂、资源消耗大	集群成本
AI平台内置	OpenAI Assistants, Coze	快速原型、不想管理设施	开箱即用、API简单	锁定平台、费用高、规模有限	$0.1-0.8/GB/月
云厂商服务	AWS Kendra, Azure AI Search	全栈用某云、需企业支持	云原生集成、一站式服务	跨云困难、费用较高	用量阶梯计费

一句话总结

本地开发测试 → FAISS/Chroma
中小项目上线 → pgvector（省钱）或 Pinecone（省心）
大规模生产 → Weaviate/Qdrant/Milvus
已有ES/PG → 用原数据库扩展
纯懒人方案 → 用AI平台内置的（交钱就行）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

从普林斯顿物理学霸到AI「全民公敌」：这对兄妹如何用5年打造出估值万亿的AI帝国？

他是GPT-3的缔造者，也是AI安全最激进的吹哨人；她用文学学位杀入科技圈，如今掌管全球估值最高的AI独角兽。这才是真正的“叛逆者联盟”。

2048 AI社区

Vibe Coding时代：程序员的价值重构与工程思维沉淀

依托Claude code、Gemini 3.1 Pro、Cursor、codex等高性能AI编程工具，开发者无需逐行编写繁琐语法，仅通过自然语言明确开发意图，即可与AI高效交互，由模型批量生成可执行代码，并在几秒钟内完成页面模块搭建或业务逻辑编写。这种近乎“零门槛”的开发模式，让毫无编程基础的产品人员、初级实习生，都能在短时间内极速搭建出包含前端界面与数据库的完整 CRUD 应用。表象的繁荣不可