对接自定义向量数据库的配置与使用

本文介绍了如何在LangChain中对接自定义向量数据库。由于向量数据库发展迅速且各具特点，LangChain无法全部集成，因此需要自定义实现。实现方式有两种：继承现有数据库类进行扩展，或继承VectorStore基类对接新数据库。后者需实现三个核心方法：add_texts（添加数据）、similarity_search（相似性搜索）和from_texts（构建数据库）。文章提供了一个基于内存的欧

hh051020

872人浏览 · 2026-02-19 22:51:26

hh051020 · 2026-02-19 22:51:26 发布

01. 对接自定义向量数据库

向量数据库的发展非常迅猛，几乎间隔几天就有新的向量数据库发布，LangChain 不可能将所有向量数据库都进行集成，亦或者封装的包存在这一些 bug 或错误，这个时候就需要考虑创建自定义向量数据库，去实现特定的方法。

在 LangChain 实现自定义向量数据库的类有两种模式，一种是继承封装好的数据库类，一种是继承基类 VectorStore。前一种一般继承后重写部分方法进行扩展或者修复 bug，后面一种是对接新的向量数据库。

在 LangChain 中，继承 VectorStore 只需实现最基础的 3 个方法即可正常使用：

add_texts：将对应的数据添加到向量数据库中。
similarity_search：最基础的相似性搜索。
from_texts：从特定的文本列表、元数据列表中构建向量数据库。

其他方法因为使用频率并不高，VectorStore 并没有设置成虚拟方法，但是再没有实现的情况下，直接调用会报错，涵盖：

delete()：删除向量数据库中的数据。
_select_relevance_score_fn()：根据距离计算相似性得分函数。
similarity_search_with_score()：携带得分的相似性搜索函数。
similarity_search_by_vector()：传递向量进行相似性搜索。
max_marginal_relevance_search()：最大边界相似性搜索。
max_marginal_relevance_search_by_vector()：传递向量进行最大边界相关性搜索。

02. 自定义 VectorStore 示例

要在 LangChain 中对接自定义向量数据，本质上就是将向量数据库提供的方法集成到 add_texts、similarity_search、from_texts 方法下，例如自建一个基于内存+欧几里得距离的“向量数据库”，示例如下：

import uuid

from typing import List, Optional, Any, Iterable, Type

import dotenv

import numpy as np

from langchain_core.documents import Document

from langchain_core.embeddings import Embeddings

from langchain_core.vectorstores import VectorStore

from langchain_openai import OpenAIEmbeddings

class MemoryVectorStore(VectorStore):

"""自定义向量数据库"""

store: dict = {} # 在内存中开辟位置存储向量

def __init__(self, embedding: Embeddings, **kwargs):

self._embedding = embedding

def add_texts(self, texts: Iterable[str], metadatas: Optional[List[dict]] = None, **kwargs: Any) -> List[str]:

"""将数据添加到内存向量数据库中"""

# 1.判断metadatas和texts的长度是否保持一致

if metadatas is not None and len(metadatas) != len(texts):

raise ValueError("元数据格式必须和文本数据保持一致")

# 2.将文本转换为向量

embeddings = self._embedding.embed_documents(texts)

# 3.生成uuid

ids = [str(uuid.uuid4()) for text in texts]

# 4.将原始文本、向量、元数据、id构建字典并存储

for idx, text in enumerate(texts):

self.store[ids[idx]] = {

"id": ids[idx],

"vector": embeddings[idx],

"text": text,

"metadata": metadatas[idx] if metadatas is not None else {}

}

return ids

def similarity_search(self, query: str, k: int = 4, **kwargs: Any) -> List[Document]:

"""执行相似性搜索"""

# 1.将query转换成向量

embedding = self._embedding.embed_query(query)

# 2.循环遍历记忆存储，计算欧几里得距离

result: list = []

for key, record in self.store.items():

distance = self._euclidean_distance(embedding, record["vector"])

result.append({

"distance": distance,

**record,

})

# 3.找到欧几里得距离最小的k条记录

sorted_result = sorted(result, key=lambda x: x["distance"])

result_k = sorted_result[:k]

# 4.循环构建文档列表并返回

documents = [

Document(page_content=item["text"], metadata={**item["metadata"], "score": item["distance"]})

for item in result_k

]

return documents

@classmethod

def from_texts(cls: Type["MemoryVectorStore"], texts: List[str], embedding: Embeddings,

metadatas: Optional[List[dict]] = None,

**kwargs: Any) -> "MemoryVectorStore":

"""通过文本、嵌入模型、元数据构建向量数据库"""

memory_vector_store = cls(embedding=embedding, **kwargs)

memory_vector_store.add_texts(texts, metadatas)

return memory_vector_store

@classmethod

def _euclidean_distance(cls, vec1, vec2) -> float:

"""计算两个向量的欧几里得距离"""

return np.linalg.norm(np.array(vec1) - np.array(vec2))

dotenv.load_dotenv()

# 1.创建初始数据与嵌入模型

texts = [

"笨笨是一只很喜欢睡觉的猫咪",

"我喜欢在夜晚听音乐，这让我感到放松。",

"猫咪在窗台上打盹，看起来非常可爱。",

"学习新技能是每个人都应该追求的目标。",

"我最喜欢的食物是意大利面，尤其是番茄酱的那种。",

"昨晚我做了一个奇怪的梦，梦见自己在太空飞行。",

"我的手机突然关机了，让我有些焦虑。",

"阅读是我每天都会做的事情，我觉得很充实。",

"他们一起计划了一次周末的野餐，希望天气能好。",

"我的狗喜欢追逐球，看起来非常开心。",

]

metadatas = [

{"page": 1},

{"page": 2},

{"page": 3},

{"page": 4},

{"page": 5},

{"page": 6, "account_id": 1},

{"page": 7},

{"page": 8},

{"page": 9},

{"page": 10},

]

embedding = OpenAIEmbeddings(model="text-embedding-3-small")

# 2.构建自定义向量数据库

db = MemoryVectorStore.from_texts(texts, embedding, metadatas)

# 3.执行检索

print(db.similarity_search("我养了一只猫，叫笨笨"))

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Codex 中文乱码问题全链路解决方案（Windows 11）

本文针对Windows 11环境下使用Codex等AI编码工具时出现的中文乱码问题，提出了全链路解决方案。核心原因是Windows终端(GBK/UTF-16)与AI工具(UTF-8)的编码冲突，导致文件写入和读取时出现乱码。解决方案包括：升级至PowerShell 7并强制UTF-8编码、统一IDE编码设置、配置.editorconfig和.gitattributes文件、优化Codex提示词约束

2048 AI社区

OpenClaw如何命令Cursor做事，利用Cursor会员模型

本文介绍了三种将OpenClaw与Cursor会员模型结合的方案：最推荐直接使用OpenClaw调用官方API（如GPT-4/Claude/Gemini）；其次是通过抓包或CLI劫持Cursor本地模型；最不推荐的是UI自动化控制。文章指出专业做法应是构建OpenClaw多模型架构，而非依赖Cursor作为中间层，并详细说明了如何设计代码生成Agent实现自动开发流程。关键结论强调OpenClaw

2048 AI社区

全网爆火的 OpenClaw 保姆级教程：你要知道的都在这里了！

从0到1！想入门大模型(LLM)却不知道从哪开始?我根据最新的技术栈和我自己的经历&理解，帮大家整理了一份LLM学习路线图，涵盖从理论基础到落地应用的全流程!拒绝焦虑，按图索骥~~因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取2025最新版CSDN大礼包：《AGI大模型学习资源包》免费分享因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取2025最新版CSDN大礼包：《AG