crewai构建知识库的方式

桀桀桀桀桀桀桀桀桀桀桀桀桀桀桀桀桀桀桀桀

T_Fire_of_Square

670人浏览 · 2026-01-28 15:44:28

T_Fire_of_Square · 2026-01-28 15:44:28 发布

crewai构建知识库的方式

CrewAI 作为一款强大的多智能体协作框架，其知识库构建能力直接决定了智能体能否高效、精准地获取信息并完成任务。根据文档规模、检索精度要求、开发成本等维度，主要可分为文件工具直读、自定义 RAG 系统、内置 Memory/Knowledge 系统三种核心方式，每种方式都有其适配的场景和优化空间，以下展开详细说明：

一. 使用官方工具直接读取（适用于小规模文档

核心逻辑

这是 CrewAI 最基础也最易上手的知识库构建方式，核心是通过框架内置的FileReadTool和DirectoryReadTool工具，让智能体在执行任务时 “按需读取” 本地文件 / 目录内容，无需提前处理数据，直接以原始文本形式供智能体调用。

适用场景深度解析

文档量级：单文件 / 少量文件（通常≤10 个），总文本量≤10 万字；
数据类型：结构化 / 半结构化数据（CSV、JSON、Excel、Markdown 表格等），这类数据格式规整，智能体可直接解析关键信息；
任务类型：简单信息提取、数据统计、配置文件解读等（如 “从 assets.csv 中提取近 3 个月的资产数据”“读取./docs 目录下的接口文档并生成调用示例”）。

from crewai import Agent
from crewai_tools import FileReadTool, DirectoryReadTool

# 1. 配置文件读取工具（指定编码、过滤非目标文件）
assets_tool = FileReadTool(
    file_path='./knowledge/assets.csv',
    encoding='utf-8'  # 补充编码配置，避免中文乱码
)

# 2. 配置目录读取工具（添加文件过滤规则）
docs_tool = DirectoryReadTool(
    directory='./knowledge',
    valid_extensions=['.md', '.txt']  # 仅读取指定格式文件，减少冗余
)

# 3. 赋予智能体工具并限定使用规则
agent = Agent(
    role='数据分析师',
    goal='从指定文件中提取并整理资产数据',
    backstory='熟悉结构化数据解析，专注于高效提取关键信息',
    tools=[assets_tool, docs_tool],
    allow_delegation=False  # 避免工具调用权限被转发
)

优势与局限

维度	具体说明
优势	零数据预处理成本、开发速度快、适配结构化数据解析
局限	Token 消耗随文件体积线性增加、无语义检索能力（只能按文本匹配）、不支持大文件跨页关联

二. 构建自定义 RAG 系统（适用于大规模/私有知识库）

当文档规模达到数万字甚至数百万字（如技术手册、法律条文、企业知识库），单纯的文件读取会导致 Token 浪费、检索效率低、上下文丢失等问题，此时需构建自定义 RAG（检索增强生成）系统，实现 “文本切片 - 向量化存储 - 语义检索 - 结果返回” 的全流程闭环。

核心原理拆解

文本预处理：将 PDF、Word、长文本等非结构化数据拆分为 200-500 字的切片（避免切片过长 / 过短，平衡语义完整性和检索精度），同时清理无效字符、格式化排版；
文本向量化：使用嵌入模型（如 SentenceTransformer 的all-MiniLM-L6-v2、OpenAI 的text-embedding-ada-002、本地 Ollama 的nomic-embed-text）将文本切片转化为向量；
向量存储：将向量数据存入轻量级向量库（ChromaDB、FAISS）或企业级向量库（Milvus、Pinecone），支持私有部署；
自定义检索工具：封装向量库检索逻辑为 CrewAI 的BaseTool子类，智能体调用工具时，将用户查询向量化后，在向量库中检索 Top-N 最相似的文本切片，返回给智能体作为上下文。

代码示例：

from crewai_tools import BaseTool
from chromadb import Client
from chromadb.config import Settings
from sentence_transformers import SentenceTransformer

# 1. 初始化向量库和嵌入模型
chroma_client = Client(Settings(persist_directory="./rag_vector_db"))
collection = chroma_client.get_or_create_collection(name="security_plan")
embed_model = SentenceTransformer('all-MiniLM-L6-v2')

# 2. 文本预处理与向量化入库（示例：处理本地PDF/文本文件）
def load_doc_to_vector_db(file_path: str):
    # 读取文本（此处简化，实际可使用PyPDF2、python-docx等库读取PDF/Word）
    with open(file_path, 'r', encoding='utf-8') as f:
        text = f.read()
    # 文本切片（按段落拆分，也可按固定长度拆分）
    chunks = [chunk.strip() for chunk in text.split('\n\n') if chunk.strip()]
    # 生成向量
    embeddings = embed_model.encode(chunks)
    # 入库（添加唯一ID，方便溯源）
    ids = [f"chunk_{i}" for i in range(len(chunks))]
    collection.add(ids=ids, documents=chunks, embeddings=embeddings)

# 3. 自定义RAG检索工具
class LocalRAGTool(BaseTool):
    name: str = "Security Plan Search Tool"
    description: str = "用于检索安全方案知识库中的相关内容，输入为自然语言查询，返回最相关的5条文本片段"

    def _run(self, query: str) -> str:
        # 将查询向量化
        query_embedding = embed_model.encode([query])
        # 检索Top5相似片段
        results = collection.query(
            query_embeddings=query_embedding,
            n_results=5,
            include=['documents']
        )
        # 格式化结果（便于智能体读取）
        formatted_results = "\n---\n".join([f"相关片段{i+1}：{doc}" for i, doc in enumerate(results['documents'][0])])
        return f"检索到以下相关内容：\n{formatted_results}"

# 4. 智能体调用自定义RAG工具
from crewai import Agent
rag_tool = LocalRAGTool()
agent = Agent(
    role='安全方案顾问',
    goal='基于安全方案知识库回答用户问题',
    backstory='熟悉企业安全规范，能精准检索并解读安全方案内容',
    tools=[rag_tool]
)

适用场景深度解析

文档量级：≥100 个文件，总文本量≥10 万字；
数据类型：非结构化文本（PDF 手册、Word 文档、长文本笔记、语音转写文本等）；
任务类型：复杂问答、文档摘要、跨文档关联分析、私有知识库问答（如 “从 100 份安全方案文档中提取防火墙配置规则”）。

优势与局限

维度	具体说明
优势	语义检索精度高、支持大规模数据、可私有部署、切片逻辑可精细化控制
局限	开发成本高、需维护向量库、嵌入模型需适配硬件（本地部署需 GPU）

三. 利用 CrewAI 内置的 Memory/Knowledge 系统

CrewAI 框架内置了成熟的记忆和知识管理模块，无需手动构建 RAG 系统，只需简单配置即可让智能体具备 “短期记忆 + 长期记忆 + 实体记忆” 能力，且最新版本支持直接挂载知识源（文本、PDF 等），框架自动完成切片、嵌入和存储。

核心原理拆解

记忆类型：
- 短期记忆（Short-term）：存储智能体当前任务的上下文（如对话历史、工具调用记录）；
- 长期记忆（Long-term）：存储跨任务的关键信息（如用户偏好、历史决策）；
- 实体记忆（Entity）：提取文本中的实体（如人名、公司名、产品型号）并存储，支持实体关联检索；
知识源处理：通过knowledge_sources参数挂载本地文件（PDF、TXT、MD）或网页链接，框架自动调用嵌入模型完成文本切片和向量化，数据默认存储在系统临时目录或指定的CREWAI_STORAGE_DIR目录。

代码示例：

from crewai import Crew, Agent, Task
from crewai.memory import EntityMemory
from crewai.embeddings import OllamaEmbedding, OpenAIEmbedding

# 1. 配置嵌入模型（可选：本地Ollama或OpenAI）
# 方式1：使用本地Ollama嵌入模型（私有部署）
ollama_embedder = OllamaEmbedding(
    model_name="nomic-embed-text",
    base_url="http://localhost:11434"
)
# 方式2：使用OpenAI嵌入模型
# openai_embedder = OpenAIEmbedding(
#     model_name="text-embedding-ada-002",
#     api_key="your-openai-api-key"
# )

# 2. 定义智能体和任务
agent = Agent(
    role='产品顾问',
    goal='基于产品手册回答用户的跨任务问题',
    backstory='熟悉产品功能，能结合历史对话和产品手册给出精准回答'
)
task = Task(
    description='回答用户关于产品功能的问题，需结合产品手册内容和历史对话',
    agent=agent
)

# 3. 初始化Crew并开启内置知识系统
crew = Crew(
    agents=[agent],
    tasks=[task],
    memory=True,  # 开启全量记忆功能
    embedder=ollama_embedder,  # 自定义嵌入模型
    knowledge_sources=["./knowledge/product_manual.pdf"],  # 挂载知识源
    storage_path="./crewai_knowledge"  # 指定知识存储目录
)

# 4. 执行任务
result = crew.kickoff()
print(result)

适用场景深度解析

文档量级：10-100 个文件，总文本量 1-10 万字；
任务类型：跨任务上下文保持（如多轮对话、多步骤任务）、智能体协作记忆（如多个 Agent 共享知识库）、快速搭建轻量级问答系统；
部署场景：追求开发效率，无需精细化控制 RAG 流程（如快速验证知识库效果、内部小工具开发）。

优势与局限

维度	具体说明
优势	开箱即用、无需手动构建 RAG、支持多类型知识源、自动管理记忆生命周期
局限	切片和检索逻辑不可自定义、向量存储路径配置灵活度低、大规模数据下性能下降

四. 总结与建议

三种方式的对比与选型建议

为更清晰地选择适配的知识库构建方式，以下是核心维度的对比表：

方式	复杂度	灵活性	适用场景
文件工具	低	中	少量、结构化数据 (CSV, JSON)
自定义 RAG	高	极高	大量非结构化文本、需精细控制切片逻辑
内置 Memory	中	低	增强 Agent 长期记忆、跨任务上下文保持