02 RAG - 构建知识库
本文介绍了构建AI知识库的三种主要方式:提示词工程、微调和嵌入(Embedding),其中嵌入结合检索增强生成(RAG)是目前主流方法。
构建 AI 知识库
构建方式
AI 知识库就是让 AI 能够”量体裁衣“的重要工具。通过知识库帮助 AI更好地完成任务,目前AI知识库构建可以有以下三种方式:
-
提示词工程 (
Prompt Engineering)提示词工程就是直接在提示词中构建知识库,把所有的资料放到提示词中。这种方式适合小规模地使用,但目前的AI模型输入的
token数量基本无法满足这种实现方式。实际上即使随着AI发展,到了某一天AI的输入窗口足够大到容纳一般的知识库,构建知识库也仍有其价值。 -
微调 (
Fine Tuning)微调是学界喜闻乐见的形式了,使用特定的任务数据在预训练模型上进行微调。这种做法其实是适合做一个行业通用的大模型,比如法律行业大模型、医学大模型等。
但是这种方式也存在许多不足:一方面,微调需要的训练数据也不算少,成本也高;另一方面,微调不够灵活,比如根据一两份文档及时调整。微调的过程其实是把训练数据进行学习和泛化,与其说是记忆内容,不如说是增强某个领域的能力。
-
嵌入 (
Embedding)将知识内容进行过滤、分片后并转化为向量然后嵌入到向量数据库中
目前最主流的构建知识库的方式,大都采用 Embedding 的方式。而这种形式的知识库,也需要配合检索增强生成( Retrieval-Augmented Generation,RAG)才能发挥作用。
构建流程

应用核心定位
构建个人AI知识库的第一步是明确其用途与边界。知识库可以服务于学术研究、职业发展、兴趣爱好等场景,例如整理法律条文、管理科研论文或归档设计素材。需根据自身需求确定知识库的主题范围,避免信息过载。例如,设计师可能聚焦于 AIGC 工具(如 Midjourney、Stable Diffusion)的提示词库,而研究人员则需整合行业报告与数据集。此外,知识库的定位直接影响后续工具选择与数据处理方式。若目标是快速检索日常笔记,轻量级工具更合适;若涉及复杂语义分析,则需支持向量检索的技术架构。
数据准备与预处理
高质量的数据是知识库有效运行的基础。个人用户常面临文档格式杂乱、信息冗余等问题,需通过以下步骤优化:
-
文件格式统一化
将扫描件、图片转换为可编辑文本(OCR技术),整理散落的微信消息、邮件附件为PDF或Markdown格式。例如,Cherry Studio软件可自动处理多种文件类型,并提取关键信息。 -
数据清洗与标注
删除重复内容,补充缺失字段(如文献的发表年份、作者),并为文档添加标签(如“法律案例-2023年”)。AI工具如Hugging Face的Transformers库可辅助完成实体识别与分类。 -
知识结构化处理
对于长文本(如书籍、报告),需拆分段落并建立关联。使用“#”等符号划分章节,或通过RAG技术将文本分块嵌入向量数据库,使AI能精准定位相关内容。例如,将一篇研报按“市场趋势”“竞争分析”“数据图表”分段存储,可提升后续检索效率。
构建核心技术流程
无论选择何种工具,知识库的构建均遵循“输入-处理-输出”逻辑,具体技术路径包括:
-
向量化与索引构建
通过EmbeddingAPI(如OpenAI的text-embedding-ada-002、Nomic-embeded-text-v2)将文本转换为高维向量,存储至向量数据库(如Chroma、Pinecone、Faiss)。当用户提问时,系统计算问题向量与知识库向量的相似度,召回最相关的文本片段。此过程需注意向量模型的兼容性,例如百炼控制台要求非结构化数据解析后建立索引。 -
大模型集成与提示工程
将召回的内容与用户问题组合成Prompt,输入大模型(如GPT-4、Claude、Deepseeck V3、Deepseeck R2)生成最终回答。需设计提示词以约束模型仅基于知识库作答,例如添加指令:“请严格参考以下资料,若信息不足则回答‘未知’。”此外,可设置fallback机制:当知识库无匹配内容时,自动调用联网搜索补充信息。 -
多模态扩展
进阶用户可整合图片、音频等非文本数据。例如,使用CLIP模型对图像进行编码,与文本向量共存在同一知识库中,实现跨模态检索。
测试优化与长期维护
知识库上线后需持续迭代以保持有效性:
-
效果验证
设计测试用例覆盖高频问题,例如“列出2024年AI设计工具Top5”或“解释Transformer架构的核心原理”。通过人工评估回答的准确性与完整性,调整向量检索阈值或提示词模板。 -
反馈闭环
收集用户(或自身)的使用反馈,标记错误回答并溯源至原始数据。例如,若某问题的答案偏离预期,可检查对应文档的分块是否合理,或补充相关数据。 -
动态更新机制
定期导入新资料,并清理过时内容。自动化工具可设置监控文件夹,当新增文件时自动触发解析与索引更新。对于领域发展迅速的学科(如AI),建议每月至少更新一次知识库。
更多推荐


所有评论(0)