从零构建大模型知识库：五大核心技术详解（建议收藏学习）

本文系统介绍大模型知识库构建的五大核心技术：检索方法（向量、关键词与混合检索）、结果重排序（Bi-Encoder初步检索与Cross-Encoder精排）、文档预处理（格式标准化、切片策略与标签系统）、提示词工程（角色定位与回答标准模板）以及查询改写技术。通过优化文档处理、检索排序机制和精准提示词设计，可显著提升知识库准确性和实用性，为企业级应用提供可靠技术支持。

m0_63171455

656人浏览 · 2025-09-24 07:30:00

m0_63171455 · 2025-09-24 07:30:00 发布

简介

一、检索方法

纯向量检索：基于语义的相关性进行检索
纯关键词检索：一般不会单独使用，规则太死板，效果差
混合检索：向量检索的比重一般都要高于关键词检索

二、结果重排序

初步向量检索一般会用更轻量的Bi-Encoder模型
重排序一般采用Cross-Encoder模型，精度更高，但也更耗算力

不只依靠语义，也可以依靠其它人工规则，如：

文档类型
更新时间
业务标签

三、文档预处理

格式标准化和内容清洗

标题、段落等格式统一
删除连续的空格、多余的换行符等
新内容及时更新
图片、表格等多模态转化成纯文本后的人工检查

切片策略

切片方式：按句子还是按段落，通过标识符控制
切片大小：最大字数要求，超过后会强制切片
层次结构：是否有父子切片，是否建立更多关联（知识图谱等）
重叠长度：一般在切片大小的10%-20%

额外的文档级标签

文档类型
适用场景、所属业务模块等
文档关键词
更新时间

Q2Q模式：为每个切片生成一个query

表格类型需要指定索引列

四、提示词工程

一些模板：

你是{{公司名称}}的专业知识助手，具备以下能力：

技术支持场景：

当用户遇到技术问题时，请按以下步骤回答：

客户服务场景：

处理客户咨询时，请注意：

五、查询改写

步骤回答：


`客户服务场景：`

```code-snippet__js
处理客户咨询时，请注意：

六、如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述