快速搭建个人AI知识库教程(超详细+实战)从零入门到精通,一篇全掌握!
项目的 GitHub 地址是:https://github.com/chaitin/PandaWiki点个 Star 支持一下国产开源软件吧!
本文详细介绍了一款名为PandaWiki的开源个人知识库工具,它结合传统文档管理与AI检索增强生成技术。文章演示了如何在Linux系统上通过Docker一键部署PandaWiki,配置各类模型,以及从飞书等平台导入文档创建个人AI知识库。该工具支持离线文件上传、AI生成摘要、文档分类管理等功能,并提供多种问答机器人接入方式,是个人知识管理和AI学习的理想解决方案。
最近有点忙,拖更比较久了,大家见谅…
今天我们一起来聊聊知识库。
当下,RAG 技术已经非常成熟了,市面上的各种 AI 知识库产品也很丰富。
在这个 AI 时代的浪潮下,如果你还用传统的笔记软件来管理个人知识,就有点显得 Out
了。
不过,想要选到一款称心如意的知识库工具,似乎也不是那么简单。
首先是数据隐私上的考虑,虽然现在很多在线 AI 平台似乎都支持了知识库上传的能力,但有些 “私密” 的知识我们可能不想上传到 “云端”。
另外,虽然有很多大厂直接提供了非常全面的私有化部署方案,但是动辄几万的费用让人望而却步。
那就只能从开源工具上下手了,作为个人的知识库管理工具,我希望使用一款 “小而美” 的产品,对于 RAGFlow、Dify
这样的企业级产品显然不太适合个人部署。
另外,现在大部分的知识库产品似乎只注重于 AI 检索
的体验,而忽略了知识本身的管理,很多情况下,上传上去的文档可能只能够在 RAG 检索中发挥作用,想回去翻一翻原文就有点困难了。
所以,虽然我一直在陆陆续使用一些知识库工具,但作为个人知识库来讲,我一直没找到一款称心如意的产品。
直到前段时间,我无意间刷到了这个 PandaWiki 品三国
的网站:
打开网站的第一眼,我就感觉到,这就是我期望的那种个人知识库的效果!
首先网站整体还是保留了传统文档知识库的风格,我还可以直接点击某篇文章,可以直接阅读文档的原文:
然后我直接尝试对文档中的知识发起一个问答,回答效果还是很不错的:
令我惊喜的是,这还是一款开源的产品:
于是我立马想自己也搭建一个,把最近整理的一些 AI 知识也导入进入,做一个个人 AI 知识库。
说干就干,下面我就带大家一起来从零搭建一下。
PandaWiki 的文档站也是用自己来搭建的,写的非常详细了:
拿我们就直接问问怎么部署?
可以看到,官方提供的部署方式非常简单,只需要拥有一台 Linux 机器(没有服务器的话直接在自己的电脑上开个虚拟机就行),就可以用一个命令一键完成部署:
bash -c "$(curl -fsSLk https://release.baizhi.cloud/panda-wiki/manager.sh)"
我们直接输入这段命令:
可以发现,其实脚本里面就是自动帮我们启动 Docker 镜像,它还能自动帮我们识别本地是否有 Docker
环境,如果没有会引导我们安装:
Docker
安装完成后,开始拉取 PandaWiki
的镜像:
稍等了几分钟,直接就安装完成了,它直接给出了一个内网可访问的地址以及外网可访问的地址,然后给生成了一个管理员登录的账号密码:
我们复制一下这个网址,支持到本地浏览器打开并完成登录。
登录成功后,首先系统提示我们配置模型:
相信大家对 RAG 技术已经比较熟悉了,这里我们需要配置三个模型:
- 嵌入模型(Embedding Model):通过对文本的语义理解,将文字信息映射到向量空间中,使语义相似的文本在向量空间中的距离更近。例如,“如何预防感冒?” 和 “感冒的预防方法有哪些?” 会被转化为距离较近的向量,从而为后续的检索匹配提供基础。
- 重排模型(Reranker Model):基于文本与问题的语义相关性、信息完整性、准确性等深层特征,重新调整候选文本的顺序,过滤噪音信息(如无关内容、低质量回答),确保更相关的文本被优先送入生成模型。例如,在检索 “机器学习算法” 时,重排模型会将详细讲解算法原理的文档排在泛泛而谈的内容之前。
- 文本模型(生成模型,如 LLM):基于检索到的相关信息和用户问题,生成最终的回答。
RAG 通过嵌入模型将用户问题与知识库文本转化为语义向量并检索相关信息,经重排模型优化排序后,由文本模型结合检索结果生成准确且有依据的回答,实现 “检索增强生成” 的闭环。
这里我们发现,默认的嵌入模型和重排模型已经帮我们配置好了,这里应该是 “百智云” 给这个产品提供了赞助,默认提供了一些免费额度。不过嵌入模型和重排模型其实在整个 RAG 检索的过程中 Token 消耗量是非常小的,所以这里我们用默认的免费额度就可以用非常久了。
然后我门需要自己配置一个对话模型,可以看到它支持很多模型提供商,也可以自定义配置,所有兼容 OPEN AI
格式的 LLM API
都是可用的:
模型配置完成后,它提示我们创建一个知识库:
在 PandaWiki 中,“知识库” 就是一组文档的集合,PandaWiki 将会根据知识库中的文档,为不同的知识库分别创建 “Wiki 网站”。
创建成功后,我们就得到了一个空白的知识库网站:
下面我们就可以添加文档了,当然就不需要每个文档再手动粘贴一遍了,这里它几乎支持了目前市面上所有主流的笔记软件的直接导入,还支持支持听过一个网页 URL 和 RSS 进行导入,还是非常方便的:
这里我准备先把我在飞书知识库中编写的 AI 教程导入进来试试:
我们选择通过飞书文档导入:
我们还是直接在 PandaWiki 文档中进行提问:
这里它会给出非常详细的配置指引,包括创建飞书机器人、配置机器人权限等等,过程我就直接省略了,大家直接根据文档操作就行了。
然后我们可以直接拉取到你在飞书文档上创建的所有文档:
我们直接选择一批文档开始导入:
导入成功后,我们发现在后台多了一大批 “未发布” 的文档。
在 PandaWiki 中,所有新创建或新导入到文档必须经过发布才会在 Wiki 网站中可见,才会被 AI 学习到。文档在被修改以后会被标记为 “更新未发布”,此时需要重新发布,才会在 Wiki 网站中更新内容,否则只是后台的草稿状态。
然后你可以对这些文档直接使用 AI 生成摘要:
我们也可以创建一些文件夹来将文档进行分类整理:
然后我们尝试一下发布这些文档:
我们再刷新网站,你就直接得到了一个整理好的知识库:
在后台的设置部分,你可以做很多更细致的设置,比如首页的提示语、首页的文章卡片,背景图片,以及自定义 AI 提示词等等:
我们回到首页,效果非常不错,这很适合做个人博客,或者一些产品等文档站:
我们来尝试做一个提问,模型非常快速准确的给出了答案:
另外,PandaWiki 还支持上传和管理离线文件,咱家粉丝都知道,我经常会在星球中分享一些最新的 AI 资料文件,这些文档都很有价值,但是从知识管理的角度就不太友好了:
我们可以尝试把这些离线文件都导入到知识库,我们选择离线导入,可以发现它支持很多中格式:
选择离线文档导入后,它会自动提取其中的内容:
然后我们也可以直接对这些离线文档中的内容进行提问:
最后,我发现在后台设置中还支持非常快捷的搭建问答机器人的配置,包括网页挂件、飞书机器人、微信公众号等等等等:
并且每一个都给出了非常详细的操作指引,对小白用户非常友好:
其他更强大的功能,就要靠大家自己去探索啦!
最后
项目的 GitHub 地址是:https://github.com/chaitin/PandaWiki
点个 Star 支持一下国产开源软件吧!
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型实战项目&项目源码👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
为什么分享这些资料?
只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
更多推荐
所有评论(0)