动手学大模型应用开发笔记--用dash开发一个大模型知识库,大模型入门到精通,收藏这篇就足够了!
动手学,把自己学到的东西动手自己做出来并输出,是最好的学习方式。最近一直在关注和使用各种ai工具,也在学一些ai开发的知识,看到datawhale的开源学习教程,动手学大模型开发( github.com/datawhalech… )这个教程比较全面,正好可以结合自己常用的数据平台开发工具dash来开发一个web界面,做个简单的demo用起来,可以本地调用各种大模型api来和自己的文本知识库来对话。
简介
动手学,把自己学到的东西动手自己做出来并输出,是最好的学习方式。最近一直在关注和使用各种ai工具,也在学一些ai开发的知识,看到datawhale的开源学习教程,动手学大模型开发( github.com/datawhalech… )这个教程比较全面,正好可以结合自己常用的数据平台开发工具dash来开发一个web界面,做个简单的demo用起来,可以本地调用各种大模型api来和自己的文本知识库来对话。先来看一下做出来的结果吧:
代码开源在这里: github.com/qibaizhang/…
可以这样运行:
# 新建虚拟环境
conda create -n zsk python=3.11 -y
# 进入环境
conda activate zsk
# 克隆项目
git clone https://github.com/qibaizhang/chat_kb_app.git
# 进入项目根目录
cd chat_kb_app
# 安装项目依赖环境
pip install -r requirements.txt
# 运行项目
python wsgi.py
#浏览器打开http://127.0.0.1:8055/就可以看到界面,如果要局域网访问,把localhost改成0.0.0.0
- web应用开发主要采用Dash(基于flask和react)、feffery-antd-components(feffery老师封装的的ant design组件库 github.com/CNFeffery/f… )等一些配套的dash组件库,可以用纯python迅速开发迭代。
- 后端大模型开发用langchain和chroma向量数据库,主要运用这个datawhale开源教程里面讲述的相关大模型开发知识。
主要功能
- 可以选择大模型厂商,填写自己的key和模型等参数,现在支持智谱,openai,讯飞星火,百度文心这几家的模型,默认用的智谱glm4。
- 可以选择直接和不同的大模型不带知识库对话或者和自己上传文档建立的知识库对话,选择知识库对话会先根据问题检索向量数据库里面相关的文本返回再和大模型对话。
- 知识库对话需要在右边上传文档界面先上传pdf或者md文件上传并向量入库,可以选择不同厂商的embedding模型,现在有智谱和openai的,默认是智谱的模型。
- 知识库对话可以自己填写提示词来不断迭代提示词,取得更好的效果,默认用教程里面的提示词。
- 对话界面可选支持单轮和带历史记录多轮对话,默认单轮对话。
- 可以保存当前界面的全部历史聊天记录为md并下载,先点击保存,然后再点击下载。
- 可以一键清除当前界面全部历史聊天记录。
左上角输入相应模型自己的key之后就可以开始在中间对话框输入问题了。
开发过程
后端
后端主要就是和大模型的交互,以及向量数据库的处理,用langchain可以统一不同大模型和向量数据库调用,主要就是就按照教程里面的相关知识,就是把智谱的调用对话改成直接在最新的langchain版本调用,不用自定义了,先在jupyter notebook里面把逻辑都跑通了。
前端
后端逻辑跑通之后,就是要开始做前端界面展示出来了,现在大部分ai应用界面都是用的gradio和streamlit来做的,因为自己平时主要在用dash开发web应用,自由度和可扩展性都更好一些,也是纯python可以迅速开发,也可以结合传统html、css和js各种自定义,就用dash来开发界面,教程只是开发了一个简单界面demo,然后也说了一下优化方向,我就把这几个一起用自己的方式来实现了一下。
现在这个版本就是实现了这些基础功能,后续继续迭代。整个完整代码都在前面的开源地址里面,感兴趣的可以自己查看下载运行。
存在问题
现在有一个问题就是上传不同的文本格式到向量数据库,教程里面只讲了两种类型pdf和md格式的,我查询langchain文档里面的相关接口,测试别的格式文本,在jupyter notebook里面可以成功入库,但是在应用里同样代码不知道为什么不能成功,暂时只能成功教程里面的这两种格式,别的格式可以转换成pdf或者md再上传,还需要查找出问题改进。
可以用来做什么
- 学习的时候查资料,可以把自己在学习的资料传到向量数据库,然后中间碰到某些问题,直接用大模型查资料返回知识库的结果。
- 公司里面一些文本资料比如档案,招标文件,客服资料,培训文档等这些入库,通过大模型来调用知识库对话,返回结果,如果要纯本地的,可以自己部署离线模型,把接口改造一下就可以调用自己的本地模型。
- 可以更改不同的知识库提示词模板迭代,收集bad case ,优化迭代,还可以保存对话记录,可以先看看默认提示词的效果
然后改成这段提示词
结果如下
可以看到,不同提示词,效果明显有差别,可以不断修改迭代。
- 可以测试不同大模型api的能力,只要是langchian支持的大模型接口,都可以接入进行调用测试,现在不同厂商都会新用户送一些token来使用,可以都用一下,看看哪个更适合自己。比如默认的智谱新注册实名认证就会有400万一个月期限的token可以使用,各家不一样。
这次先记录到这里,后面可能会更迭代优化,更加结构化整个应用。
想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年 AI 大模型全套学习资料
已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享
!
👇👇扫码免费领取全部内容👇👇
一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势
想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI
:
1. 100+本大模型方向电子书
2. 26 份行业研究报告:覆盖多领域实践与趋势
报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:
- 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
- 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
- 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
- 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。
3. 600+套技术大会 PPT:听行业大咖讲实战
PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:
- 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
- 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
- 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
- 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。
二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走
想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!
1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位
面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析
:
2. 102 道 AI 大模型真题:直击大模型核心考点
针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:
3. 97 道 LLMs 真题:聚焦大型语言模型高频问题
专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:

三、路线必明: AI 大模型学习路线图,1 张图理清核心内容
刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图
」直接帮你划重点,不用再盲目摸索!
路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。
L1阶段:启航篇丨极速破界AI新时代
L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。
L2阶段:攻坚篇丨RAG开发实战工坊
L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。
L3阶段:跃迁篇丨Agent智能体架构设计
L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。
L4阶段:精进篇丨模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。
L5阶段:专题集丨特训篇 【录播课】

四、资料领取:全套内容免费抱走,学 AI 不用再找第二份
不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:
👇👇扫码免费领取全部内容👇👇
2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!
更多推荐
所有评论(0)