【详细教程】本地部署DeepSeek+构建私有知识库+调用大模型API

本文主要介绍了用LMStudio部署大模型，并结合AnythingLLM构建本地知识库，后续简单介绍了如何调用大模型的在线API。

人工智能小豪

410人浏览 · 2025-09-04 11:24:33

人工智能小豪 · 2025-09-04 11:24:33 发布

本文写于2月，正值DeepSeek横空出世之际，在全国掀起了一股本地部署的风潮，我也学习了一下，并将过程记录整理成文章。

本文主要介绍了用LMStudio部署大模型，并结合AnythingLLM构建本地知识库，后续简单介绍了如何调用大模型的在线API。

本教程部署方式简单，均采用可视化软件，易于上手，适合初学AI的小白感受和入门。

一、本地部署DeepSeek

1.下载安装LM Studio

https://lmstudio.ai/

下载文件后双击exe文件，根据下图安装提示按步骤进行安装

2.下载大模型文件


参数模型硬件要求如下，请根据本机的配置选择合适的模型 ✅ DeepSeek-R1-1.5B CPU:最低 4 核（推荐 Intel/AMD 多核处理器）内存:8GB+ 硬盘:3GB+ 存储空间（模型文件约 1.5-2GB）显卡:非必需（纯 CPU 推理），若 GPU 加速可选 4GB+ 显存（如 GTX 1650）场景：低资源设备部署，如树莓派、旧款笔记本、嵌入式系统或物联网设备 ✅ DeepSeek-R1-7B CPU:8 核以上（推荐现代多核 CPU）内存:16GB+ 硬盘:8GB+（模型文件约 4-5GB）显卡:推荐 8GB+ 显存（如 RTX 3070/4060）场景：中小型企业本地开发测试、中等复杂度 NLP 任务，例如文本摘要、翻译、轻量级多轮对话系统 ✅ DeepSeek-R1-8B CPU:8 核以上（推荐现代多核 CPU）内存:16GB+ 硬盘:8GB+（模型文件约 4-5GB）显卡:推荐 8GB+ 显存（如 RTX 3070/4060）场景：需更高精度的轻量级任务（如代码生成、逻辑推理） ✅ DeepSeek-R1-14B CPU:12 核以上内存:32GB+ 硬盘:15GB+ 显卡:16GB+ 显存（如 RTX 4090 或 A5000）场景：企业级复杂任务、长文本理解与生成 ✅ DeepSeek-R1-32B CPU: 16 核以上（如 AMD Ryzen 9 或 Intel i9）内存: 64GB+ 硬盘: 30GB+ 显卡: 24GB+ 显存（如 A100 40GB 或双卡 RTX 3090）场景：高精度专业领域任务、多模态任务预处理 ✅ DeepSeek-R1-70B CPU:32 核以上（服务器级 CPU）内存:128GB+ 硬盘:70GB+ 显卡: 多卡并行（如 2x A100 80GB 或 4x RTX 4090）场景：科研机构/大型企业、高复杂度生成任务

参数模型硬件要求如下，请根据本机的配置选择合适的模型 ✅ DeepSeek-R1-1.5B **CPU:**最低 4 核（推荐 Intel/AMD 多核处理器） **内存:**8GB+ **硬盘:**3GB+ 存储空间（模型文件约 1.5-2GB） **显卡:**非必需（纯 CPU 推理），若 GPU 加速可选 4GB+ 显存（如 GTX 1650） **场景：**低资源设备部署，如树莓派、旧款笔记本、嵌入式系统或物联网设备 ✅ DeepSeek-R1-7B **CPU:**8 核以上（推荐现代多核 CPU） **内存:**16GB+ **硬盘:**8GB+（模型文件约 4-5GB） **显卡:**推荐 8GB+ 显存（如 RTX 3070/4060） **场景：**中小型企业本地开发测试、中等复杂度 NLP 任务，例如文本摘要、翻译、轻量级多轮对话系统 ✅ DeepSeek-R1-8B **CPU:**8 核以上（推荐现代多核 CPU） **内存:**16GB+ **硬盘:**8GB+（模型文件约 4-5GB） **显卡:**推荐 8GB+ 显存（如 RTX 3070/4060） **场景：**需更高精度的轻量级任务（如代码生成、逻辑推理） ✅ DeepSeek-R1-14B **CPU:**12 核以上 **内存:**32GB+ **硬盘:**15GB+ **显卡:**16GB+ 显存（如 RTX 4090 或 A5000） **场景：**企业级复杂任务、长文本理解与生成 ✅ DeepSeek-R1-32B CPU: 16 核以上（如 AMD Ryzen 9 或 Intel i9）内存: 64GB+ 硬盘: 30GB+ 显卡: 24GB+ 显存（如 A100 40GB 或双卡 RTX 3090）场景：高精度专业领域任务、多模态任务预处理 ✅ DeepSeek-R1-70B **CPU:**32 核以上（服务器级 CPU） **内存:**128GB+ **硬盘:**70GB+ 显卡: 多卡并行（如 2x A100 80GB 或 4x RTX 4090） **场景：**科研机构/大型企业、高复杂度生成任务


从百度网盘下载链接: https://pan.baidu.com/s/1x_Hj2QiQcwENbuCx6ysL1w 提取码: gdku


网页在线下载（也可以在该网站下载其他本地模型，下载文件的格式为gguf） * 1.5B：https://hf-mirror.com/bartowski/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/tree/main * 7B：https://hf-mirror.com/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF/tree/main * 14B：https://hf-mirror.com/bartowski/DeepSeek-R1-Distill-Qwen-14B-GGUF/tree/main * 32B：https://hf-mirror.com/bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF/tree/main * 70B：https://hf-mirror.com/unsloth/DeepSeek-R1-Distill-Llama-70B-GGUF/tree/main 注：图中Q2、Q3、Q4等通常是指模型的量化级别，数字越大精度越高，一般选择Q4

网页在线下载（也可以在该网站下载其他本地模型，下载文件的格式为gguf） * 1.5B：https://hf-mirror.com/bartowski/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/tree/main * 7B：https://hf-mirror.com/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF/tree/main * 14B：https://hf-mirror.com/bartowski/DeepSeek-R1-Distill-Qwen-14B-GGUF/tree/main * 32B：https://hf-mirror.com/bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF/tree/main * 70B：https://hf-mirror.com/unsloth/DeepSeek-R1-Distill-Llama-70B-GGUF/tree/main 注：图中Q2、Q3、Q4等通常是指模型的量化级别，数字越大精度越高，一般选择Q4

3.配置本地模型


在磁盘下创建三级文件夹（如图所示，LLM→DeepSeek→1.5B），将gguf模型文件放置于第三层文件夹中注：这步很重要，如果没有按照要求设置，会导致读取不到本地模型

打开LM Studio，进入文件页面，更改模型目录


选择刚刚创建的三级文件夹中的第一级，即可看到本地模型，若仍没显示，可点击刷新按钮

4.加载本地模型

进入聊天页面，点击顶部加载模型会自动显示本地模型，选中一个模型


选择模型后需要配置模型的参数，前三个参数可根据自己的硬件调整，后面的参数按照默认设置即可，设置完成后点击“加载模型”按钮 * 上下文长度：含义：模型处理文本时能够考虑的最大词元（token）数量。调整效果：增加上下文长度可以提高模型理解长文本的能力，但会增加内存消耗和计算时间。一般设置为2048的倍数 * GPU 挂载：含义：指定用于模型计算的GPU数量。调整效果：增加GPU数量可以提高模型的推理速度，但需要更多的硬件资源。 * CPU Thread Pool Size：含义：指定用于模型计算的CPU线程池大小。调整效果：增加线程池大小可以提高CPU的并行处理能力，从而提高模型的推理速度，但也会增加CPU的负载。 * 评估批处理大小：含义：指定每次模型评估时处理的样本数量。调整效果：增加批处理大小可以提高模型的推理速度，但也会增加内存消耗。 * RoPE 频率基底：含义：控制旋转位置编码（RoPE）的频率基底。调整效果：影响模型对位置信息的处理方式，可以优化模型在某些任务上的性能。 * RoPE 频率缩放：含义：控制旋转位置编码（RoPE）的频率缩放。调整效果：影响模型对位置信息的处理方式，可以优化模型在某些任务上的性能。 * 保持模型在内存中：含义：是否将模型常驻内存，以加快加载速度。调整效果：保持模型在内存中可以加快模型的加载速度，但会占用更多的内存资源。 * 尝试 mmap()：含义：使用内存映射文件（mmap）技术来加载模型。调整效果：使用mmap可以提高模型加载的速度和效率，特别是在处理大模型时。 * 种子：含义：设置随机数生成器的种子值。调整效果：设置种子值可以确保实验的可重复性，使得每次运行的结果一致。 * 快速注意力：含义：启用快速注意力机制。调整效果：快速注意力机制可以提高模型的推理速度，但可能会对模型的性能产生一定影响。 * K Cache Quantization Type：含义：指定键缓存（K Cache）的量化类型。调整效果：量化可以减少模型的内存占用和计算量，但可能会对模型的性能产生一定影响。 * V Cache Quantization Type：含义：指定值缓存（V Cache）的量化类型。调整效果：量化可以减少模型的内存占用和计算量，但可能会对模型的性能产生一定影响。 * Remember settings for deepseek-r1-distill-qwen-1.5b：含义：是否记住当前模型的设置。调整效果：勾选此选项可以在下次加载模型时自动应用当前设置，无需重新配置。

选择模型后需要配置模型的参数，前三个参数可根据自己的硬件调整，后面的参数按照默认设置即可，设置完成后点击“加载模型”按钮 * 上下文长度：含义：模型处理文本时能够考虑的最大词元（token）数量。调整效果：增加上下文长度可以提高模型理解长文本的能力，但会增加内存消耗和计算时间。一般设置为2048的倍数 * GPU 挂载：含义：指定用于模型计算的GPU数量。调整效果：增加GPU数量可以提高模型的推理速度，但需要更多的硬件资源。 * CPU Thread Pool Size：含义：指定用于模型计算的CPU线程池大小。调整效果：增加线程池大小可以提高CPU的并行处理能力，从而提高模型的推理速度，但也会增加CPU的负载。 * 评估批处理大小：含义：指定每次模型评估时处理的样本数量。调整效果：增加批处理大小可以提高模型的推理速度，但也会增加内存消耗。 * RoPE 频率基底：含义：控制旋转位置编码（RoPE）的频率基底。调整效果：影响模型对位置信息的处理方式，可以优化模型在某些任务上的性能。 * RoPE 频率缩放：含义：控制旋转位置编码（RoPE）的频率缩放。调整效果：影响模型对位置信息的处理方式，可以优化模型在某些任务上的性能。 * 保持模型在内存中：含义：是否将模型常驻内存，以加快加载速度。调整效果：保持模型在内存中可以加快模型的加载速度，但会占用更多的内存资源。 * 尝试 mmap()：含义：使用内存映射文件（mmap）技术来加载模型。调整效果：使用mmap可以提高模型加载的速度和效率，特别是在处理大模型时。 * 种子：含义：设置随机数生成器的种子值。调整效果：设置种子值可以确保实验的可重复性，使得每次运行的结果一致。 * 快速注意力：含义：启用快速注意力机制。调整效果：快速注意力机制可以提高模型的推理速度，但可能会对模型的性能产生一定影响。 * K Cache Quantization Type：含义：指定键缓存（K Cache）的量化类型。调整效果：量化可以减少模型的内存占用和计算量，但可能会对模型的性能产生一定影响。 * V Cache Quantization Type：含义：指定值缓存（V Cache）的量化类型。调整效果：量化可以减少模型的内存占用和计算量，但可能会对模型的性能产生一定影响。 * Remember settings for deepseek-r1-distill-qwen-1.5b：含义：是否记住当前模型的设置。调整效果：勾选此选项可以在下次加载模型时自动应用当前设置，无需重新配置。

加载成功后即可开始对话

5.关闭软件联网保护隐私


本步骤非必须，如果想更好的保护隐私不被泄露，可遵循下述步骤将软件断网

进入高级安全Windowsdefender防护墙

选择入站规则-新建规则

选择程序-下一步-选择路径

选择安装lmstudio的路径中名字叫LM Studio.exe文件

阻止连接

输入这条规则的名称，点击完成即可

再次新建禁止联网规则，分别添加另外两个文件


LM Studio所在目录\resources\elevate.exe C:\Users\Administrator.lmstudio\bin\lms.exe

在出站规则中也将以上三个文件设置禁止联网，步骤同上

二、构建私有知识库

1.下载安装AnyThingLLM

https://anythingllm.com/

按步骤安装

安装成功后打开软件，跳过前面的引导页，都按默认选择

创建一个工作区

2.切换到LM Studio，打开本地服务

进入开发者页面

选择要加载的模型（见第一部分第4节）

开启本地服务

3.配置anythingllm

回到anythingllm软件，点击设置按钮

进入聊天设置，切换LLM供应商

找到LMstudio

要记得点击update进行保存

在代理配置中也选上LM Studio（注意要点击configure进行保存）

返回对话页，这样就建立了与LMstudio的本地连接

4.构建本地知识库


本地知识库：使用lmstudio上的本地模型创建的知识库若不放心安全问题，在配置完成后，可参照一.5关闭anythingLLM联网

点击上传按钮

上传本地文件

将上传的文件移入工作区

5.构建在线知识库


在线知识库：通过API调用在线大模型，再创建知识库

新建工作区，进入设置，选择其他LLM提供商，以deep seek为例

输入APIkey（如何获取APIkey可参考第三部分第一节）

设置apikey成功后，再根据构建本地知识库的步骤上传文件即可

三、调用大模型API（以DeepSeek为例）

1.申请DeepSeekAPI

进入https://www.deepseek.com/，点击右上角“API开放平台”，开始注册登录

进入左侧“API keys”页面，点击“创建API key”，输入名称


创建后会自动生成key（它是一种用于身份验证的密钥，允许用户通过API访问特定的服务或数据。它就像一把钥匙，确保只有授权的用户才能使用服务，同时帮助控制访问频率和权限），请将这个key保存好，因为关闭后无法再次查看