本文写于2月,正值DeepSeek横空出世之际,在全国掀起了一股本地部署的风潮,我也学习了一下,并将过程记录整理成文章。

本文主要介绍了用LMStudio部署大模型,并结合AnythingLLM构建本地知识库,后续简单介绍了如何调用大模型的在线API。

本教程部署方式简单,均采用可视化软件,易于上手,适合初学AI的小白感受和入门。

一、本地部署DeepSeek

1.下载安装LM Studio

https://lmstudio.ai/

下载文件后双击exe文件,根据下图安装提示按步骤进行安装

2.下载大模型文件

参数模型硬件要求如下,请根据本机的配置选择合适的模型 ✅ DeepSeek-R1-1.5B **CPU:**最低 4 核(推荐 Intel/AMD 多核处理器) **内存:**8GB+ **硬盘:**3GB+ 存储空间(模型文件约 1.5-2GB) **显卡:**非必需(纯 CPU 推理),若 GPU 加速可选 4GB+ 显存(如 GTX 1650) **场景:**低资源设备部署,如树莓派、旧款笔记本、嵌入式系统或物联网设备 ✅ DeepSeek-R1-7B **CPU:**8 核以上(推荐现代多核 CPU) **内存:**16GB+ **硬盘:**8GB+(模型文件约 4-5GB) **显卡:**推荐 8GB+ 显存(如 RTX 3070/4060) **场景:**中小型企业本地开发测试、中等复杂度 NLP 任务,例如文本摘要、翻译、轻量级多轮对话系统 ✅ DeepSeek-R1-8B **CPU:**8 核以上(推荐现代多核 CPU) **内存:**16GB+ **硬盘:**8GB+(模型文件约 4-5GB) **显卡:**推荐 8GB+ 显存(如 RTX 3070/4060) **场景:**需更高精度的轻量级任务(如代码生成、逻辑推理) ✅ DeepSeek-R1-14B **CPU:**12 核以上 **内存:**32GB+ **硬盘:**15GB+ **显卡:**16GB+ 显存(如 RTX 4090 或 A5000) **场景:**企业级复杂任务、长文本理解与生成 ✅ DeepSeek-R1-32B CPU: 16 核以上(如 AMD Ryzen 9 或 Intel i9) 内存: 64GB+ 硬盘: 30GB+ 显卡: 24GB+ 显存(如 A100 40GB 或双卡 RTX 3090) 场景:高精度专业领域任务、多模态任务预处理 ✅ DeepSeek-R1-70B **CPU:**32 核以上(服务器级 CPU) **内存:**128GB+ **硬盘:**70GB+ 显卡: 多卡并行(如 2x A100 80GB 或 4x RTX 4090) **场景:**科研机构/大型企业、高复杂度生成任务
从百度网盘下载 链接: https://pan.baidu.com/s/1x_Hj2QiQcwENbuCx6ysL1w 提取码: gdku
网页在线下载(也可以在该网站下载其他本地模型,下载文件的格式为gguf) * 1.5B:https://hf-mirror.com/bartowski/DeepSeek-R1-Distill-Qwen-1.5B-GGUF/tree/main * 7B:https://hf-mirror.com/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF/tree/main * 14B:https://hf-mirror.com/bartowski/DeepSeek-R1-Distill-Qwen-14B-GGUF/tree/main * 32B:https://hf-mirror.com/bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF/tree/main * 70B:https://hf-mirror.com/unsloth/DeepSeek-R1-Distill-Llama-70B-GGUF/tree/main 注:图中Q2、Q3、Q4等通常是指模型的量化级别,数字越大精度越高,一般选择Q4

3.配置本地模型

在磁盘下创建三级文件夹(如图所示,LLM→DeepSeek→1.5B),将gguf模型文件放置于第三层文件夹中注:这步很重要,如果没有按照要求设置,会导致读取不到本地模型

打开LM Studio,进入文件页面,更改模型目录

选择刚刚创建的三级文件夹中的第一级,即可看到本地模型,若仍没显示,可点击刷新按钮

4.加载本地模型

进入聊天页面,点击顶部加载模型会自动显示本地模型,选中一个模型

选择模型后需要配置模型的参数,前三个参数可根据自己的硬件调整,后面的参数按照默认设置即可,设置完成后点击“加载模型”按钮 * 上下文长度: 含义:模型处理文本时能够考虑的最大词元(token)数量。 调整效果:增加上下文长度可以提高模型理解长文本的能力,但会增加内存消耗和计算时间。 一般设置为2048的倍数 * GPU 挂载: 含义:指定用于模型计算的GPU数量。 调整效果:增加GPU数量可以提高模型的推理速度,但需要更多的硬件资源。 * CPU Thread Pool Size: 含义:指定用于模型计算的CPU线程池大小。 调整效果:增加线程池大小可以提高CPU的并行处理能力,从而提高模型的推理速度,但也会增加CPU的负载。 * 评估批处理大小: 含义:指定每次模型评估时处理的样本数量。 调整效果:增加批处理大小可以提高模型的推理速度,但也会增加内存消耗。 * RoPE 频率基底: 含义:控制旋转位置编码(RoPE)的频率基底。 调整效果:影响模型对位置信息的处理方式,可以优化模型在某些任务上的性能。 * RoPE 频率缩放: 含义:控制旋转位置编码(RoPE)的频率缩放。 调整效果:影响模型对位置信息的处理方式,可以优化模型在某些任务上的性能。 * 保持模型在内存中: 含义:是否将模型常驻内存,以加快加载速度。 调整效果:保持模型在内存中可以加快模型的加载速度,但会占用更多的内存资源。 * 尝试 mmap(): 含义:使用内存映射文件(mmap)技术来加载模型。 调整效果:使用mmap可以提高模型加载的速度和效率,特别是在处理大模型时。 * 种子: 含义:设置随机数生成器的种子值。 调整效果:设置种子值可以确保实验的可重复性,使得每次运行的结果一致。 * 快速注意力: 含义:启用快速注意力机制。 调整效果:快速注意力机制可以提高模型的推理速度,但可能会对模型的性能产生一定影响。 * K Cache Quantization Type: 含义:指定键缓存(K Cache)的量化类型。 调整效果:量化可以减少模型的内存占用和计算量,但可能会对模型的性能产生一定影响。 * V Cache Quantization Type: 含义:指定值缓存(V Cache)的量化类型。 调整效果:量化可以减少模型的内存占用和计算量,但可能会对模型的性能产生一定影响。 * Remember settings for deepseek-r1-distill-qwen-1.5b: 含义:是否记住当前模型的设置。 调整效果:勾选此选项可以在下次加载模型时自动应用当前设置,无需重新配置。

加载成功后即可开始对话

5.关闭软件联网保护隐私

本步骤非必须,如果想更好的保护隐私不被泄露,可遵循下述步骤将软件断网

进入高级安全Windowsdefender防护墙

选择入站规则-新建规则

选择程序-下一步-选择路径

选择安装lmstudio的路径中名字叫LM Studio.exe文件

阻止连接

输入这条规则的名称,点击完成即可

再次新建禁止联网规则,分别添加另外两个文件

LM Studio所在目录\resources\elevate.exe C:\Users\Administrator.lmstudio\bin\lms.exe

在出站规则中也将以上三个文件设置禁止联网,步骤同上

二、构建私有知识库

1.下载安装AnyThingLLM

https://anythingllm.com/

按步骤安装

安装成功后打开软件,跳过前面的引导页,都按默认选择

创建一个工作区

2.切换到LM Studio,打开本地服务

进入开发者页面

选择要加载的模型(见第一部分第4节)

开启本地服务

3.配置anythingllm

回到anythingllm软件,点击设置按钮

进入聊天设置,切换LLM供应商

找到LMstudio

要记得点击update进行保存

在代理配置中也选上LM Studio(注意要点击configure进行保存)

返回对话页,这样就建立了与LMstudio的本地连接

4.构建本地知识库

本地知识库:使用lmstudio上的本地模型创建的知识库 若不放心安全问题,在配置完成后,可参照一.5关闭anythingLLM联网

点击上传按钮

上传本地文件

将上传的文件移入工作区

5.构建在线知识库

在线知识库:通过API调用在线大模型,再创建知识库

新建工作区,进入设置,选择其他LLM提供商,以deep seek为例

输入APIkey(如何获取APIkey可参考第三部分第一节)

设置apikey成功后,再根据构建本地知识库的步骤上传文件即可

三、调用大模型API(以DeepSeek为例)

1.申请DeepSeekAPI

进入https://www.deepseek.com/,点击右上角“API开放平台”,开始注册登录

进入左侧“API keys”页面,点击“创建API key”,输入名称

创建后会自动生成key(它是一种用于身份验证的密钥,允许用户通过API访问特定的服务或数据。它就像一把钥匙,确保只有授权的用户才能使用服务,同时帮助控制访问频率和权限),请将这个key保存好,因为关闭后无法再次查看

2.聊天

2.1.安装Chatbox

也可以用刚刚下载的AnythingLLM实现,但个人认为单纯用作聊天的话,Chatbox的体验更佳!

https://chatboxai.app/zh

根据提示步骤安装chatbox

2.2.设置API

打开软件后,选择“使用自己的API Key”或本地模型

在选择AI模型提供方界面找到deep seekAPI

填入刚刚在deep seek创建的APIkey

然后选择模型,默认的是普通的chat聊天模型,想要带推理的选择reasoner(但是这个模型最近太火爆了,经常无响应)

然后就可以在聊天界面对话了

3.编程

3.1.下载continue插件

3.2.设置API

点击connect后还会出现一个小的输入框,再次输入APIkey即可。

全文完!

大模型算是目前当之无愧最火的一个方向了,算是新时代的风口!有小伙伴觉得,作为新领域、新方向人才需求必然相当大,与之相应的人才缺乏、人才竞争自然也会更少,那转行去做大模型是不是一个更好的选择呢?是不是更好就业呢?是不是就暂时能抵抗35岁中年危机呢?

答案当然是这样,大模型必然是新风口!

那如何学习大模型 ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。但是具体到个人,只能说是:

最先掌握AI的人,将会比较晚掌握AI的人有竞争优势。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

但现在很多想入行大模型的人苦于现在网上的大模型老课程老教材,学也不是不学也不是,基于此我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近100余次后,终于把整个AI大模型的学习路线完善出来!

在这里插入图片描述

在这个版本当中:

您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型路线+学习教程已经给大家整理并打包分享出来, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型学习资源包》免费分享(安全咨料,放心领取)👈

一、大模型经典书籍(免费分享)

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源

在这里插入图片描述

二、640套大模型报告(免费分享)

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、大模型系列视频教程(免费分享)

在这里插入图片描述

四、2025最新大模型学习路线(免费分享)

我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。

img

L1阶段:启航篇丨极速破界AI新时代

L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

img

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

img

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

img

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

img

L5阶段:专题集丨特训篇 【录播课】

img

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方二维码免费领取

👉CSDN大礼包🎁:全网最全《LLM大模型学习资源包》免费分享(安全资料,放心领取)👈

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐