手把手教你私有化部署带聊天界面的DeepSeek-32b-----Linux版

手把手教你搭建基于Linux云服务的DeepSeek

ltbweber

2266人浏览 · 2025-02-08 18:42:01

ltbweber · 2025-02-08 18:42:01 发布

介绍

DeepSeek 是深度求索人工智能基础技术研究有限公司(简称“深度求索”或“DeepSeek”)，成立于2023年，是一家专注于实现AGI的中国公司。就先这么简单的说一嘴吧，哈哈

背景

DeepSeek在春节期间突然爆火，由此DeepSeek官网平台和官方APP使用量骤增，现在访问会频繁出现卡顿，提示服务器繁忙，很久才回复一句话的情况。为了更好的使用DeepSeek，本地话部署一个私有的应用岂不是美哉！！

当前网络上出现的教程方法

1：几乎清一色是windows本地，利用ollama和chatbox组合部署
2：云部署的几乎都是在命令行里进行聊天，使用不方便
3：部署比较繁琐，资源下载不方便，还需要魔法，门槛较高

本教程优势

1：基于云端服务部署，部署简单方便，流程少
2：从0到1手把手教程，不会出现错误
3：使用云服务很弹性，价格低
4：有对话界面，且可自定义模型的Prompt
5：部署完成后，暴露出URL，在任何可以打开网址的地方都可以使用，极其方便

资源准备

1：服务器资源：

	本教程以AutoDL云服务器为例，VGPU（32G）卡，也可以3090或以上

2：模型资源：

	https://hr-mirror.com/dwetzel/DeepSeek-R1-Distill-Qwen-32B-GPTQ-INT4/tree/main

手把手教程开始：

1：租用云卡

①：打开AutoDL官方网站：https://www.autodl.com

②：选择卡进行租用以及预装环境：注意：建议选择西北企业区，对外URL不需要ssh代理设置

请添加图片描述
③：点击创建，随即进入控制台
在这里插入图片描述
④：为了方便操作，复制登录指令和密码，用ssh工具链接到服务器进行操作，进入后如图所示：

⑤：进入后在命令行里输入下面两个命令，初始化一下

apt update
conda init

在init后，关闭当前窗口，重新进入，就会出现前面是（base）的conda环境

⑥：创建一个虚拟环境，本次部署是以vllm为模型服务，就创建一个vllm命名的就行

conda create -n vllm python==3.10

⑦：等待创建完毕后，查看是否有此虚拟环境

conda env list

在这里插入图片描述
⑧：激活当前虚拟环境

conda activate vllm

⑨：安装所需服务：vLLM 和 ModelScope

pip install vllm modelscope

等待安装完成… …

⑩：下载所需使用的模型，模型是托管在 huggingface.co，此网站是海外站，需要魔法，这里提供两种方法下载：
第一种：具体可参见我其他帖子不用魔法也能轻松下载大模型

	1：直接使用python代码下载，不使用梯子，需要设置huggingface_hub的地址，可查看我其他文章  [设置huggingface_hub地址)](https://blog.csdn.net/ltbweber/article/details/143740074?spm=1001.2014.3001.5502)
	2：在/root/autodl-tmp 路径下新建个模型文件夹models
	3：运行如下代码
	
	python -c "from modelscope.hub.snapshot_download import snapshot_download; snapshot_download('dwetzel/DeepSeek-R1-Distill-Qwen-32B-GPTQ-INT4', local_dir='/root/autodl-tmp/models/deepseek-r1-distill-qwen-32b')"

第二种：

	1：直接在网站上下载，打开网址：
	
		https://hf-mirror.com/dwetzel/DeepSeek-R1-Distill-Qwen-32B-GPTQ-INT4/tree/main
	
	2：复制每个的下载链接地址

在这里插入图片描述

	3：在 /root/autodl-tmp/models文件夹下新建文件夹deepseek-r1-distill-qwen-32b，并进入到此文件夹下，把上图中的每个文件下载下来，注意要保持文件名不变，例如：
	
			wget https://hf-mirror.com/dwetzel/DeepSeek-R1-Distill-Qwen-32B-GPTQ-INT4/resolve/main/model-00001-of-00005.safetensors?download=true -O model-00001-of-00005.safetensors
	然后依次下载，直到下载完毕

11：下载聊天界面UI，这里推荐使用gradio构建一个，可以从我的github仓库里下载

	git clone https://github.com/lvtingbin/chatUI.git

	进入文件夹，运行安装所需依赖库

	pip install -r  requirements.txt

编辑 app.py文件，把模型地址改为你下载的模型存放文件夹
在这里插入图片描述
其实，在app.py文件的最后，修改运行的绑定端口为6006，因为autodl对外开放的端口只有6006

再其次，在app.py的同级目录下，创建一个.env配置文件，内容如下：

OPENAI_API_KEY=132455   #这个是要调用vllm的api的密钥
OPENAI_API_BASE=http://127.0.0.1:5000/v1  #这个是要调用的vllm服务的接口地址，稍后我们会用5000端口启动vllm服务

启动服务

1：启动vllm服务：

	vllm serve /root/autodl-tmp/models/deepseek-r1-distill-qwen-32b --dtype auto --api-key 132455 --trust-remote-code --max-model-len 8192 --gpu_memory_utilization 0.8 --port 5000


	注释：
	--model: 模型路径
	--dtype auto: 自动选择最适合的数据类型
	--api-key: API密钥，这里使用132455
	--trust-remote-code: 信任模型代码
	--max-model-len: 最大上下文长度(这里可以按照显卡显存适当调整)
	--gpu-memory-utilization: GPU显存使用率，根据显卡情况调整，范围0-1，我这里是用0.7，启动是会占用32*0.8 = 25.6G显存
	--port: 服务端口号。由于autoDL只对外开放6006端口，上面chatUI服务使用了6006，这里就随意开一个端口就行了

2：启动chatUI服务