一、引言

在大模型落地边缘推理场景中,“高性能硬件+高效推理引擎+轻量化模型”的组合是核心解决方案。昇腾310P作为面向边缘场景的高性价比AI芯片,凭借低功耗、高算力的优势,成为边缘大模型部署的优选硬件;MindIE(Mind Inference Engine)作为华为官方推出的昇腾专属推理引擎,对昇腾硬件的适配性拉满,是部署大模型的靠谱选择;而DeepSeek-R1-Distill-Qwen-32B作为一款经过蒸馏优化的32B量级大模型,在保留优异推理能力的同时,大幅降低了部署资源门槛,完美适配昇腾310P的硬件规格。
本文将手把手记录从环境准备、框架选型、模型部署到服务测试的完整流程,拆解实操中的关键步骤和常见坑点,全程基于真实部署场景,确保新手也能跟着复刻,顺利实现DeepSeek-R1-Distill-Qwen-32B在昇腾310P上的稳定运行。

二、环境配置:

服务器 基本信息
CPU Kunpeng-920 2路32核
内存 512G
系统盘 2*480G SATA SSD
显卡 300I DOU 96G * 4
操作系统 Kylin Linux Advanced Server V10 (Lance)
架构 aarch64

三、安装NPU驱动和固件

官网下载驱动:https://www.hiascend.com/hardware/firmware-drivers/community
固件:Ascend-hdk-310p-npu-firmware_7.8.0.2.212.run
驱动:Ascend-hdk-310p-npu-driver_25.3.rc1_linux-aarch64.run

首次安装需要按照以下顺序:驱动>固件

1. 执行如下示例命令,创建HwHiAiUser用户和用户组:

groupadd HwHiAiUser
useradd -g HwHiAiUser -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash

2. 将驱动上传至服务器/opt目录下

cd /opt 
chmod +x Ascend-hdk-310p-npu-driver_25.3.rc1_linux-aarch64.run
chmod +x Ascend-hdk-310p-npu-firmware_7.8.0.2.212.run

3. 执行如下命令安装驱动。

./Ascend-hdk-310p-npu-driver_25.3.rc1_linux-aarch64.run --full --install-for-all

4. 若系统出现如下关键回显信息,则表示驱动安装成功。

Driver package installed successfully!

5. 执行如下命令安装固件。

./Ascend-hdk-310p-npu-firmware_7.8.0.2.212.run --full

6. 若系统出现如下关键回显信息,表示固件安装成功。

Firmware package installed successfully! Reboot now or after driver installation 

7. 执行如下命令查看驱动加载是否成功

npu-smi info

若返回驱动相关信息说明加载成功。否则,说明加载失败,需自行百度。

四、下载权重模型

下载DeepSeek-R1-Distill-Qwen-32B的权重模型,保存到服务器上的/home/model_path/DeepSeek-R1-Distill-Qwen-32B
下载地址:https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B/tree/main

五、安装MindIE

本次采用docker的方式安装,镜像可通过以下链接获取:
https://www.hiascend.com/developer/ascendhub/detail/af85b724a7e5469ebd7ea13c3439d48f
或者通过docker pull 的方式拉取:

docker pull swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie:2.2.RC1-300I-Duo-py311-openeuler24.03-lts

查看镜像是否正常拉取:

docker images 
swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie   2.2.RC1-300I-Duo-py311-openeuler24.03-lts   d5c23e8b9366   3 weeks ago     18.9GB

六、配置启动MindIE

执行docker命令启动:

docker run -it -d --net=host --shm-size=8g --privileged   --name DeepSeek-R1-Distill-Qwen-32B --device=/dev/davinci_manager   --device=/dev/hisi_hdc --device=/dev/devmm_svm -v /usr/local/Ascend/driver:/usr/local/Ascend/driver:ro   -v /usr/local/sbin:/usr/local/sbin:ro  -v /home/model_path:/data/models:ro  mindie:2.2 /bin/bash

## 进入容器启动大模型参考链接:https://www.hiascend.com/document/detail/zh/mindie/22RC1/envdeployment/instg/mindie_instg_0026.html:
docker exec -it DeepSeek-R1-Distill-Qwen-32B bash

source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Ascend/nnal/atb/set_env.sh  
source /usr/local/Ascend/atb-models/set_env.sh 

vi /usr/local/Ascend/mindie/2.2.RC1/mindie-service/conf/config.json
## 修改以下参数:ServerConfig、BackendConfig-ModelConfig
## ServerConfig改ipAddress为本机ip
## npuDeviceIds根据自己的卡数量修改,modelName改DeepSeek-R1-Distill-Qwen-32B,modelWeightPath改完/data/models/DeepSeek-R1-Distill-Qwen-32B,剩余参数可根据官方文档自行修改
cd /usr/local/Ascend/mindie/latest/mindie-service/
nohup ./bin/mindieservice_daemon > output.log 2>&1 &
tail -f output.log

七、测试推理(验证部署成功)

服务启动成功后,可通过curl命令或Postman发送HTTP请求,测试模型推理效果,验证部署是否成功。

curl http://127.0.0.1:1025/v1/chat/completions   -H "Content-Type: application/json"   -d '{
    "model": "DeepSeek-R1-Distill-Qwen-32B",
    "messages": [
      {"role": "user", "content": "你好,请介绍一下你自己。"}
    ],
    "max_tokens": 100,
    "temperature": 0.7
  }'

八、部署总结与后续展望

本次实操完成了DeepSeek-R1-Distill-Qwen-32B在昇腾310P上的MindIE部署,全程基于真实边缘场景,核心总结如下:

  1. 选型核心:昇腾310P + MindIE是边缘大模型部署的最优组合,MindIE的官方适配性的避免了大量算子兼容问题,部署成功率远高于其他框架。

  2. 避坑重点:软件版本必须配套(尤其是MindIE与驱动、CANN),模型无需权重转换,关闭HTTPS认证,日志编码需手动调整,这4个点是部署成功的关键。

  3. 实用价值:DeepSeek-R1-Distill-Qwen-32B的蒸馏优化的适配昇腾310P的硬件规格,在边缘场景中可实现“高性能+低功耗”的平衡,适用于智能安防、工业质检、车载终端等多个领域。

后续展望:随着MindIE框架的持续迭代,未来将支持更多大模型和更优的推理性能;同时,可基于本次部署方案,扩展实现模型的服务化集群部署,满足大规模边缘推理的需求。

最后,若你在部署过程中遇到其他问题,可留言交流,也可参考昇腾社区和DeepSeek官方文档,结合本文的实操经验,相信能顺利解决所有问题。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐