前言

使用日常的模式部署vllm+大模型不方便管理大模型,配置比较繁琐

这里使用docker+vllm+大模型的方式部署

之前部署过,按照官方文档  使用 Docker 进行部署 | vLLM 中文站   

命令如下

docker run --runtime nvidia --gpus all \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
    -p 8000:8000 \
    --ipc=host \
    vllm/vllm-openai:latest \
    --model mistralai/Mistral-7B-v0.1

遇到一些不知名错误

显示驱动一些信息报错不存在或者错误

安装依赖

1.安装nvidia驱动和cuda  大家应该都会

2.安装nvidia-docker(centos)

这个也是比较重要的,如果不安装这个,不能够再docker容器运行nvidia驱动

 distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
 curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
 curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
 sudo apt-get update
 sudo apt-get install nvidia-container-toolkit
 sudo apt-get install nvidia-docker2
 service docker restart
 sudo systemctl daemon-reload
 sudo systemctl restart docker

查看是否安装成功,出现runtimes里面的nvidia配置,代表安装成功了

 sudo vim /etc/docker/daemon.json
 {
 ​
 "registry-mirrors": ["https://8v2d0fpc.mirror.aliyuncs.com"],
 "runtimes": {
         "nvidia": {
             "path": "/usr/bin/nvidia-container-runtime",
             "runtimeArgs": []
          }
     }
 ​
 }

模型推理

docker run -d \
  --gpus all \
  --restart always \
  --name deepseek-r1 \
  --network host \
  -v [你的本地模型绝对路径]:/model \
  vllm/vllm-openai:latest \
  --model /model \
  --served-model deepseek-r1

如果要限制GPU 让模型只跑在指定的几张GPU上运行

docker run --gpus all -e CUDA_VISIBLE_DEVICES=0,1,2,3,4

启动参数  Engine Arguments — vLLM

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐