docker部署vllm+大模型 nvidia-docker

使用日常的模式部署vllm+大模型不方便管理大模型，配置比较繁琐这里使用docker+vllm+大模型的方式部署之前部署过，按照官方文档使用 Docker 进行部署 | vLLM 中文站命令如下遇到一些不知名错误显示驱动一些信息报错不存在或者错误。

球球别报错了啊

960人浏览 · 2025-05-09 10:58:30

球球别报错了啊 · 2025-05-09 10:58:30 发布

前言

使用日常的模式部署vllm+大模型不方便管理大模型，配置比较繁琐

这里使用docker+vllm+大模型的方式部署

之前部署过，按照官方文档使用 Docker 进行部署 | vLLM 中文站

命令如下

docker run --runtime nvidia --gpus all \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
    -p 8000:8000 \
    --ipc=host \
    vllm/vllm-openai:latest \
    --model mistralai/Mistral-7B-v0.1

遇到一些不知名错误

显示驱动一些信息报错不存在或者错误

安装依赖

1.安装nvidia驱动和cuda 大家应该都会

2.安装nvidia-docker（centos）

这个也是比较重要的，如果不安装这个，不能够再docker容器运行nvidia驱动

 distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
 curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
 curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
 sudo apt-get update
 sudo apt-get install nvidia-container-toolkit
 sudo apt-get install nvidia-docker2
 service docker restart
 sudo systemctl daemon-reload
 sudo systemctl restart docker

查看是否安装成功，出现runtimes里面的nvidia配置，代表安装成功了

 sudo vim /etc/docker/daemon.json
 {
 
 "registry-mirrors": ["https://8v2d0fpc.mirror.aliyuncs.com"],
 "runtimes": {
         "nvidia": {
             "path": "/usr/bin/nvidia-container-runtime",
             "runtimeArgs": []
          }
     }
 
 }

模型推理

docker run -d \
  --gpus all \
  --restart always \
  --name deepseek-r1 \
  --network host \
  -v [你的本地模型绝对路径]:/model \
  vllm/vllm-openai:latest \
  --model /model \
  --served-model deepseek-r1

如果要限制GPU 让模型只跑在指定的几张GPU上运行

docker run --gpus all -e CUDA_VISIBLE_DEVICES=0，1，2，3，4

启动参数 Engine Arguments — vLLM

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI驱动的价值投资者情绪分析与控制

在金融市场中，价值投资者往往依据公司的内在价值进行投资决策。然而，投资者的情绪会对其决策产生重大影响，可能导致非理性的投资行为，进而影响投资收益。本研究的目的在于探讨如何利用AI技术对价值投资者的情绪进行分析，并在此基础上实现有效的情绪控制。本研究的范围涵盖了金融市场中各类价值投资场景，包括股票、债券、基金等。同时，研究将聚焦于AI在情绪分析和控制中的应用，涉及自然语言处理、机器学习、深度学习等多

2048 AI社区

「Datawhale」RAG技术全栈指南 Task 3

向量嵌入与检索技术概述向量嵌入(embedding)是将高维数据转换为低维稠密向量的技术，其核心在于使语义相似对象在向量空间中距离更近。衡量embedding质量的标准是相近词向量相似度是否更高。相似度度量方法选择：余弦相似度：适合文本检索、聚类/去重等场景点积：L2归一化后等同于余弦相似度欧式距离：适用于图像特征、度量学习等场景向量检索技术： HNSW：多层近邻图结构，适合高召回+低

2048 AI社区

VeADK Agent 一键容器化部署，万字长文带你实战演练

背景近年来，人工智能技术的发展正从模型为中心转向以应用为中心，智能体（Agent）作为 AI 应用的核心载体，其落地部署需求日益迫切。而随着 AI 应用向生产环境迁移，以 Kubernetes 为核心的云原生基础设施成为很多企业的默认选择，为 Agent 应用提供标准化、可扩展且具备成本效益的运行时环境势在必行。根据 CNCF 最新发布的年度云原生调查：Kubernetes 已从容器编排工具，发展