安装GPUstack CUDA CUDNN

GPUstack安装时会有server节点和worker节点后面可以再跟–port指定端口，例如：–port 1234其他参数可参考官网：https://docs.gpustack.ai/latest/quickstart/此时，可以使用admin用户登录本机，例如：localhost:1234，首次登录后会要求修改密码。至此，GPUstack部分安装完成，此时网页上已经显示server和work

weixin_43730010

2827人浏览 · 2025-03-10 17:02:10

weixin_43730010 · 2025-03-10 17:02:10 发布

1. 安装GPUstack

GPUstack安装时会有server节点和worker节点

首先使用以下命令安装server节点：

curl -sfL https://get.gpustack.ai | sh -s

后面可以再跟–port指定端口，例如：--port 1234
例：curl -sfL https://get.gpustack.ai | INSTALL_PACKAGE_SPEC=gpustack[all] sh -s - --port 1234
其他参数可参考官网：https://docs.gpustack.ai/latest/quickstart/

此处可能会提示没有安装pip，用以下命令安装即可：

# 安装 Python 3.10 专用的 pip
curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py python3.10 get-pip.py

没代理的情况下下载很慢，可以参考下面的命令提升速度：

curl -sfL https://get.gpustack.ai | \
  INSTALL_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple \
  TOOLS_DOWNLOAD_BASE_URL="https://gpustack-1303613262.cos.ap-guangzhou.myqcloud.com" \
  sh -s - --port 1234

安装好后，使用以下命令查看GPUstack的初始密码：

cat /var/lib/gpustack/initial_admin_password

此时，可以使用admin用户登录本机，例如：localhost:1234
密码即为上面显示的字符串，首次登录后会要求修改密码。

下面开始安装worker节点：
登录server节点的机器，执行命令获取Token

cat /var/lib/gpustack/token

curl -sfL https://get.gpustack.ai | sh -s - --server-url http://localhost:1234 --token ${mytoken}

成功后，在网页刷新 worker 列表即可看到新的 worker

至此，GPUstack部分安装完成，此时网页上已经显示server和worker节点，但是并没有GPU信息，因为系统可能还没有安装GPU驱动。

卸载
使用命令：sudo /var/lib/gpustack/uninstall.sh

安装GPU驱动

使用如下命令，查找适合的驱动版本：

ubuntu-drivers devices

在这里插入图片描述
如上图所示，找到带recommended字样的版本安装（此处需要先apt update）。

sudo apt install nvidia-driver-550

安装好后，终端输入nvidia-smi，显示显卡信息即表示驱动安装成功！

nvidia-smi

1.1 通过pip安装

apt install python3-pip
pip install gpustack

验证：

gpustack version   # 安装成功会显示版本号

将gpustack添加到服务，直接执行：

sudo tee /etc/systemd/system/gpustack.service > /dev/null <<EOF
[Unit]
Description=GPUStack Service
Wants=network-online.target
After=network-online.target

[Service]
EnvironmentFile=-/etc/default/%N
ExecStart=$(command -v gpustack) start
Restart=always
StandardOutput=append:/var/log/gpustack.log
StandardError=append:/var/log/gpustack.log

[Install]
WantedBy=multi-user.target
EOF

开启gpustack
systemctl daemon-reload && systemctl enable gpustack --now
查看状态
systemctl status gpustack

1.2 通过Docker安装（推荐）

apt update
apt install docker.io   # 这部分不全，可以找找其他教程

验证：docker info

执行pull命令：

docker pull swr.cn-north-9.myhuaweicloud.com/gpustack/gpustack:v0.7.1-musa

执行docker image ls找到相应的镜像，并执行run命令启动docker：
在这里插入图片描述

docker run -d --name gpustack \
    --restart=unless-stopped \
    --network=host \
    --ipc=host \
    -v gpustack-data:/var/lib/gpustack \
    swr.cn-north-9.myhuaweicloud.com/gpustack/gpustack:v0.7.1-musa \
    --port XXXX

其中port修改为端口号

run成功之后执行下面命令获取初始密码：

docker exec -it gpustack cat /var/lib/gpustack/initial_admin_password

可能需要安装 NVIDIA Container Toolkit

步骤 1: 添加 NVIDIA 仓库

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

步骤 2: 更新并安装

sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit

步骤 3: 重启 Docker

sudo systemctl restart docker

2. 安装CUDA

找到合适的版本
首先需要先找到适配自己GPU驱动的CUDA版本，此处可以参考nvidia官网
此外，nvidia-smi的右上角写的CUDA version即为此驱动支持的最高版本
下载安装
选择好合适的版本后，到英伟达官网按需选择合适的版本，最后一项推荐runfile，按要求下载安装即可。

选择continue
输入accept
取消勾选驱动（因为刚才已经安装好了驱动），再选择install

配置环境变量

vim ~/.bashrc

在文件的最后加上以下环境变量：

export PATH=$PATH:/usr/local/cuda/bin

更新环境变量：

source ~/.bashrc

验证CUDA安装情况：

nvcc --version

出现以下信息即为安装成功！

在这里插入图片描述

3. 安装CUDNN

同样地，到NVIDIA官网按需选择相应的驱动
按顺序执行红色框内的命令即可，需要注意最后一行要在下面替换成相应的版本
在这里插入图片描述
我这里安装的是CUDA12，即替换为下面这个：

安装完成后，可以通过以下命令验证 cuDNN 是否安装成功：

dpkg -l | grep cudnn

显示如下信息即为安装成功！
在这里插入图片描述

参考教程：

GPUstack：

https://blog.csdn.net/m0_61069946/article/details/145468772

安装驱动 CUDA CUDNN：

https://blog.csdn.net/qq_34972053/article/details/127689332
https://blog.csdn.net/xiaomu_347/article/details/91348103
https://blog.csdn.net/KRISNAT/article/details/134870009
https://blog.csdn.net/h3c4lenovo/article/details/119003405?spm=1001.2014.3001.5506

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

大佬级大模型微调手把手教程（小白能懂，代码可直接复制，全程实战无坑）

现在的大模型（GPT、通义千问、LLaMA等），就像一个“饱读诗书的通才”——能聊天、写代码、做总结，但面对你的具体需求（比如公司客服话术、行业专业问答、专属风格生成），总会显得“不够精准”。而大模型微调，就是“给通才做专项培训”，用少量专属数据，让通用大模型变成“你的专属AI助手”，精准适配你的业务场景。我见过太多小白对微调的困惑：“微调是不是很难？需要高深的数学功底吗？”“没有高端GPU能做微

2048 AI社区

Multi-Agent系统的成本优化：从资源调度到计费模式的完整实践

近两年来，Multi-Agent（多智能体）系统凭借其在复杂任务拆解（如文档批量检索增强翻译、代码库分层重构评审、多轮交互式客户决策辅助）上的强大能力，从科研原型快速走向生产落地。但随之而来的是指数级攀升的基础设施成本与大语言模型（LLM）API调用成本——根据Gartner 2024年Q2的技术趋势报告，部署在公有云的生产级Multi-Agent系统，平均有68%的运营成本（OPEX）来自LLM