1. 安装GPUstack

GPUstack安装时会有server节点和worker节点

  1. 首先使用以下命令安装server节点:
curl -sfL https://get.gpustack.ai | sh -s

后面可以再跟–port指定端口,例如:--port 1234
例:curl -sfL https://get.gpustack.ai | INSTALL_PACKAGE_SPEC=gpustack[all] sh -s - --port 1234
其他参数可参考官网:https://docs.gpustack.ai/latest/quickstart/

  • 此处可能会提示没有安装pip,用以下命令安装即可:
# 安装 Python 3.10 专用的 pip
curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py python3.10 get-pip.py

没代理的情况下下载很慢,可以参考下面的命令提升速度:

curl -sfL https://get.gpustack.ai | \
  INSTALL_INDEX_URL=https://pypi.tuna.tsinghua.edu.cn/simple \
  TOOLS_DOWNLOAD_BASE_URL="https://gpustack-1303613262.cos.ap-guangzhou.myqcloud.com" \
  sh -s - --port 1234
  1. 安装好后,使用以下命令查看GPUstack的初始密码:
cat /var/lib/gpustack/initial_admin_password

此时,可以使用admin用户登录本机,例如:localhost:1234
密码即为上面显示的字符串,首次登录后会要求修改密码。

  1. 下面开始安装worker节点:
    登录server节点的机器,执行命令获取Token
cat /var/lib/gpustack/token
  1. 注册 Worker (注意:mytoken 为第一步获取到的 Token)
    在worker节点执行以下命令:
curl -sfL https://get.gpustack.ai | sh -s - --server-url http://localhost:1234 --token ${mytoken}
  1. 成功后,在网页刷新 worker 列表即可看到新的 worker

至此,GPUstack部分安装完成,此时网页上已经显示server和worker节点,但是并没有GPU信息,因为系统可能还没有安装GPU驱动。

  • 卸载
    使用命令:sudo /var/lib/gpustack/uninstall.sh

安装GPU驱动

使用如下命令,查找适合的驱动版本:

ubuntu-drivers devices

在这里插入图片描述
如上图所示,找到带recommended字样的版本安装(此处需要先apt update)。

sudo apt install nvidia-driver-550

安装好后,终端输入nvidia-smi,显示显卡信息即表示驱动安装成功!

nvidia-smi

1.1 通过pip安装

apt install python3-pip
pip install gpustack

验证:

gpustack version   # 安装成功会显示版本号

将gpustack添加到服务,直接执行:

sudo tee /etc/systemd/system/gpustack.service > /dev/null <<EOF
[Unit]
Description=GPUStack Service
Wants=network-online.target
After=network-online.target

[Service]
EnvironmentFile=-/etc/default/%N
ExecStart=$(command -v gpustack) start
Restart=always
StandardOutput=append:/var/log/gpustack.log
StandardError=append:/var/log/gpustack.log

[Install]
WantedBy=multi-user.target
EOF

开启gpustack
systemctl daemon-reload && systemctl enable gpustack --now
查看状态
systemctl status gpustack


  • 1.2 通过Docker安装(推荐)

apt update
apt install docker.io   # 这部分不全,可以找找其他教程

验证:docker info

执行pull命令:

docker pull swr.cn-north-9.myhuaweicloud.com/gpustack/gpustack:v0.7.1-musa

执行docker image ls找到相应的镜像,并执行run命令启动docker:
在这里插入图片描述

docker run -d --name gpustack \
    --restart=unless-stopped \
    --network=host \
    --ipc=host \
    -v gpustack-data:/var/lib/gpustack \
    swr.cn-north-9.myhuaweicloud.com/gpustack/gpustack:v0.7.1-musa \
    --port XXXX

其中port修改为端口号

run成功之后执行下面命令获取初始密码:

docker exec -it gpustack cat /var/lib/gpustack/initial_admin_password

可能需要安装 NVIDIA Container Toolkit

步骤 1: 添加 NVIDIA 仓库
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
步骤 2: 更新并安装
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
步骤 3: 重启 Docker
sudo systemctl restart docker

2. 安装CUDA

  1. 找到合适的版本
    首先需要先找到适配自己GPU驱动的CUDA版本,此处可以参考nvidia官网
    此外,nvidia-smi的右上角写的CUDA version即为此驱动支持的最高版本
    在这里插入图片描述
  2. 下载安装
    选择好合适的版本后,到英伟达官网按需选择合适的版本,最后一项推荐runfile,按要求下载安装即可。
    在这里插入图片描述
  • 选择continue
  • 输入accept
  • 取消勾选驱动(因为刚才已经安装好了驱动),再选择install
  1. 配置环境变量
vim ~/.bashrc

在文件的最后加上以下环境变量:

export PATH=$PATH:/usr/local/cuda/bin  

更新环境变量:

source ~/.bashrc

验证CUDA安装情况:

nvcc --version

出现以下信息即为安装成功!

在这里插入图片描述

3. 安装CUDNN

同样地,到NVIDIA官网按需选择相应的驱动
按顺序执行红色框内的命令即可,需要注意最后一行要在下面替换成相应的版本
在这里插入图片描述
我这里安装的是CUDA12,即替换为下面这个:
在这里插入图片描述
安装完成后,可以通过以下命令验证 cuDNN 是否安装成功:

dpkg -l | grep cudnn

显示如下信息即为安装成功!
在这里插入图片描述

参考教程:

GPUstack:

  • https://blog.csdn.net/m0_61069946/article/details/145468772

安装驱动 CUDA CUDNN:

  • https://blog.csdn.net/qq_34972053/article/details/127689332
  • https://blog.csdn.net/xiaomu_347/article/details/91348103
  • https://blog.csdn.net/KRISNAT/article/details/134870009
  • https://blog.csdn.net/h3c4lenovo/article/details/119003405?spm=1001.2014.3001.5506
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐