想要在ubuntu系统运用gpu进行AI加速训练,那么必须要安装显卡驱动、cuda和cudnn。

首先介绍一下这三者的区别和联系:

组件

开发者

核心功能

作用层次

适用场景

显卡驱动

NVIDIA

直接控制显卡硬件,负责显卡与操作系统的通信,实现基础图形渲染和计算功能。

硬件接口层(最底层)

所有依赖 NVIDIA 显卡的场景(游戏、渲染、计算等)

CUDA

NVIDIA

提供 GPU 编程框架(包括 API、编译器、运行时库等),让开发者能通过代码调用 GPU 算力。

编程接口层(中间层)

通用 GPU 计算(如深度学习训练、科学计算、视频编解码等)

cuDNN

NVIDIA

针对深度学习的专用加速库,封装了大量卷积、池化等神经网络核心操作的优化实现。

应用加速层(最上层)

深度学习框架(TensorFlow、PyTorch 等)的底层加速

安装显卡驱动

通过 NVIDIA 官方.run 文件安装

禁用 nouveau 驱动:

sudo bash -c "echo blacklist nouveau > /etc/modprobe.d/blacklist-nouveau.conf"

sudo bash -c "echo options nouveau modeset=0 >> /etc/modprobe.d/blacklist-nouveau.conf"

sudo update-initramfs -u

sudo reboot 

下载 NVIDIA 驱动:
NVIDIA 官网下载对应显卡型号的.run 文件。这里可能需要登录一下,没有Nvidia帐号的需要注册一个帐号。

 

根据自己的显卡型号选择显卡系列,这里我的显卡是GeForce RTX 20系列的2080显卡,系统选择linux系统,我这里是64位的,所以选择Linux 64

然后点击查找

点击下载

运行安装程序

sudo chmod +x NVIDIA-Linux-x86_64-xxxx.run  # 替换为你的文件名

sudo ./NVIDIA-Linux-x86_64-xxxx.run --no-opengl-files

NVIDIA Proprietary

含义:即 NVIDIA 专有的闭源驱动,由 NVIDIA 官方开发和维护。

性能表现:它针对 NVIDIA 显卡进行了深度优化,能够充分发挥显卡的硬件性能,无论是在图形渲染、游戏运行,还是在 CUDA 计算(如深度学习、科学计算)等方面,都能提供最佳的性能表现。例如在深度学习训练中,使用专有驱动能让 GPU 更高效地处理神经网络计算任务,大幅缩短训练时间。

功能支持:能完整支持 NVIDIA 显卡的所有特性和功能,像光线追踪、DLSS(深度学习超级采样)等先进的图形技术,只有在专有驱动下才能正常启用和发挥最佳效果 。

稳定性:官方会对驱动进行大量的测试和优化,以确保在各种操作系统和硬件环境下的稳定性,减少系统崩溃和软件冲突的风险。

MIT/GPL

含义:基于 MIT 或 GPL 开源协议的驱动,这类驱动通常是开源社区开发的。

性能限制:由于没有 NVIDIA 官方对显卡硬件底层的深入了解和优化,在性能上往往无法与专有驱动相媲美,在复杂计算任务和高画质游戏中,可能会出现帧率较低、计算速度慢等情况。

功能完整性:对于 NVIDIA 显卡的一些最新特性和专有技术,开源驱动可能无法及时支持或者支持不完整,比如新推出的图形加速技术、CUDA 功能更新等,开源驱动可能无法提供相应的支持。

稳定性和兼容性:开源驱动的维护和更新相对没有 NVIDIA 官方那么及时和全面,在与不同版本的操作系统、内核以及其他软件的兼容性上,可能会存在更多问题,导致系统不稳定或者软件无法正常运行。

综上所述,如果你希望充分发挥 NVIDIA 显卡的性能,获得完整的功能支持和更好的稳定性,选择 “NVIDIA Proprietary” 是更好的选择。

选择continue

continue

可以看到出现了问题

这里需要点击ok返回终端

用sudo apt install gcc 安装gcc

再次执行安装操作出现

需要返回终端执行sudo apt install make 安装 make 工具

开始安装

安装后出现选项

选择建议:

若系统有 32 位程序依赖显卡(如运行 Wine 里的 32 位游戏),选 Yes;

若仅用 64 位程序(现代系统主流),选 No 不影响核心功能,还能减少冗余安装。

我这里没有32位程序,所以选择不安装

继续安装ing

下面选项一般常规安装选 Yes 更省心,能让驱动顺利接管图形渲染;有特殊 X 配置需求(如多屏复杂布局),可按需选 No 手动适配。

安装完成,输入nvidia-smi出现下图所示输出(有些电脑需要重启才能让驱动生效)

SourceURL:file:///media/m/D63F74B0D80FB5BF/2025/20250718算法库/ubuntu系统安装cuda.docx

安装 CUDA Toolkit

通过.run 文件安装(推荐)

下载 CUDA Toolkit:
CUDA Toolkit Archive选择所需版本(如 CUDA 11.8),并下载.run 文件。

这里需要下载与显卡匹配的cuda版本,我下载的驱动最高支持12.8版本的cuda,这里我选择12.2.0版本的cuda进行下载,根据自己的系统选配进行下载

下载命令:

wget https://developer.download.nvidia.com/compute/cuda/12.2.0/local_installers/cuda_12.2.0_535.54.03_linux.run

运行安装程序

chmod +x cuda_×××_linux.run 
sudo ./cuda_×××_linux.run 

输入accept接受协议

注意:安装时取消勾选 “Driver”(已安装显卡驱动),只选择 “CUDA Toolkit” 和 “CUDA Samples”。

配置环境变量

echo 'export PATH=/usr/local/cuda-12.2/bin:$PATH' >> ~/.bashrc

echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.2/lib64:$LD_LIBRARY_PATH'

source ~/.bashrc 

验证安装

nvcc --version

 

SourceURL:file:///media/m/D63F74B0D80FB5BF/2025/20250718算法库/ubuntu系统安装cuda.docx

安装 cuDNN

注册 NVIDIA 开发者账号并下载 cuDNN
访问cuDNN 下载页面,选择与 CUDA 版本兼容的 cuDNN 版本(如 cuDNN 8.9.2 for CUDA 11.x),下载压缩包(.tar.xz)。

解压并安装 cuDNN

wget https://developer.download.nvidia.com/compute/cudnn/9.11.0/local_installers/cudnn-local-repo-ubuntu2204-9.11.0_1.0-1_amd64.deb
sudo dpkg -i cudnn-local-repo-ubuntu2204-9.11.0_1.0-1_amd64.deb
sudo cp /var/cudnn-local-repo-ubuntu2204-9.11.0/cudnn-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cudnn
sudo apt-get -y install cudnn-cuda-12

到此所有AI训练的gpu环境已经安装好,私有化部署(企鹅:1901935655)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐