PyTorch无法指定GPU的问题解决

最近在一台8卡服务器上跑PyTorch的训练代码，一直都没有问题。但是重新安装cuda之后，无法指定在哪几块GPU上运行了，只能按照顺序使用。查了一些资料，问题得到解决。1、在python程序中指定在哪几块GPU上运行，通常采用如下方式：import osimport torchos.environ["CUDA_VISIBLE_DEVICES"] = "4,5,6,7"或者直接在命令行中执行以下命

一个菜鸟的奋斗

15840人浏览 · 2020-06-23 17:10:54

一个菜鸟的奋斗 · 2020-06-23 17:10:54 发布

最近在一台8卡服务器上跑PyTorch的训练代码，一直都没有问题。但是重新安装cuda之后，无法指定在哪几块GPU上运行了，只能按照顺序从第0块开始使用。查了一些资料，问题得到解决。

1、在python程序中指定在哪几块GPU上运行，通常采用如下方式：

import os
import torch

os.environ["CUDA_VISIBLE_DEVICES"] = "4,5,6,7"

或者直接在命令行中执行以下命令（不推荐）：

export CUDA_VISIBLE_DEVICES=4,5,6,7

2、按照之前的写法，突然上面的代码无效了，无论怎么修改可见的GPU编号，最后程序都是按照顺序从第0块开始使用。问题出在指定GPU这行代码的位置上面，需要将“os.environ["CUDA_VISIBLE_DEVICES"] = "4,5,6,7"”移到import torch等代码之前，紧随import os之后，即按照如下的方式：

import os

os.environ["CUDA_VISIBLE_DEVICES"] = "4,5,6,7"

import torch

3、附带查看GPU信息的一些常用指令以备后用，如下：

import torch

torch.cuda.is_available()  # 查看cuda是否可用

torch.cuda.device_count()  # 返回GPU数目

torch.cuda.get_device_name(0)  # 返回GPU名称，设备索引默认从0开始

torch.cuda.current_device()  # 返回当前设备索引

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Expect脚本实战：多条件匹配与防卡死技巧

在自动化测试和系统初始化中，我们常常使用 Expect 脚本来完成一系列交互操作，比如自动输入密码、监听输出并作出响应。然而，实际项目中可能遇到多步骤输出匹配的场景：只有在先匹配到某一行输出，再匹配到另一行输出时，才需要做出响应。同时，如果 “testX failed” 出现了，但 “set params error” 没有在合理时间内出现，不要卡死，而是打印警告并继续。这个写法的问题在于：如

2048 AI社区

AI模型版本控制的标签管理：架构师的技巧

在AI模型生命周期中，版本控制是保障模型可追溯性、协作效率与生产可靠性的核心环节。而标签管理作为版本控制的"语义接口"，其设计质量直接决定了团队对模型版本的理解、检索与复用能力。本文从架构师视角出发，结合第一性原理与MLOps实践，系统阐述AI模型标签管理的理论框架、架构设计、实现机制与高级考量。通过拆解标签的"唯一标识+语义描述"本质，提出四维标签模型。