最近公司多台AI服务器在训练过程中出现各自显卡报错,找不到原因,最后猜测是电源或功率太大造成的,用的是rtx3090,最后锁住功率,正常了!

sudo nvidia-smi -lgc 800,1600

参考:解决[Unable to determine the device handle for GPU...: Unknown Error]问题_unable to determine the device handle for gpu0000:-CSDN博客

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐