deepspeed训练时export CUDA_VISIBLE_DEVICES无效这件事
官方文档在一个犄角旮旯的地方说了不管用(哭了,早点看到少受罪两天)
·
官方文档在一个犄角旮旯的地方说了不管用(哭了,早点看到少受罪两天)
见Resource Configuration (single-node)
所以正确的做法是使用--include在.py前指定你要用的GPU
--include localhost:6,7,8,9 \
顺便多说一句,仅仅单服务器(节点)训练压根不需要hostfile
更多推荐


所有评论(0)