【经验】RuntimeError: CUDA error: out of memory
最近写代码,指定显卡的时候出现了CUDA error:out of memory
的错误,用nvidia-smi
命令查看发现该显卡并没有被占用呀,查了资料后才知道是调用的时候出了问题!
(当然,也有可能真的是显存不够了SOS,可能你的模型太大了巴拉巴拉,可以把batch_size调小啥啥的……)
错误示范:
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '4'
CUDA:4
结果报错:
RuntimeError: CUDA error: out of memory
这里乍看上去没有问题,但是这里的CUDA:4的4指的并不是物理显卡的序号,而是逻辑序号,这里只列出了一个4号显卡,所以逻辑序号应该是0。所以,
正确写法:
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '4'
CUDA:0
那么如果是列出了多张显卡,像下面这样:
import os
import torch
os.environ['CUDA_VISIBLE_DEVICES'] = '2, 4, 6, 8'
device = torch.device("cuda:3" if torch.cuda.is_available() else "cpu")
# 这里换种写法,可以判断能否用GPU计算
这里就代表使用8号显卡,因为它在列表里序号是3。
好了,这个问题解决了,去看下个问题了。。。
为什么我能写出这么多bug 佛了佛了
A u t h o r : C h i e r Author:Chier Author:Chier
还没有评论,来说两句吧...