【经验】RuntimeError: CUDA error: out of memory

待我称王封你为后i 2022-10-15 12:54 268阅读 0赞

最近写代码,指定显卡的时候出现了CUDA error:out of memory的错误,用nvidia-smi命令查看发现该显卡并没有被占用呀,查了资料后才知道是调用的时候出了问题!
(当然,也有可能真的是显存不够了SOS,可能你的模型太大了巴拉巴拉,可以把batch_size调小啥啥的……)

错误示范:

  1. import os
  2. os.environ['CUDA_VISIBLE_DEVICES'] = '4'
  3. CUDA:4

结果报错:

  1. RuntimeError: CUDA error: out of memory

这里乍看上去没有问题,但是这里的CUDA:4的4指的并不是物理显卡的序号,而是逻辑序号,这里只列出了一个4号显卡,所以逻辑序号应该是0。所以,

正确写法:

  1. import os
  2. os.environ['CUDA_VISIBLE_DEVICES'] = '4'
  3. CUDA:0

那么如果是列出了多张显卡,像下面这样:

  1. import os
  2. import torch
  3. os.environ['CUDA_VISIBLE_DEVICES'] = '2, 4, 6, 8'
  4. device = torch.device("cuda:3" if torch.cuda.is_available() else "cpu")
  5. # 这里换种写法,可以判断能否用GPU计算

这里就代表使用8号显卡,因为它在列表里序号是3。

好了,这个问题解决了,去看下个问题了。。。
为什么我能写出这么多bug 佛了佛了


A u t h o r : C h i e r Author:Chier Author:Chier

发表评论

表情:
评论列表 (有 0 条评论,268人围观)

还没有评论,来说两句吧...

相关阅读