我正在使用Pytorch进行猫狗分类。在训练和验证过程中,我一直有库达失忆的问题。如果我只参加训练,我就没有这个问题。但当我添加一个验证过程时,我会遇到这个oom问题。我看不出发生了什么事。
我尝试过:将batchsize更改为1;torch.cuda.empty_cache((;和tensor.cpu((。
运行时错误:CUDA内存不足。尝试分配98.00 MiB(GPU 0;8.00 GiB总容量;已分配7.21 GiB;0个字节可用;PyTorch总共保留7.29 GiB(如果保留内存>gt;分配的内存尝试设置max_split_size_mb以避免碎片。请参阅内存管理和PYTORCH_CUDA_ALLOC_COFF 文档
你能更新你的问题以显示你的代码吗?还要检查是否使用with torch.no_grad()
进行验证,因为否则它可能会计算梯度,从而消耗更多内存。