如何在pytorch中检查模型在特定纪元的损失?



我正在训练一个深度学习模型(链接),它在每个epoch后打印损失和鲁棒性统计,但是当它完成执行终端关闭时,我无法看到统计(我使用ssh+屏幕功能,所以这是正常的)。我做了120个epoch,训练后生成了一个名为log的文件夹,其中包含train_stats.npy,生成了一个名为resnet的文件夹(训练代码在train_resnet.py中),每个epoch包含2个文件,例如:

model-res-epoch93.pt   opt-res-checkpoint_epoch93.tar
model-res-epoch94.pt   opt-res-checkpoint_epoch94.tar
model-res-epoch95.pt   opt-res-checkpoint_epoch95.tar
model-res-epoch96.pt   opt-res-checkpoint_epoch96.tar
model-res-epoch97.pt   opt-res-checkpoint_epoch97.tar
model-res-epoch98.pt   opt-res-checkpoint_epoch98.tar
model-res-epoch99.pt   opt-res-checkpoint_epoch99.tar
model-res-epoch9.pt    opt-res-checkpoint_epoch9.tar

我是否可以使用这些文件中的任何一个来获取特定纪元的统计数据?还是我必须重复训练?

这些文件可能只包含模型状态和训练检查点。如果您将损失和指标保存在检查点存档中,那么您将能够检索此信息。否则,这些信息就无法访问了。你在.tar档案中保存了什么?

最新更新