我正在训练一个深度学习模型(链接),它在每个epoch后打印损失和鲁棒性统计,但是当它完成执行终端关闭时,我无法看到统计(我使用ssh+屏幕功能,所以这是正常的)。我做了120个epoch,训练后生成了一个名为log
的文件夹,其中包含train_stats.npy
,生成了一个名为resnet
的文件夹(训练代码在train_resnet.py
中),每个epoch包含2个文件,例如:
model-res-epoch93.pt opt-res-checkpoint_epoch93.tar
model-res-epoch94.pt opt-res-checkpoint_epoch94.tar
model-res-epoch95.pt opt-res-checkpoint_epoch95.tar
model-res-epoch96.pt opt-res-checkpoint_epoch96.tar
model-res-epoch97.pt opt-res-checkpoint_epoch97.tar
model-res-epoch98.pt opt-res-checkpoint_epoch98.tar
model-res-epoch99.pt opt-res-checkpoint_epoch99.tar
model-res-epoch9.pt opt-res-checkpoint_epoch9.tar
我是否可以使用这些文件中的任何一个来获取特定纪元的统计数据?还是我必须重复训练?
这些文件可能只包含模型状态和训练检查点。如果您将损失和指标保存在检查点存档中,那么您将能够检索此信息。否则,这些信息就无法访问了。你在.tar
档案中保存了什么?